Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2022年度データアナリティクスII-第4回-20220502
Search
Y. Yamamoto
PRO
May 02, 2022
Education
0
430
2022年度データアナリティクスII-第4回-20220502
データ可視化
Y. Yamamoto
PRO
May 02, 2022
Tweet
Share
More Decks by Y. Yamamoto
See All by Y. Yamamoto
ビッグデータ × AI = DX?
trycycle
PRO
0
530
名古屋市立大学データサイエンス学部 秋のオープンキャンパス模擬授業20231111
trycycle
PRO
0
8.2k
機械学習 - ニューラルネットワーク
trycycle
PRO
0
640
データサイエンス入門 - ビッグデータとAI
trycycle
PRO
0
660
2022年度データアナリティクスII-第3回-20220425
trycycle
PRO
0
330
2022年度データアナリティクスII-第2回-20220418
trycycle
PRO
0
570
2022年度データアナリティクスII-第1回-20220411
trycycle
PRO
0
400
2017年度-若手研究B-研究計画調書
trycycle
PRO
1
1.9k
2018年度-基盤研究C-特設分野-研究計画調書
trycycle
PRO
1
3.2k
Other Decks in Education
See All in Education
SkimaTalk Teacher Guidelines
skimatalk
0
710k
Поступай в ТОГУ 2025
pnuslide
0
29k
Gesture-based Interaction - Lecture 6 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.6k
オンラインゆっくり相談室ってなに?
ytapples613
PRO
0
390
Information Architectures - Lecture 2 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.4k
(元)教育担当がお伝えする、若手社員が成長しまくるOJTポイント
masakiokuda
0
260
家族をスクラムチームに! アジャイルで取り組む家事と育児 | Install Scrum to Family
coosuke
PRO
1
240
(説明資料)オンラインゆっくり相談室
ytapples613
PRO
0
310
ビジネススキル研修紹介(株式会社27th)
27th
PRO
1
820
自分にあった読書方法を探索するワークショップ / Reading Catalog Workshop
aki_moon
0
350
FinOpsスキルの効率的な上げ方 #ochacafe
chacco38
1
120
Introduction - Lecture 1 - Information Visualisation (4019538FNR)
signer
PRO
0
4.4k
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Rails Girls Zürich Keynote
gr2m
94
13k
The Pragmatic Product Professional
lauravandoore
33
6.5k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
25k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
For a Future-Friendly Web
brad_frost
176
9.6k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
GraphQLとの向き合い方2022年版
quramy
45
14k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Git: the NoSQL Database
bkeepers
PRO
429
65k
How to Ace a Technical Interview
jacobian
276
23k
Transcript
⼭本 祐輔 静岡⼤学 情報学部
[email protected]
2022年度前期 データアナリティクスII – 山本担当モジュール4 2022年5月2日
⼭本祐輔 クリエイティブコモンズライセンス (CC BY-NC-SA 4.0) データ可視化: 明確で説得力のあるデータの伝え方
様々なデータ可視化⼿法
データ可視化の歴史:棒グラフ William Playfair, “Commercial and Political Atlas” (1786)
データ可視化の歴史: 鶏冠チャート Florence Nightingale , "Diagram of the causes of
mortality in the army in the East" (1858)
データ可視化の歴史: Interactive Data Visualization Aaron Koblin, ”Flight Pattern" (2015)
データの可視化で重要なこと 量 分布 内訳 変数間関係 … 時系列 可視化手法 伝えたい内容
可視化表現の違いは解釈に影響を与える 画像出典: https://clauswilke.com/dataviz/aesthetic-mapping.html
データの可視化で重要なこと 量 分布 内訳 変数間関係 … 時系列 可視化手法 伝えたい内容 伝えたい内容に応じて適した可視化手法を使わないと,
適切な解釈を導くことはできない
今⽇のお題 データから適切かつ意義のある洞察を 得るためのデータ可視化手法を理解する 10 図のデザイン原則も別途学ぶ必要あり
1 目的に応じたデータ可視化手法
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
棒グラフ 量を可視化し各カテゴリの値を比較できるようにする 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 2017年12/22-24の週末の最⾼興⾏収⼊映画 表現する量の⼤きさが棒の⻑さと⽐例させるために 棒の始点をゼロにする必要あり
棒グラフの作成ポイント(1/2) 棒の並びは棒の長さ順に並んでいる方が理解しやすい 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 棒を並べる変数に⾃然な並び⽅がない場合は
棒グラフの作成ポイント(2/2) 変数がもつ順序にしたがって棒グラフを並べるべき 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 棒を並べる変数に⾃然な並び⽅がある場合は 2016年のアメリカにおける年齢別の世帯年間所得中央値
棒グラフのグループ化 同時に2つのカテゴリ変数に注目し 各カテゴリの値を比較できるようにする 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 2016年のアメリカにおける年齢・⼈種別の世帯年間所得中央値
ドットプロット(1/2) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 2007年時点のアメリカ⼤陸の平均寿命(歳) 棒の長さではなく,点の位置で量の大小を表現
ドットプロット(2/2) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 近い値の大小関係を比較したい場合に有効 棒グラフ ドットプロット 棒グラフは棒の⼤きさと値を⽐例させないと直感に反するが, 以下の例で棒グラフを⽤いると,値の⼤⼩差が⽬⽴たない
ヒートマップ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html インターネット普及率の経年変化 値を色に対応させて大まかな傾向を直感的に表現
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
ヒストグラム 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 1変数の値がどのように分布しているかを棒グラフで表現 ビン(階級)の幅を棒の幅に,度数を棒の⾼さに対応させる タイタニック号の乗客の年齢のヒストグラム
ヒストグラムの注意点 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html ビン(階級)幅の選び方でヒストグラムの解釈が変わる ・幅が狭すぎると,データの主要な傾向が不明瞭に ・幅が広すぎると,データの分布の細かい特徴が失われる タイタニック号の乗客の年齢のヒストグラム 必ず複数のビン幅を試し,ベストな表現を探る
密度プロット 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html データ本来の確率分布を推定し連続曲線として表現 データが⼤量にあるのであれば,適切な情報を与えてくれる タイタニック号の乗客の年齢分布の密度プロット
複数の分布の可視化:積み上げヒストグラム 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html タイタニック号の乗客の男⼥別年齢のヒストグラム 同じビンの上に別のヒストグラムを積み上げる
積み上げヒストグラムの⽋点 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html タイタニック号の乗客の男⼥別年齢のヒストグラム 欠点1: 上側のヒストグラムの基準点が分かりづらい 欠点2: 上側のヒストグラムの高さを直接比較できない
年齢ピラミッドプロット 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html タイタニック号の乗客の男⼥別年齢のヒストグラム 可視化したい分布が2つの場合の良い可視化手法
年齢ピラミッドプロット 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html タイタニック号の乗客の男⼥別年齢のヒストグラム 可視化したい分布が2つの場合の良い可視化手法 3つ以上のたくさんの分布をを同時に 可視化するには,どうしたらよいか?
箱ひげ図: Boxplot(1/2) 外れ値 最⼤値 第3四分位数 中央値 第1四分位数 最⼩値 サンプルの分布 箱ひげ図
データ分布の要約統計量を可視化するプロット
箱ひげ図: Boxplot(2/2) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html ネブラスカ州リンカーンの⽇平均気温 シンプルだが情報量が多く,複数分布を同時に 可視化可能
バイオリンプロット: 箱ひげ図の弱点を克服 サンプルの分布 箱ひげ図 最⼤値 最⼩値 バイオリンプロット 分布の形状を保存してデータの分布を可視化
バイオリンプロットの例 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html ネブラスカ州リンカーンの⽇平均気温 個々のデータポイントを点として同時にプロット するとより効果的
累積分布 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html テストの得点 正規化された累積度数 特定の値以下のサンプルの総数をプロット ヒストグラムのように階級幅を設定する必要なし 80点以下の⼈は 全体の40% 学術業界や技術業界ではよく⽤いられる
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
円グラフ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 扇形の面積で要素の全体に占める割合を表現 第8回ドイツ連邦議会の政党構成 円グラフはビジネスシーンでよく⽤いられるが… 半分,3分の1などの簡単な割合が視覚的にわかりやすい
積み上げ棒グラフ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 円グラフの概念を長方形に適応した可視化手法 第8回ドイツ連邦議会の政党構成 複数の条件を並べて⽐較したり,時系列で⽐較するのが容易
横並び棒グラフ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 積み上げ棒グラフの要素を取り出して横に配置 第8回ドイツ連邦議会の政党構成 内訳要素の⼤⼩を直接⽐較することが容易
円グラフの⽋点の解決策 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 各企業(A-E)の2015-2017年のシェアの⽐較 横並び棒グラフを使えば要素間/時間変化比較が可能 全体に占める割合を直感的に把握しづらい…
横並び密度グラフ:横並び棒グラフの弱点を克服 該当グループ 全調査対象 未婚 既婚 離婚 相対⽐率 年齢 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
ある場所の年齢別婚姻状況 個々の要素を別々にプロットし, 個々のプロットで全体と並べるようにして可視化 内訳の可視化は難しいので、case by caseで対応すること
⼊れ⼦構造の内訳を可視化したいケース ピッツバーグの橋梁の部材別および架設時期別の内訳 現代(鋼) 成熟期(鋼) 新興期(鋼) 伝統期(⽊) 新興期(⽊) 成熟期(⽊) 伝統期(鉄) 新興期(鉄)
成熟期(鉄) 悪例:すべての組み合わせを円グラフ内で表現 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 正しい表現だが理解しづらい…
⼊れ⼦構造の内訳を可視化⼿法: モザイク図 ピッツバーグの橋梁の部材別および架設時期別の内訳 2つの変数を縦軸と横軸のそれぞれに配置し, それぞれの方向の長さでその要素の割合を表現 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 成熟期 伝統期 新興期
現代 鋼 鉄 ⽊
3つ以上の変数の内訳を⽰す: パラレルセットプロット(サンキー図) ピッツバーグの橋梁の部材別および架設時期別の内訳 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html アレゲニー川 モノンガビラ川 オハイオ川 短い 中程度
⻑い 鋼 ⽊ 鉄 伝統期 新興期 成熟期 現代 全体を個々の変数で分解したときの内訳を示すと同時に, 個々の小グループがどのような関係にあるかを色つき帯で表現
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
散布図 (1/2) 2つの変数の関係性を点の群れで可視化 123⽻のアオカケスの体重に対する頭⻑ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
散布図(2/2) カテゴリ毎に点の色を分けることで 変数間の関係の違いを確認することも可能に 123⽻のアオカケスの体重に対する頭⻑ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
散布図⾏列 変数間のすべての組み合わせ散布図で表現 123⽻のアオカケスに関する頭⻑,体重,頭蓋サイズ間の関係性 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 変数が多くなると直感的に判断しづらくなる…
コレログラム: 相関関係の可視化 ある科学捜査中に得られたガラス⽚214サンプルの鉱物含有量の相関 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 変数間の相関係数を色やサイズで表現 変数間の相関係数が素早く直感的に把握可能に 抽象的になるので重要な特徴を⾒落とす可能性あり…
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
折れ線グラフ(1/4) プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 時系列データなど、 一方の変数に順序関係がある時の可視化手法
折れ線グラフ(2/4) プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 隣り合う点を線で結ぶことで順序を視覚的に強調 散布図 折れ線グラフ
折れ線グラフ(3/4) プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 折れ線より下の領域を塗りつぶすことで データの全体的な傾向が強調される 折れ線グラフ 折れ線グラフ++
折れ線グラフ(4/4) オーツ⻨(オートミールの原料)の品種毎/施肥量別の平均収穫量 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html データ間に固有の順序があれば 時系列データに限らず折れ線グラフは使える
2 プロポーショナルインクの原則 Principle of Proportional Ink
色を塗った領域を用いて数値を表す場合、 その色を塗った領域の面積は、対応する 数値に対して正比例している必要あり この原則を満たしていないと 誤った解釈を与えることに… プロポーショナルインクの原則
Bad visualization の例1: 棒グラフ(befere) ハワイ州の5つの郡の所得中央値 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html Q. ハワイ郡は他の郡に比べて非常に貧しい? 原点がゼロでない
⼈間はバーの⾼さこそが重要だと勘違いする…
Bad visualization の例1: 棒グラフ(after) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html Q. ハワイ郡は他の郡に比べて非常に貧しい? 線形スケールの棒グラフの始点は0にすること ハワイ州の5つの郡の所得中央値
Bad visualization の例2: 折れ線グラフ(befere) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html Q. Facebookの株価は大暴落したのか? 原点がゼロでない ⼈間は領域の⾼さこそが重要だと勘違いする…
2016年10⽉22⽇から2017年1⽉21⽇までのFacebookの株価
Bad visualization の例2: 折れ線グラフ(after) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html Q. Facebookの株価は大暴落したのか? 2016年10⽉22⽇から2017年1⽉21⽇までのFacebookの株価
⾯積による⽐較 vs. ⻑さによる⽐較 ローランドアイランド州の各郡の住⺠数 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 人間は面積よりも長さの方が正確に知覚可能 正確に情報を伝えるなら円グラフは…
3 課題
前回のおさらい:シナリオ あなたは新⽶データサイエンティスト. 前回の案件でデータ分析の可能性を感じた「杏森堂」から 新たな案件がやってきました. 杏森堂のセールス担当者 あの後,弊社では関係データベースを導入し, 購買データをきっちり管理し,生データを収集して います.その結果,Excelでは扱えないくらいの量の データが集まりつつあります. 弊社の手に負えないので,データサイエンティストの
力をお借りして,データの傾向を把握したいです!
Day 4 の課題(課題4-1) 顧客ごとに購買頻度(購買回数)を求め, 購買頻度の分布を説明するためのグラフを作成せよ. また,グラフから読み取れることを文章で記述せよ. ただし,顧客ID(`customer_id`)が"Z"から始まる のものは非会員を表すため,除外して分析すること.
課題4-2 都道府県別に年月別の売上総額を求め, その売上総額の変化を比較するためのグラフを 作成せよ.また,グラフから読み取れることを文 章で記述せよ.
課題4-3 顧客一人あたりの売上総額の分布を,千葉県の 店舗ごとに比較するためのグラフを作成せよ.ま た,グラフから読み取れることを文章で記述せよ. ただし,顧客ID(`customer_id`)が"Z"から始ま るのものは非会員を表すため,除外して分析する こと.
課題4-4 千葉県にある店舗間で顧客が購入する菓子の傾 向が異なるかどうかを分析したい. 千葉県にある店舗と菓子の中カテゴリごとに菓子 の購入量(個数)を集計し,購入された菓子の中 カテゴリの内訳を店舗間で比較するためのグラフ を作成せよ.また,グラフから読み取れることを文 章で記述せよ. SQL⾃体は新しいテクニックを含んでいないし易しいです!