Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
2022年度データアナリティクスII-第4回-20220502
Search
Y. Yamamoto
May 02, 2022
Education
0
430
2022年度データアナリティクスII-第4回-20220502
データ可視化
Y. Yamamoto
May 02, 2022
Tweet
Share
More Decks by Y. Yamamoto
See All by Y. Yamamoto
データベース04: SQL (1/3)
trycycle
0
5
データベース03: 関係データモデル
trycycle
0
23
データベース02: データベースの概念
trycycle
0
160
データベース01: データベースを使わない世界
trycycle
1
120
ビッグデータ × AI = DX?
trycycle
0
73
名古屋市立大学データサイエンス学部 秋のオープンキャンパス模擬授業20231111
trycycle
0
1.3k
データマイニングと機械学習 - ニューラルネットワーク
trycycle
0
350
データマイニングと機械学習-SVM
trycycle
1
370
データマイニングと機械学習-K近傍法 & 機械学習のお作法
trycycle
0
460
Other Decks in Education
See All in Education
6 занятие. Четыре тактики метода "8 кубиков"бизнес-модели #ideaNN 1.03.2024.
karlov
0
150
[SemanaX-UFCG-2024] Guia descomplicado de entrevistas FAANG
hugaomarques
2
450
LightSail2324
cbtlibrary
0
130
Introduction - Lecture 1 - Information Visualisation (4019538FNR)
signer
PRO
0
3.5k
STEAM教育の枠組で行うプログラミング学習
asial_edu
0
210
Data Representation - Lecture 3 - Information Visualisation (4019538FNR)
signer
PRO
1
1.7k
Earthquake and Disaster Prevention Information for UTokyo International Students
utokyoissr2360
0
630
AI教育の未来『おもしろい』を作れる人材の育て方 #東京AI祭
o_ob
1
360
HCL Notes 14.0 「スタイルの変更」で「3 設定の確認」を深掘り
harunakano
0
2.1k
墓までもっていくはずだった話
takuro_nakajima
PRO
0
1.5k
前期教育実習事前指導0221
naradai
0
130
Tangible, Embedded and Embodied Interaction - Lecture 9 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.2k
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
132
6.3k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
116
18k
Automating Front-end Workflow
addyosmani
1356
200k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
122
39k
Thoughts on Productivity
jonyablonski
58
3.8k
Building Your Own Lightsaber
phodgson
99
5.7k
What’s in a name? Adding method to the madness
productmarketing
PRO
16
2.7k
Done Done
chrislema
178
15k
Designing Experiences People Love
moore
136
23k
VelocityConf: Rendering Performance Case Studies
addyosmani
320
23k
Statistics for Hackers
jakevdp
789
220k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
7
1k
Transcript
⼭本 祐輔 静岡⼤学 情報学部
[email protected]
2022年度前期 データアナリティクスII – 山本担当モジュール4 2022年5月2日
⼭本祐輔 クリエイティブコモンズライセンス (CC BY-NC-SA 4.0) データ可視化: 明確で説得力のあるデータの伝え方
様々なデータ可視化⼿法
データ可視化の歴史:棒グラフ William Playfair, “Commercial and Political Atlas” (1786)
データ可視化の歴史: 鶏冠チャート Florence Nightingale , "Diagram of the causes of
mortality in the army in the East" (1858)
データ可視化の歴史: Interactive Data Visualization Aaron Koblin, ”Flight Pattern" (2015)
データの可視化で重要なこと 量 分布 内訳 変数間関係 … 時系列 可視化手法 伝えたい内容
可視化表現の違いは解釈に影響を与える 画像出典: https://clauswilke.com/dataviz/aesthetic-mapping.html
データの可視化で重要なこと 量 分布 内訳 変数間関係 … 時系列 可視化手法 伝えたい内容 伝えたい内容に応じて適した可視化手法を使わないと,
適切な解釈を導くことはできない
今⽇のお題 データから適切かつ意義のある洞察を 得るためのデータ可視化手法を理解する 10 図のデザイン原則も別途学ぶ必要あり
1 目的に応じたデータ可視化手法
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
棒グラフ 量を可視化し各カテゴリの値を比較できるようにする 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 2017年12/22-24の週末の最⾼興⾏収⼊映画 表現する量の⼤きさが棒の⻑さと⽐例させるために 棒の始点をゼロにする必要あり
棒グラフの作成ポイント(1/2) 棒の並びは棒の長さ順に並んでいる方が理解しやすい 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 棒を並べる変数に⾃然な並び⽅がない場合は
棒グラフの作成ポイント(2/2) 変数がもつ順序にしたがって棒グラフを並べるべき 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 棒を並べる変数に⾃然な並び⽅がある場合は 2016年のアメリカにおける年齢別の世帯年間所得中央値
棒グラフのグループ化 同時に2つのカテゴリ変数に注目し 各カテゴリの値を比較できるようにする 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 2016年のアメリカにおける年齢・⼈種別の世帯年間所得中央値
ドットプロット(1/2) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 2007年時点のアメリカ⼤陸の平均寿命(歳) 棒の長さではなく,点の位置で量の大小を表現
ドットプロット(2/2) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 近い値の大小関係を比較したい場合に有効 棒グラフ ドットプロット 棒グラフは棒の⼤きさと値を⽐例させないと直感に反するが, 以下の例で棒グラフを⽤いると,値の⼤⼩差が⽬⽴たない
ヒートマップ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html インターネット普及率の経年変化 値を色に対応させて大まかな傾向を直感的に表現
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
ヒストグラム 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 1変数の値がどのように分布しているかを棒グラフで表現 ビン(階級)の幅を棒の幅に,度数を棒の⾼さに対応させる タイタニック号の乗客の年齢のヒストグラム
ヒストグラムの注意点 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html ビン(階級)幅の選び方でヒストグラムの解釈が変わる ・幅が狭すぎると,データの主要な傾向が不明瞭に ・幅が広すぎると,データの分布の細かい特徴が失われる タイタニック号の乗客の年齢のヒストグラム 必ず複数のビン幅を試し,ベストな表現を探る
密度プロット 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html データ本来の確率分布を推定し連続曲線として表現 データが⼤量にあるのであれば,適切な情報を与えてくれる タイタニック号の乗客の年齢分布の密度プロット
複数の分布の可視化:積み上げヒストグラム 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html タイタニック号の乗客の男⼥別年齢のヒストグラム 同じビンの上に別のヒストグラムを積み上げる
積み上げヒストグラムの⽋点 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html タイタニック号の乗客の男⼥別年齢のヒストグラム 欠点1: 上側のヒストグラムの基準点が分かりづらい 欠点2: 上側のヒストグラムの高さを直接比較できない
年齢ピラミッドプロット 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html タイタニック号の乗客の男⼥別年齢のヒストグラム 可視化したい分布が2つの場合の良い可視化手法
年齢ピラミッドプロット 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html タイタニック号の乗客の男⼥別年齢のヒストグラム 可視化したい分布が2つの場合の良い可視化手法 3つ以上のたくさんの分布をを同時に 可視化するには,どうしたらよいか?
箱ひげ図: Boxplot(1/2) 外れ値 最⼤値 第3四分位数 中央値 第1四分位数 最⼩値 サンプルの分布 箱ひげ図
データ分布の要約統計量を可視化するプロット
箱ひげ図: Boxplot(2/2) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html ネブラスカ州リンカーンの⽇平均気温 シンプルだが情報量が多く,複数分布を同時に 可視化可能
バイオリンプロット: 箱ひげ図の弱点を克服 サンプルの分布 箱ひげ図 最⼤値 最⼩値 バイオリンプロット 分布の形状を保存してデータの分布を可視化
バイオリンプロットの例 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html ネブラスカ州リンカーンの⽇平均気温 個々のデータポイントを点として同時にプロット するとより効果的
累積分布 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html テストの得点 正規化された累積度数 特定の値以下のサンプルの総数をプロット ヒストグラムのように階級幅を設定する必要なし 80点以下の⼈は 全体の40% 学術業界や技術業界ではよく⽤いられる
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
円グラフ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 扇形の面積で要素の全体に占める割合を表現 第8回ドイツ連邦議会の政党構成 円グラフはビジネスシーンでよく⽤いられるが… 半分,3分の1などの簡単な割合が視覚的にわかりやすい
積み上げ棒グラフ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 円グラフの概念を長方形に適応した可視化手法 第8回ドイツ連邦議会の政党構成 複数の条件を並べて⽐較したり,時系列で⽐較するのが容易
横並び棒グラフ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 積み上げ棒グラフの要素を取り出して横に配置 第8回ドイツ連邦議会の政党構成 内訳要素の⼤⼩を直接⽐較することが容易
円グラフの⽋点の解決策 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 各企業(A-E)の2015-2017年のシェアの⽐較 横並び棒グラフを使えば要素間/時間変化比較が可能 全体に占める割合を直感的に把握しづらい…
横並び密度グラフ:横並び棒グラフの弱点を克服 該当グループ 全調査対象 未婚 既婚 離婚 相対⽐率 年齢 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
ある場所の年齢別婚姻状況 個々の要素を別々にプロットし, 個々のプロットで全体と並べるようにして可視化 内訳の可視化は難しいので、case by caseで対応すること
⼊れ⼦構造の内訳を可視化したいケース ピッツバーグの橋梁の部材別および架設時期別の内訳 現代(鋼) 成熟期(鋼) 新興期(鋼) 伝統期(⽊) 新興期(⽊) 成熟期(⽊) 伝統期(鉄) 新興期(鉄)
成熟期(鉄) 悪例:すべての組み合わせを円グラフ内で表現 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 正しい表現だが理解しづらい…
⼊れ⼦構造の内訳を可視化⼿法: モザイク図 ピッツバーグの橋梁の部材別および架設時期別の内訳 2つの変数を縦軸と横軸のそれぞれに配置し, それぞれの方向の長さでその要素の割合を表現 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 成熟期 伝統期 新興期
現代 鋼 鉄 ⽊
3つ以上の変数の内訳を⽰す: パラレルセットプロット(サンキー図) ピッツバーグの橋梁の部材別および架設時期別の内訳 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html アレゲニー川 モノンガビラ川 オハイオ川 短い 中程度
⻑い 鋼 ⽊ 鉄 伝統期 新興期 成熟期 現代 全体を個々の変数で分解したときの内訳を示すと同時に, 個々の小グループがどのような関係にあるかを色つき帯で表現
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
散布図 (1/2) 2つの変数の関係性を点の群れで可視化 123⽻のアオカケスの体重に対する頭⻑ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
散布図(2/2) カテゴリ毎に点の色を分けることで 変数間の関係の違いを確認することも可能に 123⽻のアオカケスの体重に対する頭⻑ 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html
散布図⾏列 変数間のすべての組み合わせ散布図で表現 123⽻のアオカケスに関する頭⻑,体重,頭蓋サイズ間の関係性 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 変数が多くなると直感的に判断しづらくなる…
コレログラム: 相関関係の可視化 ある科学捜査中に得られたガラス⽚214サンプルの鉱物含有量の相関 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 変数間の相関係数を色やサイズで表現 変数間の相関係数が素早く直感的に把握可能に 抽象的になるので重要な特徴を⾒落とす可能性あり…
可視化の対象 1. 量 2. 分布 3. 内訳 4. 変数間関係 5.
時系列 6. 地理空間、不確かさ、ネットワーク…
折れ線グラフ(1/4) プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 時系列データなど、 一方の変数に順序関係がある時の可視化手法
折れ線グラフ(2/4) プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 隣り合う点を線で結ぶことで順序を視覚的に強調 散布図 折れ線グラフ
折れ線グラフ(3/4) プレプリント(論⽂の⼀種)bioRxivの⽉別投稿数 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 折れ線より下の領域を塗りつぶすことで データの全体的な傾向が強調される 折れ線グラフ 折れ線グラフ++
折れ線グラフ(4/4) オーツ⻨(オートミールの原料)の品種毎/施肥量別の平均収穫量 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html データ間に固有の順序があれば 時系列データに限らず折れ線グラフは使える
2 プロポーショナルインクの原則 Principle of Proportional Ink
色を塗った領域を用いて数値を表す場合、 その色を塗った領域の面積は、対応する 数値に対して正比例している必要あり この原則を満たしていないと 誤った解釈を与えることに… プロポーショナルインクの原則
Bad visualization の例1: 棒グラフ(befere) ハワイ州の5つの郡の所得中央値 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html Q. ハワイ郡は他の郡に比べて非常に貧しい? 原点がゼロでない
⼈間はバーの⾼さこそが重要だと勘違いする…
Bad visualization の例1: 棒グラフ(after) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html Q. ハワイ郡は他の郡に比べて非常に貧しい? 線形スケールの棒グラフの始点は0にすること ハワイ州の5つの郡の所得中央値
Bad visualization の例2: 折れ線グラフ(befere) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html Q. Facebookの株価は大暴落したのか? 原点がゼロでない ⼈間は領域の⾼さこそが重要だと勘違いする…
2016年10⽉22⽇から2017年1⽉21⽇までのFacebookの株価
Bad visualization の例2: 折れ線グラフ(after) 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html Q. Facebookの株価は大暴落したのか? 2016年10⽉22⽇から2017年1⽉21⽇までのFacebookの株価
⾯積による⽐較 vs. ⻑さによる⽐較 ローランドアイランド州の各郡の住⺠数 画像出典: https://clauswilke.com/dataviz/visualizing-amounts.html 人間は面積よりも長さの方が正確に知覚可能 正確に情報を伝えるなら円グラフは…
3 課題
前回のおさらい:シナリオ あなたは新⽶データサイエンティスト. 前回の案件でデータ分析の可能性を感じた「杏森堂」から 新たな案件がやってきました. 杏森堂のセールス担当者 あの後,弊社では関係データベースを導入し, 購買データをきっちり管理し,生データを収集して います.その結果,Excelでは扱えないくらいの量の データが集まりつつあります. 弊社の手に負えないので,データサイエンティストの
力をお借りして,データの傾向を把握したいです!
Day 4 の課題(課題4-1) 顧客ごとに購買頻度(購買回数)を求め, 購買頻度の分布を説明するためのグラフを作成せよ. また,グラフから読み取れることを文章で記述せよ. ただし,顧客ID(`customer_id`)が"Z"から始まる のものは非会員を表すため,除外して分析すること.
課題4-2 都道府県別に年月別の売上総額を求め, その売上総額の変化を比較するためのグラフを 作成せよ.また,グラフから読み取れることを文 章で記述せよ.
課題4-3 顧客一人あたりの売上総額の分布を,千葉県の 店舗ごとに比較するためのグラフを作成せよ.ま た,グラフから読み取れることを文章で記述せよ. ただし,顧客ID(`customer_id`)が"Z"から始ま るのものは非会員を表すため,除外して分析する こと.
課題4-4 千葉県にある店舗間で顧客が購入する菓子の傾 向が異なるかどうかを分析したい. 千葉県にある店舗と菓子の中カテゴリごとに菓子 の購入量(個数)を集計し,購入された菓子の中 カテゴリの内訳を店舗間で比較するためのグラフ を作成せよ.また,グラフから読み取れることを文 章で記述せよ. SQL⾃体は新しいテクニックを含んでいないし易しいです!