Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計とは? @ICUHS
Search
Kazuya Araki
January 23, 2020
Science
0
270
統計とは? @ICUHS
国際基督教大学高等学校の企業訪問時のスライド
Kazuya Araki
January 23, 2020
Tweet
Share
More Decks by Kazuya Araki
See All by Kazuya Araki
Tableau事例紹介 / Tableau Case Study of Eureka
kazuya_araki_tokyo
1
550
Tableau事例紹介 & 課題共有
kazuya_araki_tokyo
1
1.4k
License Management @BizReach, Inc.
kazuya_araki_tokyo
0
52
Art and Science of Visual Analytics Episode 0
kazuya_araki_tokyo
0
45
Art and Science of Visual Analytics Episode 1
kazuya_araki_tokyo
1
120
Art and Science of Visual Analytics Episode 2
kazuya_araki_tokyo
0
44
Art and Science of Visual Analytics Episode 3
kazuya_araki_tokyo
0
46
Tableau + Pythonとデータのあり方
kazuya_araki_tokyo
2
110
株式会社ビズリーチの紹介@Data Analyst Meetup Tokyo vol.8
kazuya_araki_tokyo
0
78
Other Decks in Science
See All in Science
WCS-LA-2024
lcolladotor
0
200
CV_3_Keypoints
hachama
0
130
ほたるのひかり/RayTracingCamp10
kugimasa
1
590
Visual Analytics for R&D Intelligence @Funding the Commons & DeSci Tokyo 2024
hayataka88
0
150
Snowflakeによる統合バイオインフォマティクス
ktatsuya
0
650
ACL読み会2024@名大 REANO: Optimising Retrieval-Augmented Reader Models through Knowledge Graph Generation
takuma_matsubara
0
180
Machine Learning for Materials (Challenge)
aronwalsh
0
250
Causal discovery based on non-Gaussianity and nonlinearity
sshimizu2006
0
250
Cross-Media Information Spaces and Architectures (CISA)
signer
PRO
3
31k
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
240
テンソル分解を用いた教師なし学習による変数選択法のシングルセルマルチオミックスデータ解析への応用
tagtag
1
130
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
280
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Navigating Team Friction
lara
184
15k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
KATA
mclloyd
29
14k
Bash Introduction
62gerente
611
210k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.2k
Java REST API Framework Comparison - PWX 2021
mraible
29
8.5k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.8k
Why You Should Never Use an ORM
jnunemaker
PRO
55
9.3k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Unsuck your backbone
ammeep
670
57k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
30k
Transcript
統計とは? 2020年01月23日
Kazuya Araki 株式会社ビズリーチ Data Analyst / Data Archtect • ビズリーチサービスのデータ分析、施策立案
• データ分析基盤設計、運用保守 • データ人材育成、アドバイザー すきなこと • データをみること • 本 • 邦ロック • スノースポーツ (Skiing, Snowboarding, Hiking in the snow etc...) @kazuya_araki_jp jedi_trickstar
普段はこんなことしています
普段はこんなことしています
今となってはこんな私ですが
高校時代は数学が苦手 高校3年 前期期末テスト結果
高校時代は数学が苦手😇 高校3年 前期期末テスト結果
浪人、大学と経て、普通に 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
浪人、大学と経て、普通に😎✌ 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
ということで、本題入ります
None
None
None
jedi_trickstar
統計とは? 2020年01月23日
統計ってなんだろう?🤔 What is "Statistics"?
統計データの使われ方を見てみましょう
①省庁データの使われ方 1. How to use Government data
https://www.huffingtonpost.jp/entry/story_jp_5e1ea82ac5b63211760b21c0
20代のパスポートの新規取得率は低迷している (記事引用) 観光庁がまとめた、2019年1月の「若者のアウトバウンド推進実行会議」の資料による と、日本の20代(20〜29歳)の出国者数は、2000年までは400万人を超えていたものの、 2017年は305万人に留まった。もちろん少子化の影響もあるが、それだけではない。 20代のパスポートの新規取得率は、1995年に9.5%だったものが、2003年には5%に落ち 込み、その後、6%前後で推移。2017年には若干上昇したものの、6.9%だ。取得率で見れ ば、明らかに低迷している。 同じ資料によると、海外旅行に「とても行きたい」と答えた若者は45.1%、「まあまあ行 きたい」の22.6%を合わせると、7割近くになる。決して興味がないわけではないようだ。
他方、「あまり行きたくない」「行きたくない」と答えた若者たちの理由は「怖い・治安が 悪い」が35.5%、「言葉が通じない」が19.7%だった。
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
②弊社のデータの使い方 2. How to use BizReach data
Q. 転職希望者はやはり年々増えているのか Thanks! Nakamura Hanako san
A. 会員数は増加傾向 CONFIDENTIAL ビズリーチサービスデータ: 累計登録会員数
A. 転職が決まった人も増加傾向 ビズリーチサービスデータ: 月別成約数 CONFIDENTIAL
Q. 現在需要のある職業 Thanks! Nakamura Hanako san Q. 今需要が高い仕事とは? Thanks! UMEBAYASHI
Kyosuke san
A. IT関連職の需要が高い CONFIDENTIAL ビズリーチサービスデータ: 業種別成約数(2019年)
③メディアのデータの使い方 3. How to use Mass media data
Q. AIなどの影響が職にどのような影響を与え、 どのような対策を取ろうと考えているか? Thanks! UMEBAYASHI Kyosuke san
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
様々なところで使われていますね🙄
ところで...
話は変わりますが、
実は...
ここまでの内容で重要なことを 言い忘れていました
それは...
ウソをつきました😜
どこでウソをついたかわかりましたか?
①?
②?
③?
正解は...
全部です
None
None
正しいリアクションです
ということで、(長くなりましたが) 今回のテーマは
統計とは? 2020年01月23日
None
データにだまされる ~データ利活用に潜む罠~ 2020年01月23日
Contents 1. 話す人のこと Who am I 2. 前段の話: ~3つのウソ~ Three
lies 3. データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data 4. データにだまされないための3つの大切なこと Three important things in Data Analytics
データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data
先ほどの3事例のウソを暴きます
①のウソ
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
(余談) 解説を書こうとしたら、 別の方が解説してくれていました
https://www.landerblue.co.jp/48820/
https://www.jijitsu.net/entry/passport-20dai-toukei
None
https://www.mofa.go.jp/mofaj/files/000335477.pdf
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど 様々な要因により、データの解釈がずれていく ↓ ウソになる
②のウソ
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない)
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない) 意図的にロジックを操作することで結論を歪曲する ↓ ウソになる
③のウソ
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
倍率の罠
倍率の罠 結論ありきで統計データを捏造する ↓ ウソになる
Summary データは嘘をつかないが、嘘つきはデータを使う • データの解釈を誤ると、間違った情報となる。 …① • 正しいデータでも、人を騙そうと思えば容易にできる。 …② • データを捏造すると、簡単に人を騙せる。
…③
さて、
ここからが大事
データにだまされないための3つの大切なこと Three important things in Data Analytics
「3つの大切なこと」と言いましたが...
本当は10この要素について述べたい
誰かの解説を見聞するよりも、是非読んでほしい本 https://www.amazon.co.jp/dp/4822289605
可能ならば原典を読むのをオススメします😉 https://www.amazon.com/dp/1250107814
データにだまされないための3つの大切なこと 疑う Doubt and think everything 調べ、理解する Investigate and understand
anything 武器(あるいは防具)を鍛える Train your technical skills and imagination
疑う Doubt and think everything
疑う ≠ 信用しない
疑う ≠ 信用しない
疑う = 視点を変える、別の視点を追加する Beautiful Girl? Old Woman?
疑うターゲット データ データを加工したプロセス
Point: 思考停止しない 以下の思考に陥るとだまされやすい(し、簡単に人をだますことができる) • マスメディアが言っていたから正しい • えらい人、有名人が言っていたから正しい • インターネットの情報は正しい •
政府のデータだから正しい • 統計的手法を使ったから正しい
疑うことからスタートしてみよう
調べ、理解する Investigate and understand anything
Point: エビデンス(証拠) 統計データでいうエビデンス • データ: データソース • データを加工したプロセス ◦ 統計的アプローチ
◦ 統計モデル ◦ など • 前提条件 ◦ 調査環境 ◦ 制約 ◦ など
エビデンスの調べ方 • 公式データ • ggる • 複数の情報源 • 論文、記事内にある参照先
エビデンスを理解する • 何を示しているのか? • 論拠の内容に整合性があるか? • 仮説はあるか? ◦ ある場合は、仮説の設定は妥当か? •
前提条件に過不足はあるか? • エビデンス自体の正しさは最初は気にしない ◦ 正しいかどうか、の判断は主観が入りやすいので気を付ける。 ◦ エビデンス自体が間違っている場合は、上記が破綻しているケースが多い。
データの大海に飛び込むのを恐れない
その経験と知識は確実にあなたの血肉になります
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
武器防具を有効活用しよう
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
Conclusion データにだまされないための3つの大切なこと • 疑う: 視点を変えて別の角度から事象を見る • 調べ、理解する: データソースを突き止め、何を示しているのかを把握する • 武器(あるいは防具)を鍛える:
知識、技術を用いて、より正しい道を導く 間違った情報に惑わされない知恵を持つ
None