Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
silvers
March 08, 2016
Business
760
1
Share
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap
2013年に社内向けに作った資料。
発表し忘れていたので日付だけ修正して発表した。
silvers
March 08, 2016
More Decks by silvers
See All by silvers
"ふりかえり会" の第一歩 / The first step to retrospective.
silvers
4
1.7k
とある企業のプロダクトマネジメント教室 / pmjp-5
silvers
4
2.4k
エンジニアの育成について / engineer training
silvers
0
190
こんなチームになると良いなあ
silvers
34
3.6k
Other Decks in Business
See All in Business
【UI/UXデザイナー職】中途採用向け会社説明資料(テックファーム株式会社)
techfirm
0
620
LW_brochure_engineer
lincwellhr
0
42k
introduce_backoffice_coordinate
yuki_yano
PRO
1
520
何者かになる必要はあるのか?
kkb1016
0
210
株式会社BALLAS 会社案内
ballas_inc
0
37k
AIエージェント時代のコンタクトセンターとCX:自律化する顧客接点と未来
masayamoriofficial
0
360
涅槃へGO!〜わたしの世界は、全てわたしの認識でできている〜
doiko123
0
530
「AI時代、若手の育成はどうしたらいいんでしょう?」ー どの業界の方からも立て続けに頂いたこの問題を考えてみる
masayamoriofficial
0
450
【正社員】C-United 会社説明資料
chrecruit
0
1.5k
記帳の手前に何を見るか - 業務設計士の視点 -
shunsuke_takeuchi
PRO
1
540
採用ピッチデック
macloud
4
87k
Copilot×ローカルLLM ― 出せないデータをどう活かすか
aonomasahiro
1
140
Featured
See All Featured
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
140
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
340
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
290
Designing for Performance
lara
611
70k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.9k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
500
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
120
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
550
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.4k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Balancing Empowerment & Direction
lara
6
1.1k
Transcript
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - 2016/03/08 silvers
概要 • よくある罠 • 周りではまってるのを見た罠 • 自分がはまりそうだった罠
5つの罠 • Trap1 無意味な統計 • Trap2 少ない標本 • Trap3 基準率の錯誤
• Trap4 隠された条件 • Trap5 分布を見ない
無意味な統計 Trap1
犯罪者のおよそ98% 2% 98% X Y
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある 出典:パンは危険な食べ物
無意味にしないために • 対象でない群との比較をする必要がある • 犯罪者でない人のパンを食べる割合は? • それらの差を見る
少ない標本 Trap2
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい!
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい! • …と言えるのかどうか
問1:効果あった? • ある施策を入れたら… • CASE1: 継続率が50%から90%になった! • CASE2: 継続率が50%から51%になった
問1:効果あった? • ある施策を入れたら… • CASE1: 10人中5人が10人中9人になった • CASE2: 10000人中5000人が10000人中5100人 になった
統計量検定 • 実験結果 • 10回中7回1が出た • 帰無仮説 • サイコロに偏りはない •
有意水準(危険率) • 5%(0.05) 0.00 0.08 0.15 0.23 0.30 0 1 2 3 4 5 6 7 8 9 10 ֬
問1のヒント • 対応のない2郡の母比率の差 • 帰無仮説:2郡に差がない!
基準率の錯誤 Trap3
問2: 架空のテロリスト判別装置 • 99%の精度で正しい判断が下せる • テロリストを「テロリストである」と判別できる • テロリストでない人を「テロリストでない」と判 別できる •
ある人物が「テロリストである」と判別されたとき どれぐらい信じられる?
問2のヒント
問2のヒント • 人口100万人中、テロリストは100人いる
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する • 10,098人中99人が正しいテロリスト
基準率 • 調査対象となっているもののうち、真に有効であるも のの割合 • テロリストが真になる可能性は、検定された仮説が真 である比率に依存する • 有意水準よりも偽陽性が多いことがある
隠された条件 Trap4
ありがとうの効果 • ビニールハウスを借りて、育て方の違いで成長に差が あるかを調べた • 右半分の棟には「ありがとう」と言って育て • 左半分の棟には「このやろう」と言って育てた • ありがとうのほうがおいしく育った
• 「ありがとう」に効果はあったか?
隠された条件 • 右側で育てた場合と左側で育てた場合 • 右半分のほうがおいしく育った
擬似反復 • 1000人から1000のデータを集める • 100人から10回ずつ1000のデータを集める • 個体差 • 同じデータを何度もとっているだけかもしれない
分布を見ない Trap5
所得の平均
所得の平均 556万円
所得の平均 556万円 意外と高い!
所得の分布 ग़యɿްੜ࿑ಇল ฏ20ࠃຽੜ׆جૅௐࠪͷ֓گ
分布を見る • 分布を見るのが一番良いが、 • いくつかの値を見るだけでも、だいたいの全体像が 見える • 平均値(算術平均):合計値を数で割った値 • 中央値:順番に並べたときの真ん中の値
• 最頻値:一番多い値
おわり まだ見ぬ罠があなたを待っている――