Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
良書紹介04_効果的な現実世界のデータ収集
Search
ぶんちん
September 04, 2025
Science
0
35
良書紹介04_効果的な現実世界のデータ収集
ぶんちん
September 04, 2025
Tweet
Share
More Decks by ぶんちん
See All by ぶんちん
“成果”を出すためのプレゼン準備 プレゼン資料作成の前にやること
bunnchinn3
1
96
良書紹介03_ データ分析読解の技術
bunnchinn3
0
43
MVP未満からの成果獲得
bunnchinn3
0
44
個人計画とプロジェクト遂行の考え方
bunnchinn3
0
52
データ分析イベントデータ説明(VRChatイベントカレンダー)
bunnchinn3
0
84
<事前告知> DS集会データ分析イベント VRChatイベントカレンダー
bunnchinn3
0
73
統計知識と実務のギャップ
bunnchinn3
0
110
製造業における品質不良の要因分析04_ツール選択の考え方
bunnchinn3
0
170
これまでLT振り返り 何が人気の話題?
bunnchinn3
0
110
Other Decks in Science
See All in Science
Transport information Geometry: Current and Future II
lwc2017
0
180
高校生就活へのDA導入の提案
shunyanoda
0
5.9k
Agent開発フレームワークのOverviewとW&B Weaveとのインテグレーション
siyoo
0
330
「美は世界を救う」を心理学で実証したい~クラファンを通じた新しい研究方法
jimpe_hitsuwari
1
160
Celebrate UTIG: Staff and Student Awards 2025
utig
0
150
データベース08: 実体関連モデルとは?
trycycle
PRO
0
930
[Paper Introduction] From Bytes to Ideas:Language Modeling with Autoregressive U-Nets
haruumiomoto
0
130
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
4
1k
データベース02: データベースの概念
trycycle
PRO
2
890
学術講演会中央大学学員会府中支部
tagtag
0
300
01_篠原弘道_SIPガバニングボード座長_ポスコロSIPへの期待.pdf
sip3ristex
0
650
機械学習 - ニューラルネットワーク入門
trycycle
PRO
0
840
Featured
See All Featured
Six Lessons from altMBA
skipperchong
28
4k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Navigating Team Friction
lara
189
15k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
284
13k
RailsConf 2023
tenderlove
30
1.2k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.1k
How to train your dragon (web standard)
notwaldorf
96
6.2k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Transcript
DS初心者向け 知名度は低いけどオススメの良書紹介4 ~効果的な現実世界のデータ収集~ ぶんちん 2025年9月4日 データサイエンティスト集会 in VRC 1
自己紹介 ぶんちん データサイエンティスト集会の主催 複合経営が特徴の企業(製造業)に所属 データ分析担当者だったが。。。 e ラ
ー ニ ン グ の イ ラ ス ト ( 男 性 ) 困 っ た 顔 で 働 く 会 社 員 の イ ラ ス ト ( 男 性 ) 成果獲得を狙うと、 同じことに繰り返しで 飽きた 他者にやってもらったら、 成果が増えるのでは? 特に非専門家向けの データサイエンス活用教育 2
良い書籍はたくさんあるけど。。。 良書は人気になりやすい 3 人気書籍 知られていない本でも良書がある 今回はそれを紹介
データ収集のデザイン Garbage in, garbage out ⇒『無意味なデータ(ゴミ)』を入力する 『無意味な結果(ゴミ)』が出力される ゴミにならないよう設計していますか? 特に現実世界のデータ取得! 4
丸投げNG
現実世界のデータ取得の難しさ 全てのデータに明確な意図を持った設計が必要 ⇒ 逆に意図しないデータは取得できない どのようなデータを取りたいのか どのように測定するのか どのような条件で記録するのか
どのくらいの期間・量のデータを記録するのか 5 データ取得は高コスト(カネ・時間・手間) ⇒ 追加・変更が困難 なんとなくで条件を決めるのは不適切
データ取得条件を検討する分野はないのか 実験の設計! 6 実験 =未知を明らかにするための 科学的アプローチ方法
生命科学の実験デザイン 「生命科学」とのタイトルだが、分野に関わ らず有用な内容 「実験デザイン」を扱った和書は本書を含め て2冊しか見つからず、どちらもバイオ系 成果を出すための実験(データ取得条件)の 設計に必要な要件を知ることができる
7
目次 1. デザインはなぜ大切か 2. 仮説を明確にする 3. デザインの大枠を選ぶ 4. 個体間のばらつき、反復、サンプリング 5.
偽反復 6. サンプルサイズ、検出力、効果的なデザイン 7. 最もシンプルな実験デザイン―1因子完全ランダム化デザイン 8. 複数の因子をもつ実験―複因子デザイン 9. 完全ランダム化を超えて―ブロックと共変数 10.被験体内デザイン 11.測定―良質なデータをとるために 8 ここにコンセプトが集約 コンセプト ⇒ 具体的対応
誤った思い込み どのようにデータをとるかは重要ではない.統計的 な「応急処置」は必ずあるので,どのようにとった データでも解析はできる. とにかくデータをたくさんとりさえすれば,何かし らおもしろい結果が出てくるし,非常に微妙な効果 でさえも検出できる. 9 現実はそんなに甘くない!
大学(アカデミック)の出版社だけど キレッキレな表現 1.2 貧弱なデザインの害悪 1.2 .1 時間と金の無駄遣い
劣悪な実験デザインで時とエネルギーを無駄遣いするのが愚 かであることは言うまでもない. 10 地に足の着いた話が多く、表現もわかりやすい ⇒基礎統計と並行して学ぶべき本では?
なんで知名度が低い領域なの? 建前:本書の内容は大学での研究(卒論・修論・博 士論文)に取り組む中で、全員が身に着けている 11 本当? • 体系化されて説明されている書籍が少ないのに? • 実験しない人も学んでいる? •
仕事でこの考え方、使えている?
実験デザインの重要性 できているようで、実はできていない領域 課題オーナーに丸投げはNG 成果を出すためには、押さえておく分野 個人的にビジネスでも有用だと思う 12
データ取得のコア部分に 積極的に関与しませんか?