Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する...
Search
Taro Masuda
October 17, 2024
Technology
1
810
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
Rist Meetup 2024「Kaggleは業務の役にたつ」
https://connpass.com/event/327246/
の LT 登壇資料です。
Taro Masuda
October 17, 2024
Tweet
Share
More Decks by Taro Masuda
See All by Taro Masuda
白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919
taro_masuda
2
640
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-poster-s3-p21
taro_masuda
0
130
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
taro_masuda
1
470
BtoBプロダクト改善のためのデータドリブン活動と組織の概要/b2b_data_driven_team
taro_masuda
0
1k
企業の業界分類予測における共変量シフト問題の抑制
taro_masuda
3
1.5k
ディジタル信号処理の入り口に立つ
taro_masuda
3
340
歌声の特徴に基づいて曲を探そう!
taro_masuda
1
1.6k
NGBoost論文読んでみた
taro_masuda
2
4k
Other Decks in Technology
See All in Technology
低レイヤを知りたいPHPerのためのCコンパイラ作成入門 / Building a C Compiler for PHPers Who Want to Dive into Low-Level Programming
tomzoh
1
230
PicoRabbit: a Tiny Presentation Device Powered by Ruby
harukasan
PRO
2
200
ここはMCPの夜明けまえ
nwiizo
1
460
更新系と状態
uhyo
5
750
より良い開発者体験を実現するために~開発初心者が感じた生成AIの可能性~
masakiokuda
0
130
LangfuseでAIエージェントの 可観測性を高めよう!/Enhancing AI Agent Observability with Langfuse!
jnymyk
1
220
Cross Data Platforms Meetup LT 20250422
tarotaro0129
1
330
AIで進化するソフトウェアテスト:mablの最新生成AI機能でQAを加速!
mfunaki
0
140
システムとの会話から生まれる先手のDevOps
kakehashi
PRO
0
270
SREからゼロイチプロダクト開発へ ー越境する打席の立ち方と期待への応え方ー / Product Engineering Night #8
itkq
2
410
Ops-JAWS_Organizations小ネタ3選.pdf
chunkof
2
150
LLM とプロンプトエンジニアリング/チューターをビルドする / LLM, Prompt Engineering and Building Tutors
ks91
PRO
1
250
Featured
See All Featured
What's in a price? How to price your products and services
michaelherold
245
12k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
135
33k
Visualization
eitanlees
146
16k
How to Think Like a Performance Engineer
csswizardry
23
1.5k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
30k
Practical Orchestrator
shlominoach
186
10k
It's Worth the Effort
3n
184
28k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
Side Projects
sachag
452
42k
Designing for Performance
lara
608
69k
The World Runs on Bad Software
bkeepers
PRO
67
11k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
Transcript
Kaggle は業務の役にたつ - ビジネスコンテンツ情報を 活用する BtoB 事業編 - @Rist Meetup
2024 日本経済新聞社 データサイエンティスト 増田太郎
自己紹介:増田 太郎(ますだ たろう) 2 • 日経で BtoB Web サービスの分析を担うデータサイエンティスト •
施策の効果を数値化することに興味 ◦ A/B テストやベイズ統計モデリング • 取得称号・資格 ◦ Kaggle Master,統計検定 1 級, Google Cloud PDE(失効) • 趣味 兼 宣伝 ◦ Kaggler などデータサイエンス界隈で楽しむ,ゆるフットサル⚽ • 業務内容:チームリーダーとしてメンバーの分析結果のレビュー・ メンター・教育,他部署での A/B テスト設計のお手伝い
• 私たちは 「記事データや企業データを活用して お客様にビジネス情報を提供するサービス」を作っています • よくある誤解 ◦ 記者や報道部門との 直接的な関係は ほとんどありません
◦ 日経電子版ともまた 全然違った部署です • データはたくさん! 前提知識:私たちの事業について 3
役に立った事例1: 業種分類モデルの構築 4 • 企業の業界を人手作業ではなく機械学習モデルが予測する • 業界付与済みの上場企業データを使って機械学習モデルを学習し、 非上場企業の業種を予測(データセットシフトへの対処) ◦ Adversarial
Validation などを用いて特徴量を選択・調整
役に立った事例2: コーパスの新規構築 5 • 記事から企業動向や業界動向 など重要な記述をセンテンス 単位で抽出したい • 経済情報の記述はミクロ・マク ロ両視点の表現が混在しており
画一的なラベル定義が困難 • 独自に体系立てたラベル定義で のアノテーションおよび教師ありモデルを構築 ◦ Human-in-the-loop 的にアノテーションとモデル学習を繰り返し • 一貫したラベリングの質の重要性は Kaggle に教えてもらった🌿
6 教師データの質を見落とす者はメダルを逃す💔
前提知識: 役に立った事例 3,4 の背景 7 • 記事に対してメタデータを付与する仕組みを構築しています 記事 固有表現抽出 (NER)
文書分類 固有表現 の salience を算出 法人のエンティティリ ンキング 人物のエンティティリ ンキング 地名のジオコーディン グ
役に立った事例3: 継続的な学習データの品質向上 8 • Label Studio (人) とVertex (ML) が連携して能動学習
Label Studio Vertex AI Slack Train Job Predictor 予測不確実性が高いサンプルの予測結果送信 アノテーションデータの拡充 未アノテーションデータの 予測不確実性 ・アノテーションデータ ・未アノテションデータ 学習済み モデル 人 予測不確実性の高いサンプルのアノテーション
役に立った事例4: WandB を活用したエラー分析 9 • Confusion Matrix の便利な可視化
役に立った事例4: WandB を活用したエラー分析 10 • spacy.displacy を使った便利な可視化 大文字のラベル名: 正解ラベル 小文字のラベル名:
予測ラベル
• 日経には Kaggle で学んだ知識を活用して価値を生める 土壌がある ◦ データがそこら中に転がっている • 実際にそれらを活用した事例もたくさん存在する ◦
データセットシフトへの対処 ◦ 学習データのラベリングの品質向上 ◦ WandB を活用したエラー分析 • (6 名の Master 擁する弊社に皆様もぜひ!) まとめ 11