Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する...
Search
Taro Masuda
October 17, 2024
Technology
1
860
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
Rist Meetup 2024「Kaggleは業務の役にたつ」
https://connpass.com/event/327246/
の LT 登壇資料です。
Taro Masuda
October 17, 2024
Tweet
Share
More Decks by Taro Masuda
See All by Taro Masuda
白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919
taro_masuda
2
710
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-poster-s3-p21
taro_masuda
0
150
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
taro_masuda
1
500
BtoBプロダクト改善のためのデータドリブン活動と組織の概要/b2b_data_driven_team
taro_masuda
0
1.1k
企業の業界分類予測における共変量シフト問題の抑制
taro_masuda
3
1.5k
ディジタル信号処理の入り口に立つ
taro_masuda
3
340
歌声の特徴に基づいて曲を探そう!
taro_masuda
1
1.6k
NGBoost論文読んでみた
taro_masuda
2
4k
Other Decks in Technology
See All in Technology
Introduction to Sansan Meishi Maker Development Engineer
sansan33
PRO
0
270
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
6.2k
Oracle Cloud Infrastructure IaaS 新機能アップデート 2025/03 - 2025/05
oracle4engineer
PRO
1
130
為什麼我們需要 Observability?
marcustung
0
480
障害を回避するHttpClient再入門 / Avoiding Failures HttpClient Reintroduction
uskey512
1
440
会社紹介資料 / Sansan Company Profile
sansan33
PRO
6
370k
Eight Engineering Unit 紹介資料
sansan33
PRO
0
3.4k
うちの会社の評判は?SNSの投稿分析にAIを使ってみた
doumae
0
610
Devin&Cursor、それぞれの「本質」から導く最適ユースケース戦略
empitsu
8
3.1k
impressions-trying-lambda-web-adapter
junkishigaki
2
140
Web Intelligence and Visual Media Analytics
weblyzard
PRO
1
6.1k
All About Sansan – for New Global Engineers
sansan33
PRO
1
1.2k
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.5k
Into the Great Unknown - MozCon
thekraken
39
1.8k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.3k
Scaling GitHub
holman
459
140k
How to train your dragon (web standard)
notwaldorf
92
6.1k
Producing Creativity
orderedlist
PRO
346
40k
Practical Orchestrator
shlominoach
188
11k
Thoughts on Productivity
jonyablonski
69
4.7k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
252
21k
Transcript
Kaggle は業務の役にたつ - ビジネスコンテンツ情報を 活用する BtoB 事業編 - @Rist Meetup
2024 日本経済新聞社 データサイエンティスト 増田太郎
自己紹介:増田 太郎(ますだ たろう) 2 • 日経で BtoB Web サービスの分析を担うデータサイエンティスト •
施策の効果を数値化することに興味 ◦ A/B テストやベイズ統計モデリング • 取得称号・資格 ◦ Kaggle Master,統計検定 1 級, Google Cloud PDE(失効) • 趣味 兼 宣伝 ◦ Kaggler などデータサイエンス界隈で楽しむ,ゆるフットサル⚽ • 業務内容:チームリーダーとしてメンバーの分析結果のレビュー・ メンター・教育,他部署での A/B テスト設計のお手伝い
• 私たちは 「記事データや企業データを活用して お客様にビジネス情報を提供するサービス」を作っています • よくある誤解 ◦ 記者や報道部門との 直接的な関係は ほとんどありません
◦ 日経電子版ともまた 全然違った部署です • データはたくさん! 前提知識:私たちの事業について 3
役に立った事例1: 業種分類モデルの構築 4 • 企業の業界を人手作業ではなく機械学習モデルが予測する • 業界付与済みの上場企業データを使って機械学習モデルを学習し、 非上場企業の業種を予測(データセットシフトへの対処) ◦ Adversarial
Validation などを用いて特徴量を選択・調整
役に立った事例2: コーパスの新規構築 5 • 記事から企業動向や業界動向 など重要な記述をセンテンス 単位で抽出したい • 経済情報の記述はミクロ・マク ロ両視点の表現が混在しており
画一的なラベル定義が困難 • 独自に体系立てたラベル定義で のアノテーションおよび教師ありモデルを構築 ◦ Human-in-the-loop 的にアノテーションとモデル学習を繰り返し • 一貫したラベリングの質の重要性は Kaggle に教えてもらった🌿
6 教師データの質を見落とす者はメダルを逃す💔
前提知識: 役に立った事例 3,4 の背景 7 • 記事に対してメタデータを付与する仕組みを構築しています 記事 固有表現抽出 (NER)
文書分類 固有表現 の salience を算出 法人のエンティティリ ンキング 人物のエンティティリ ンキング 地名のジオコーディン グ
役に立った事例3: 継続的な学習データの品質向上 8 • Label Studio (人) とVertex (ML) が連携して能動学習
Label Studio Vertex AI Slack Train Job Predictor 予測不確実性が高いサンプルの予測結果送信 アノテーションデータの拡充 未アノテーションデータの 予測不確実性 ・アノテーションデータ ・未アノテションデータ 学習済み モデル 人 予測不確実性の高いサンプルのアノテーション
役に立った事例4: WandB を活用したエラー分析 9 • Confusion Matrix の便利な可視化
役に立った事例4: WandB を活用したエラー分析 10 • spacy.displacy を使った便利な可視化 大文字のラベル名: 正解ラベル 小文字のラベル名:
予測ラベル
• 日経には Kaggle で学んだ知識を活用して価値を生める 土壌がある ◦ データがそこら中に転がっている • 実際にそれらを活用した事例もたくさん存在する ◦
データセットシフトへの対処 ◦ 学習データのラベリングの品質向上 ◦ WandB を活用したエラー分析 • (6 名の Master 擁する弊社に皆様もぜひ!) まとめ 11