Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する...
Search
Taro Masuda
October 17, 2024
Technology
1.1k
1
Share
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
Rist Meetup 2024「Kaggleは業務の役にたつ」
https://connpass.com/event/327246/
の LT 登壇資料です。
Taro Masuda
October 17, 2024
More Decks by Taro Masuda
See All by Taro Masuda
白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919
taro_masuda
4
1k
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-poster-s3-p21
taro_masuda
0
230
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
taro_masuda
1
570
BtoBプロダクト改善のためのデータドリブン活動と組織の概要/b2b_data_driven_team
taro_masuda
0
1.2k
企業の業界分類予測における共変量シフト問題の抑制
taro_masuda
3
1.6k
ディジタル信号処理の入り口に立つ
taro_masuda
3
360
歌声の特徴に基づいて曲を探そう!
taro_masuda
1
1.7k
NGBoost論文読んでみた
taro_masuda
2
4.2k
Other Decks in Technology
See All in Technology
猫でもわかるKiro CLI(CDKコーディング編)
kentapapa
1
110
Introduction to Bill One Development Engineer
sansan33
PRO
0
410
明日からドヤれる!超マニアックなAWSセキュリティTips10連発 / 10 Ultra-Niche AWS Security Tips
yuj1osm
0
420
QGISプラグイン CMChangeDetector
naokimuroki
1
250
システムは「動く」だけでは 足りない - 非機能要件・分散システム・トレードオフの基礎
nwiizo
29
8.9k
CloudSec JP #005 後締め ~ソフトウェアサプライチェーン攻撃から開発者のシークレットを守る~
lhazy
0
190
LLM とプロンプトエンジニアリング/チューターを定義する / LLMs and Prompt Engineering, and Defining Tutors
ks91
PRO
0
390
Eight Engineering Unit 紹介資料
sansan33
PRO
3
7.2k
2026年、知っておくべき最新 サーバレスTips10選/serverless-10-tips
slsops
12
4.7k
非エンジニア職からZOZOへ 〜登壇がキャリアに与えた影響〜
penpeen
0
450
DIPS2.0データに基づく森林管理における無人航空機の利用状況
naokimuroki
1
210
Hello UUID
mimifuwacc
0
140
Featured
See All Featured
Art, The Web, and Tiny UX
lynnandtonic
304
21k
How GitHub (no longer) Works
holman
316
150k
Building Applications with DynamoDB
mza
96
7k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
180
So, you think you're a good person
axbom
PRO
2
2k
エンジニアに許された特別な時間の終わり
watany
106
240k
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
110
We Have a Design System, Now What?
morganepeng
55
8.1k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
64
53k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Making the Leap to Tech Lead
cromwellryan
135
9.8k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
140
Transcript
Kaggle は業務の役にたつ - ビジネスコンテンツ情報を 活用する BtoB 事業編 - @Rist Meetup
2024 日本経済新聞社 データサイエンティスト 増田太郎
自己紹介:増田 太郎(ますだ たろう) 2 • 日経で BtoB Web サービスの分析を担うデータサイエンティスト •
施策の効果を数値化することに興味 ◦ A/B テストやベイズ統計モデリング • 取得称号・資格 ◦ Kaggle Master,統計検定 1 級, Google Cloud PDE(失効) • 趣味 兼 宣伝 ◦ Kaggler などデータサイエンス界隈で楽しむ,ゆるフットサル⚽ • 業務内容:チームリーダーとしてメンバーの分析結果のレビュー・ メンター・教育,他部署での A/B テスト設計のお手伝い
• 私たちは 「記事データや企業データを活用して お客様にビジネス情報を提供するサービス」を作っています • よくある誤解 ◦ 記者や報道部門との 直接的な関係は ほとんどありません
◦ 日経電子版ともまた 全然違った部署です • データはたくさん! 前提知識:私たちの事業について 3
役に立った事例1: 業種分類モデルの構築 4 • 企業の業界を人手作業ではなく機械学習モデルが予測する • 業界付与済みの上場企業データを使って機械学習モデルを学習し、 非上場企業の業種を予測(データセットシフトへの対処) ◦ Adversarial
Validation などを用いて特徴量を選択・調整
役に立った事例2: コーパスの新規構築 5 • 記事から企業動向や業界動向 など重要な記述をセンテンス 単位で抽出したい • 経済情報の記述はミクロ・マク ロ両視点の表現が混在しており
画一的なラベル定義が困難 • 独自に体系立てたラベル定義で のアノテーションおよび教師ありモデルを構築 ◦ Human-in-the-loop 的にアノテーションとモデル学習を繰り返し • 一貫したラベリングの質の重要性は Kaggle に教えてもらった🌿
6 教師データの質を見落とす者はメダルを逃す💔
前提知識: 役に立った事例 3,4 の背景 7 • 記事に対してメタデータを付与する仕組みを構築しています 記事 固有表現抽出 (NER)
文書分類 固有表現 の salience を算出 法人のエンティティリ ンキング 人物のエンティティリ ンキング 地名のジオコーディン グ
役に立った事例3: 継続的な学習データの品質向上 8 • Label Studio (人) とVertex (ML) が連携して能動学習
Label Studio Vertex AI Slack Train Job Predictor 予測不確実性が高いサンプルの予測結果送信 アノテーションデータの拡充 未アノテーションデータの 予測不確実性 ・アノテーションデータ ・未アノテションデータ 学習済み モデル 人 予測不確実性の高いサンプルのアノテーション
役に立った事例4: WandB を活用したエラー分析 9 • Confusion Matrix の便利な可視化
役に立った事例4: WandB を活用したエラー分析 10 • spacy.displacy を使った便利な可視化 大文字のラベル名: 正解ラベル 小文字のラベル名:
予測ラベル
• 日経には Kaggle で学んだ知識を活用して価値を生める 土壌がある ◦ データがそこら中に転がっている • 実際にそれらを活用した事例もたくさん存在する ◦
データセットシフトへの対処 ◦ 学習データのラベリングの品質向上 ◦ WandB を活用したエラー分析 • (6 名の Master 擁する弊社に皆様もぜひ!) まとめ 11