Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Taro Masuda
October 17, 2024
Technology
1
1.1k
Rist_Meetup_Kaggleは業務の役にたつ - ビジネスコンテンツ情報を活用する BtoB 事業編 - / rist-meetup-20241012
Rist Meetup 2024「Kaggleは業務の役にたつ」
https://connpass.com/event/327246/
の LT 登壇資料です。
Taro Masuda
October 17, 2024
Tweet
Share
More Decks by Taro Masuda
See All by Taro Masuda
白金鉱業Meetup_経験値ゼロから始める A_B テスト布教活動と意思決定に活かしやすいA_Bテスト設計の一案 / brainpad-meetup-20240919
taro_masuda
4
1k
企業・業界動向抽出のための経済情報ラベルの定義とタグ付きコーパスの構築 / yans2023-poster-s3-p21
taro_masuda
0
230
NLP2024 参加報告LT ~RAGの生成評価と懇親戦略~ / nlp2024_attendee_presentation_LT_masuda
taro_masuda
1
560
BtoBプロダクト改善のためのデータドリブン活動と組織の概要/b2b_data_driven_team
taro_masuda
0
1.2k
企業の業界分類予測における共変量シフト問題の抑制
taro_masuda
3
1.6k
ディジタル信号処理の入り口に立つ
taro_masuda
3
360
歌声の特徴に基づいて曲を探そう!
taro_masuda
1
1.7k
NGBoost論文読んでみた
taro_masuda
2
4.2k
Other Decks in Technology
See All in Technology
FastMCP OAuth Proxy with Cognito
hironobuiga
3
210
開発チームとQAエンジニアの新しい協業モデル -年末調整開発チームで実践する【QAリード施策】-
kaomi_wombat
0
250
モジュラモノリス導入から4年間の総括:アーキテクチャと組織の相互作用について / Architecture and Organizational Interaction
nazonohito51
7
3.9k
スピンアウト講座04_ルーティン処理
overflowinc
0
1.3k
Amazon Qはアマコネで頑張っています〜 Amazon Q in Connectについて〜
yama3133
1
130
DDD×仕様駆動で回す高品質開発のプロセス設計
littlehands
6
2.5k
Embeddings : Symfony AI en pratique
lyrixx
0
310
「コントロールの三分法」で考える「コト」への向き合い方 / phperkaigi2026
blue_goheimochi
0
220
やさしいとこから始めるGitHubリポジトリのセキュリティ
tsubakimoto_s
2
1.7k
Phase05_ClaudeCode入門
overflowinc
0
2.3k
契約書からの情報抽出を行うLLMのスループットを、バッチ処理を用いて最大40%改善した話
sansantech
PRO
3
290
AIエージェント×GitHubで実現するQAナレッジの資産化と業務活用 / QA Knowledge as Assets with AI Agents & GitHub
tknw_hitsuji
0
240
Featured
See All Featured
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
310
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
160
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.5k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
43k
My Coaching Mixtape
mlcsv
0
86
Producing Creativity
orderedlist
PRO
348
40k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.4k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.2k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
150
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
For a Future-Friendly Web
brad_frost
183
10k
Transcript
Kaggle は業務の役にたつ - ビジネスコンテンツ情報を 活用する BtoB 事業編 - @Rist Meetup
2024 日本経済新聞社 データサイエンティスト 増田太郎
自己紹介:増田 太郎(ますだ たろう) 2 • 日経で BtoB Web サービスの分析を担うデータサイエンティスト •
施策の効果を数値化することに興味 ◦ A/B テストやベイズ統計モデリング • 取得称号・資格 ◦ Kaggle Master,統計検定 1 級, Google Cloud PDE(失効) • 趣味 兼 宣伝 ◦ Kaggler などデータサイエンス界隈で楽しむ,ゆるフットサル⚽ • 業務内容:チームリーダーとしてメンバーの分析結果のレビュー・ メンター・教育,他部署での A/B テスト設計のお手伝い
• 私たちは 「記事データや企業データを活用して お客様にビジネス情報を提供するサービス」を作っています • よくある誤解 ◦ 記者や報道部門との 直接的な関係は ほとんどありません
◦ 日経電子版ともまた 全然違った部署です • データはたくさん! 前提知識:私たちの事業について 3
役に立った事例1: 業種分類モデルの構築 4 • 企業の業界を人手作業ではなく機械学習モデルが予測する • 業界付与済みの上場企業データを使って機械学習モデルを学習し、 非上場企業の業種を予測(データセットシフトへの対処) ◦ Adversarial
Validation などを用いて特徴量を選択・調整
役に立った事例2: コーパスの新規構築 5 • 記事から企業動向や業界動向 など重要な記述をセンテンス 単位で抽出したい • 経済情報の記述はミクロ・マク ロ両視点の表現が混在しており
画一的なラベル定義が困難 • 独自に体系立てたラベル定義で のアノテーションおよび教師ありモデルを構築 ◦ Human-in-the-loop 的にアノテーションとモデル学習を繰り返し • 一貫したラベリングの質の重要性は Kaggle に教えてもらった🌿
6 教師データの質を見落とす者はメダルを逃す💔
前提知識: 役に立った事例 3,4 の背景 7 • 記事に対してメタデータを付与する仕組みを構築しています 記事 固有表現抽出 (NER)
文書分類 固有表現 の salience を算出 法人のエンティティリ ンキング 人物のエンティティリ ンキング 地名のジオコーディン グ
役に立った事例3: 継続的な学習データの品質向上 8 • Label Studio (人) とVertex (ML) が連携して能動学習
Label Studio Vertex AI Slack Train Job Predictor 予測不確実性が高いサンプルの予測結果送信 アノテーションデータの拡充 未アノテーションデータの 予測不確実性 ・アノテーションデータ ・未アノテションデータ 学習済み モデル 人 予測不確実性の高いサンプルのアノテーション
役に立った事例4: WandB を活用したエラー分析 9 • Confusion Matrix の便利な可視化
役に立った事例4: WandB を活用したエラー分析 10 • spacy.displacy を使った便利な可視化 大文字のラベル名: 正解ラベル 小文字のラベル名:
予測ラベル
• 日経には Kaggle で学んだ知識を活用して価値を生める 土壌がある ◦ データがそこら中に転がっている • 実際にそれらを活用した事例もたくさん存在する ◦
データセットシフトへの対処 ◦ 学習データのラベリングの品質向上 ◦ WandB を活用したエラー分析 • (6 名の Master 擁する弊社に皆様もぜひ!) まとめ 11