Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
会社でMLモデルを作るとは @電気通信大学 データアントレプレナーフェロープログラム
Search
yuto16
September 21, 2025
Science
1
230
会社でMLモデルを作るとは @電気通信大学 データアントレプレナーフェロープログラム
下記登壇時の発表資料です。
https://www.de.uec.ac.jp/
yuto16
September 21, 2025
Tweet
Share
More Decks by yuto16
See All by yuto16
Snowflakeで実現する広告画像評価の自動化と属人化解消 @Snowflake MEATup
yuto16
0
9
GA technologiesでのAI-Readyの取り組み@DataOps Night
yuto16
0
220
Cortexで加速する AI不動産投資 RENOSYのデータ活用 @Snowflake ACCELERATE
yuto16
0
240
Streamlit in Snowflakeで加速する不動産テック企業のデータ活用 @Snowflake WESTユーザー会
yuto16
1
370
Other Decks in Science
See All in Science
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
990
機械学習 - DBSCAN
trycycle
PRO
0
1.1k
Transport information Geometry: Current and Future II
lwc2017
0
200
データマイニング - グラフデータと経路
trycycle
PRO
1
220
AIに仕事を奪われる 最初の医師たちへ
ikora128
0
980
ウェブ・ソーシャルメディア論文読み会 第25回: Differences in misinformation sharing can lead to politically asymmetric sanctions (Nature, 2024)
hkefka385
0
130
機械学習 - pandas入門
trycycle
PRO
0
320
CV_5_3dVision
hachama
0
150
深層学習を用いた根菜類の個数カウントによる収量推定法の開発
kentaitakura
0
180
Cross-Media Technologies, Information Science and Human-Information Interaction
signer
PRO
3
31k
academist Prize 4期生 研究トーク延長戦!「美は世界を救う」っていうけど、どうやって?
jimpe_hitsuwari
0
170
Hakonwa-Quaternion
hiranabe
1
130
Featured
See All Featured
A better future with KSS
kneath
239
17k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.1k
Side Projects
sachag
455
43k
Visualization
eitanlees
148
16k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
Building Applications with DynamoDB
mza
96
6.6k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Speed Design
sergeychernyshev
32
1.1k
Building Adaptive Systems
keathley
43
2.8k
Transcript
会社でMLモデルを作るとは? ~入社1ヶ月目でMLモデルを作成した話 ~ @電気通信大学 データアントレプレナーフェロープログラム GA technologies Data本部
Applied ML部 酒井悠斗 Data Scientist 2025/09/13
1. 登壇者紹介 / 会社紹介 2. 会社でMLモデルを作るとは? ~具体例ともに ~ 3. まとめ
アジェンダ
登壇者紹介 酒井 悠斗 / Yuto Sakai 学歴:慶應義塾大学大学院 数理科学専攻 職歴:新卒で外資保険会社
→ 2024年 GA technologies入社 所属:Data本部 Applied ML部 データサイエンティスト GA technologiesでの取り組み: ・デジタルマーケティング領域の出稿割合の最適化 ・セールス領域の行動とKPIの関連性可視化・分析 ・社内でのLLMアプリ作成ツール導入による LLMの民主化
会社紹介 / GA technologies ※コーポレートストーリー 2025年6月より(証券コード:3491)
事業紹介 / RENOSY ※1 東京商工リサーチによる投資用不動産の売上実績(2025年3月調べ) ※2 東京商工リサーチによる投資用不動産会社の売上原価調査(2024年10月調べ)
事業紹介 / RENOSY ※コーポレートストーリー 2025年6月より(証券コード:3491)
お客様が投資用不動産を購入するまで Webでの問い合わせから成約までの一連のフローは以下の通り 成約 Field Sales オンライン面談 Inside Sales
電話面談 Web 問い合わせ
入社直後のある日 MLモデル作成してね 承知しました! MLモデルを作成して欲しい。 広告コストの最適化 (CAPI*) で使いたいんだ。 *CAPI:
Conversion API
Conversion API (CAPI) について 広告コストを最適化するための CAPIとは? https://www.treasuredata.co.jp/blog/conversion-api/ 広告媒体側ではわからない、 RENOSY側での顧客の行動情 報を広告媒体にフィードバック
することで、広告効率を高める 問い合わせ時の情報で、問い 合わせ顧客の成約率を正確に 予測できることが広告効率を 高めることに
入社直後のある日 いざMLモデル作り よし!がんばるぞ!あれ・・・?
会社でMLモデルを作るとは? MLモデル単体を取り巻く様々なことを意識しながらモデルを作成する必要がある。 ユーザー 社内メンバー/開発者 システム DWH *DWH =
Data Warehouse MLモデル ドキュメント モデルの出力 モニタリング
会社でMLモデルを作るとは? MLモデル単体を取り巻く様々なことを意識しながらモデルを作成する必要がある。 ユーザー 社内メンバー/開発者 社内システム DWH *DWH =
Data Ware House MLモデル ドキュメント モデルの出力 モニタリング 課題 課題 課題 課題 課題 課題 課題
どんな変数使えそうかな? 変数の意味調べてみよう! モデル作成段階
データカタログの情報が不十分 データの説明が 100%整備されていることはまずないです しっかり説明が記載されているプロダクトもあった り、そうではないものも・・・ 社内のドキュメント +
人に聞く (長期的にはデータガバナンスの強化が大切) 用語:SchemaSpy, OpenMetadata 課題 解決策
変数の時系列での分布がおかしいぞ? モデル作成段階
不正確なデータ 過去のデータの値・説明が正しい保証はないです。 エンジニアの実装ミスで一定期間の値のマッピン グが間違っていたことも 該当期間のデータを正しく修復できそうなら修復。 難しそうなら削除
課題 解決策
あれ、ありえないデータが? モデル作成段階
異常なデータ ありえないデータもきます。 124歳・・・?!ギネス級? 記入フォームでバリデーションしてない。 していても想定外の入力はある。 MLモデルへの投入前に
Data Validationフェーズ を追加 用語: Data Validation, Pandera 課題 解決策
リリース直後: モデルうまく動いているかな・・・ ドキドキ・・・ モデルリリース
本番運用中はモデルの精度確認にもラグが出る 答えはすぐにはわかりません。 KPIのダッシュボードを作成しモニタリング 成約率だと最低でも 1,2ヶ月は答え(成約するか)を 知るために待つ必要がある 日々変わる答えに対応したモニタリングの検討
別KPIなどでの多角的なチェック 用語: 先行指数, 遅行指数 課題 解決策
リリース後のある日: あれ、今日の分のMLモデルの出力が 無い?! リリース後
データ連携の失敗 パイプラインは失敗するもの Cloudサービス・実装ミス・予期しない負荷などの 影響でデータフローは失敗する フローの各地点でうまく動いているかどうか記録・ エラーの検知を設定しておく
用語: Logging, Webhook 課題 解決策
リリース後のある日: あれ、MLモデルの出力おかしいぞ * *フィクションです。実際この時は事前に 社内で情報共有がありました。 リリース後
データはビジネス要件によって変化する 未来のデータの値が同じである保証もないです 特徴量として使用している変数が問い合わせ フォームの項目削減によって変更になる モデルの学習し直し。プロジェクトの進捗を常に キャッチアップ。モニタリングも行う
用語: PSI, Feature Drift, Concept Drift 課題 解決策
他にも気にする点あります
コストとベネフィットの意識が必要 MLモデルによるコスパも意識しなければいけません Notebookで作成したMLモデルを本番運用するた めには様々なコストがかかる。 開発コスト, Pipeline稼働コスト, データ連携コスト,
ベネフィットなどの計測 用語: ROI, FinOps 課題 解決策
伝える努力も必要です ドキュメンテーション・コミュニケーションも大事です https://www.ownml.co/machine-learning-canvas 例えばチーム内では左のような ML Canvasというフレームワークで 情報を整理していたりします。
複雑なMLモデルを人に伝えるのは大変 MLモデルに関するドキュメンテーションや 直接のコミュニケーションが大切 用語: ML Canvas 課題 解決策
会社でMLモデルを作るとは? MLモデル単体を取り巻く様々なことを意識しながらモデルを作成する必要がある。 ユーザー 社内メンバー/開発者 システム DWH *DWH =
Data Ware House MLモデル ドキュメント モデルの出力 モニタリング 仕様変更 異常値 バグ 連携失敗 Doc不足 ドリフト バラバラ
会社でMLモデルを作るとは? MLモデル単体を取り巻く様々なことを意識しながらモデルを作成する必要がある。 • データカタログが完璧ではない中で、 • 過去のデータの不整合もカバーして、
• 日々流れてくる異常値にも頑健で、 • たまにデータ連携が失敗することもある中で、 • 未来のschema変更にも注意を払ってモデルをメンテナンスして、 • モデルの精度に気をかけながら、 • コストとベネフィットのバランスを考え、 • それらを正確に正しくコミュニケーションしながら、 MLモデルを作るということ いろいろ考えることは多いがそれが楽しい!
MLモデルを作成するだけでも ... 前述のような前後のこと、 • データがどのように集められてくるか • MLモデルの出力をどのように活用するか
にも思いをめぐらせることで、より良い分析・モデリングができ ると思います!
最近のはなし LLMアプリ作成してね 承知しました! LLMでアプリケーションを 作って欲しい。営業社員 の効率化のために使いた いんだ。
最近のはなし いろいろ取り組んでいるのでご興味あればご覧ください 社内のAI/ML活用のための取り 組みについて紹介します! @ナウキャストさん (九段下) @09/29(月)
LLMや統計を用いた社内の便 利アプリをいろいろ作ったり (*1) 営業の商談トークを LLMを用い て分析したり (*1) 新しいデータ活用基盤について 考えたり (*2) *1: https://speakerdeck.com/yuto16 *2: https://finatext.connpass.com/event/365995/
ご清聴ありがとうございました!