Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
マルチモーダルモデルと自動運転 車載モデルのコスト・スループット・レイテンシ / LLM in...
Search
Yu Yamaguchi
October 23, 2023
Science
1.9k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
マルチモーダルモデルと自動運転 車載モデルのコスト・スループット・レイテンシ / LLM in Production Meetup #2 20231023
Yu Yamaguchi
October 23, 2023
More Decks by Yu Yamaguchi
See All by Yu Yamaguchi
Kaggleに役立つ高速化・並列化テクニック
yuyamaguchi
16
7.4k
Vision Language Modelと自動運転AIの最前線_20250730
yuyamaguchi
6
2.5k
Trends in Multimodal Models and Autonomous Driving
yuyamaguchi
0
920
Turing TechTalk #8 自動運転AI開発のMLOpsを支える技術
yuyamaguchi
2
380
Turing TechTalk #7 E2E自動運転AIの開発プロセス
yuyamaguchi
0
890
完全自動運転に向けた生成AI開発の取り組み
yuyamaguchi
0
680
日本語Vision-Languageモデルの学習と評価ベンチマークの構築
yuyamaguchi
4
1.5k
マルチモーダル学習ライブラリ Heronと⾃動運転への応⽤
yuyamaguchi
1
2.3k
Other Decks in Science
See All in Science
白金鉱業Vol.21【初学者向け発表枠】身近な例から学ぶ数理最適化の基礎 / Learning the Basics of Mathematical Optimization Through Everyday Examples
brainpadpr
1
750
データベース06: SQL (3/3) 副問い合わせ
trycycle
PRO
1
980
Endel Tulvingとエピソード記憶
rmaruy
0
140
Van Dare naar Durf
voginip
0
230
水耕栽培を始める前に知っておきたい植物の科学
grow_design_lab
0
250
Physical AIを支えるWeights & Biases
olachinkei
1
380
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
1.2k
次代のデータサイエンティストへ~スキルチェックリスト、タスクリスト更新~
datascientistsociety
PRO
3
44k
1. CPC理論の展開と集合的知能モデル(JSAI2026 KS-27 集合的予測符号化と新たな知性の時代)
hayashiyus884
1
200
データベース02: データベースの概念
trycycle
PRO
2
1.2k
機械学習 - DBSCAN
trycycle
PRO
0
1.9k
Testing the Longevity Bottleneck Hypothesis
chinson03
0
320
Featured
See All Featured
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
610
GitHub's CSS Performance
jonrohan
1033
470k
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
200
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
210
Mobile First: as difficult as doing things right
swwweet
225
10k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
780
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
240
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
390
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
600
Transcript
マルチモーダルモデルと⾃動運転 ⼭⼝ 祐 Turing株式会社 Director of AI ⾞載モデルのコスト‧スループット‧レイテンシ LLM in
Production Meetup #2 2023/10/23
⾃⼰紹介 ⼭⼝ 祐(やまぐち ゆう) @ymg_aq Turing株式会社 Director of AI 産業技術総合研究所
研究員/⽶国NIST客員研究員として 研究する傍ら、独⾃にゲームAIの深層学習の開発を開 始。⽇本の囲碁AIプロジェクトの開発代表として、最⼤ 1100GPUの並列分散強化学習を設計‧開発し、世界⼤ 会準優勝などの実績がある。 HEROZ株式会社 執⾏役員を経て、2022年Turingに創業 メンバーとして参画。⾃動運転AIの研究開発の他、⾞載 OS‧アプリケーション‧IVIなどを含む⾃動⾞における ソフトウェア全般の開発マネジメントを担当。 最年少プロ棋⼠との対局 最近注⽂したTesla Model3 2
Turing株式会社 完全⾃動運転EVの開発‧製造をするスタート アップ。新たな完成⾞メーカーを⽬指す。 • AIとソフトウェアから新しいクルマを ◦ ソフトウェアエンジニアが中⼼に創業 ◦ ⾃動運転だけでなく、⾞両の開発も⼿掛ける ▪
ハンドルがない乗⽤⾞の販売を⽬指す • We Overtake Tesla ◦ ⽶中には何百社もEV/⾃動運転スタートアップがある ◦ ⼤規模モデルを使った⾃動運転技術で挑戦する Japan Mobility Show 2023に展⽰するEV 3 柏の葉キャンパスのオフィス
なぜ⾃動運転にLLMが必要? 運転には複雑で未知の状況が無数に存在する。 ⼈間のように「理解」できる頭が必要。 • センサー vs Vision-Centric AI ◦ 従来は多数のセンサー
+ 3D地図 + アルゴリズムで制御 ◦ カメラ+機械学習モデルでその場で対応するVision- Centricな⼿法が台頭 • 「完全」な⾃動運転はハードルが⾼い ◦ 交通環境は典型的なロングテールで、アルゴリズムで 対応するには限界がある ◦ 複雑な交通標識、かもしれない運転、外部コミュニ ケーションには⾼度なコンテキスト理解が不可⽋ 多数のセンサーを搭載した⾃動運転⾞ (https://waymo.com) 交通環境は典型的なロングテール ( Long-Tail Prediction Uncertainty Aware Trajectory Planning for Self-driving Vehicles ) 4 難・少
GPT-4で⾞を動かす LLMで実際に⾞を制御するLLM in Vehicleを 開発。メディアなど100⼈以上が体験 • 物体検知 + GPT-4 +
制御 ◦ カメラで認知した情報をDeticでopen vocabularyに 検知、位置情報を取得 ◦ ⾳声指⽰とプロンプトとしてOpenAI APIに接続 • 複雑な指⽰‧判断にも対応 ◦ 「バナナと同じ⾊のコーンに⾏って」 ◦ 「右に⾏くと1⼈、左に⾏くと5⼈が事故にあう」 • 課題が多く⾒つかった ◦ ⼊⼒〜動作までの時間、精度、視覚情報との接続 LLM in Vehicleのデモ⾞両 5
マルチモーダル学習ライブラリ「Heron」 LLMに視覚を与える学習フレームワークを 開発。最⼤700億パラメータのモデルを公開 • 画像を⾔語トークンに変換する ◦ BLIP, GITなどの変換⼿法 (= Adapter)
を採⽤ ◦ 物体検知では難しかった映像全体の把握が可能 • 様々なモデルを組み合わせて学習できる ◦ Vision Encoder + Adapter + LLM ◦ ⽇本語データセットも提供 • ソースコード、デモも公開中 ◦ https://github.com/turingmotors/heron ◦ デモページ → Link Heronの柔軟な学習設定 6
学習に必要なコスト LLMの学習にはかなりのコストが必要。 GPUだけでなく、データセットも重要 • Llama2-70Bの学習コスト ◦ 172万 GPU時間 = 10億円
@ AWS ◦ LoRAで学習させるだけでも百万円単位 • 分散並列学習の技術が重要 ◦ HPC的なインフラ + 並列技術 ◦ Turingでも⼤規模な設備投資を計画 • データセット ◦ 独⾃に⾛⾏データを6000時間取得 ◦ ⾃動運転のための⼤規模なVisual QAデータセット Wang, Guanhua, et. al. 2023. “ZeRO++: Extremely Efficient Collective Communication for Giant Model Training.” arXiv [cs.DC]. arXiv. http://arxiv.org/abs/2306.10209. DriveLMデータセット (https://github.com/OpenDriveLab/DriveLM) 7
推論のスループットとレイテンシ LLMの推論は時間がかかる。APIではレイテ ンシ、エッジではスループットが課題 • APIのレイテンシ vs エッジのスループット ◦ 512tokenで2-3秒、たまに数⼗秒になることも ◦
A100でも⼤きなモデルは数⼗~数百token/秒程度 • ⾞の制御に使えるか? ◦ 通信が安定しない(⾼速‧⼭奥‧トンネル) ▪ 時速100kmでは1秒で27m進む ◦ エッジデバイスで動くLLMを開発する必要がある OpenAI / Azure OpenAI APIの応答時間 (https://gptforwork.com/tools/openai-api-and-other-llm- apis-response-time-tracker ) LLM in Vehicleのエッジ計算機 8
⾞載モデルを動かすには? 計算HWとソフトウェアの進化に賭けつつ、 2030年の量産に向け独⾃開発を進める。 • GPU性能は⾶躍的に向上しているが… ◦ 7年前に⽐べて50倍程度向上 (P100/H100) ◦ エッジデバイスでは先になるかも
→ 独⾃のTransformer推論⽤チップの開発に着⼿ • Navigator/Diverモデル ◦ 速い反応が要求されるdriverと複雑な判断が要求さ れるnavigator (=LLM) を分離する ◦ 特許出願済 GPUの性能は⾶躍的に上昇している LLMと制御モデルが協調するNavigator-Driverモデル ( http://cameracourage.com/tag/stage-notes/ ) 9
まとめ • 将来の⾃動運転⾞にはLLMが必要 ◦ 複雑なコンテキストを理解する「脳」が必要 ◦ 視覚、その他センサ情報を統合する • ⾞に組み込むには速度が第⼀ ◦
LLMの推論はスループット‧レイテンシに課題 ◦ HW‧ソフトウェアで⾼速化を⽬指す • 質問‧コメントお願いします ◦ パネルディスカッション、懇親会で ◦ テックブログもどうぞ Turingのテックブログ ( https://zenn.dev/p/turing_motors ) 10
None