Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
Search
画像センシングシンポジウム
PRO
June 12, 2024
Research
0
500
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
画像センシングシンポジウム
PRO
June 12, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2024 [OS1] 自動運転における 重要技術とトレンド紹介
ssii
PRO
0
690
SSII2024 [PD] SSIIアナザーストーリーズ
ssii
PRO
0
200
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
2k
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
570
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
510
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
490
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.2k
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.4k
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
ssii
PRO
0
790
Other Decks in Research
See All in Research
大規模言語モデルのバイアス
yukinobaba
PRO
4
650
CSER 2024 Keynote
tsantalis
0
190
工学としてのSRE再訪 / Revisiting SRE as Engineering
yuukit
19
10k
ヘルプデスクの事例で学ぶAIエージェント
masatoto
14
8.1k
3次元点群の分類における評価指標について
kentaitakura
0
220
外積やロドリゲスの回転公式を利用した点群の回転
kentaitakura
1
590
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
7
3k
ミニ四駆AI用制御装置の事例紹介
aks3g
0
150
機械学習による言語パフォーマンスの評価
langstat
5
520
Weekly AI Agents News! 8月号 論文のアーカイブ
masatoto
1
130
[第62回NLPコロキウム]「なりきり」を促すHCI設計:対話型接客ロボットの遠隔操作者へのリアルタイム変換音声フィードバックの適用
nami_ogawa
0
290
The Fellowship of Trust in AI
tomzimmermann
0
110
Featured
See All Featured
Designing the Hi-DPI Web
ddemaree
280
34k
Fantastic passwords and where to find them - at NoRuKo
philnash
50
2.8k
Product Roadmaps are Hard
iamctodd
PRO
48
10k
Writing Fast Ruby
sferik
626
60k
Scaling GitHub
holman
458
140k
Why You Should Never Use an ORM
jnunemaker
PRO
53
9k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
167
49k
How GitHub (no longer) Works
holman
311
140k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
355
29k
Why Our Code Smells
bkeepers
PRO
334
57k
We Have a Design System, Now What?
morganepeng
50
7.2k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9k
Transcript
SSII2024 大規模言語モデルと基盤モデルの射程 2024.6.13 大谷 まゆ(サイバーエージェント)
2 GPT-4Vで画像認識は終わるのか SSII2024 サイバーエージェント AI Lab 大谷まゆ • コンピュータビジョン研究のための評価方法に興味 •
デザイン制作支援、画像生成 • 経歴 ◦ 2018 – 現職 ◦ 2014 – 2018 修士・博士課程@NAIST
3 GPT-4Vで画像認識は終わるのか SSII2024 コンピュータビジョンの一般的な研究スタイル 手法開発 性能比較 論文が出版されたり プロダクトに採用されたり
4 GPT-4Vで画像認識は終わるのか SSII2024 評価方法はちゃんと役割を果たしている? 性能比較
5 GPT-4Vで画像認識は終わるのか SSII2024 映像要約のベンチマーク調査(CVPR’18) 要約の品質に関係なく評価値が決まるこ とを確認 ベンチマーク調査 ランダム化した要約 参照要約
6 GPT-4Vで画像認識は終わるのか SSII2024 シーン検索のベンチマーク調査 (BMVC’20) データセットに潜む偏りが評価結果に及ぼす 影響を調査 ベンチマーク調査 学習&推論時に映像を使わず SOTAに迫る
スコアが出ることを確認
7 GPT-4Vで画像認識は終わるのか SSII2024 現状技術の限界(の感覚)と評価結果のギャップ ベンチマークの違和感はどこに生じるか データの限界 手法の限界 ドメインシフト、データ量、クラス偏り...etc. 使える教師信号、扱える特徴...etc. 性能の概算:
扱えそうな問題はベンチマークの△△ %ぐらい? 成功率◯◯%
8 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 『コンピュータを使
う猫』
9 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 言語モデルが多様な問題に有効 • 要約 • 翻訳 • 推論を伴う質問応答 • 雑談 • プログラミング • etc. 『a photo of siberian husky』 CLIPのzero-shot classifier https://openai.com/index/clip/
10 GPT-4Vで画像認識は終わるのか SSII2024 視覚言語モデルの限界はどのあたりにあるのか? Vision Encoder LLM Connection Model 膨大なデータを学習することで強
力な特徴空間を獲得 『a photo of siberian husky』 CLIPのzero-shot classifier GPT4 Technical Report 強力な特徴空間の上での様々な操作がで きる可能性 特徴空間が獲得できれば多様な CV課題 が視覚言語モデルの射程に入る?
11 GPT-4Vで画像認識は終わるのか SSII2024 CVに残された課題は? データを集めにくい領域は扱えない→集めれば解決? 様々なモダリティへの対応→同様のアプローチが有効? ImageBind: One Embedding Space
To Bind Them All (CVPR’23)
12 GPT-4Vで画像認識は終わるのか SSII2024 • 多くの画像認識課題がGPT-4V的アプローチの射程圏に入る • 従来のCV問題の本質が「工学的な手法の探索」から「実用的リソース配分」に なる • 多くの課題がCVを卒業し、政治、思想、芸術の領域へ接続してゆく
GPT-4Vで画像認識は終わるのか?