Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
Search
画像センシングシンポジウム
PRO
June 12, 2024
Research
1.2k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
画像センシングシンポジウム
PRO
June 12, 2024
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜
ssii
PRO
0
610
SSII2026 [SS2] CADにおけるAI分野の動向と製造業 への実適⽤
ssii
PRO
1
1.1k
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
ssii
PRO
0
430
SSII2026 [PT1] アクセラレーテッド・コンピューティングが切り拓く知能の最前線 ~生成AIからエージェンティックAI、そしてフィジカルAIへの進化~
ssii
PRO
0
570
SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜
ssii
PRO
0
580
SSII2026 [OS1] 計算機インフラどうしてる?
ssii
PRO
0
340
SSII2026 [OS1-1] 機械学習のための計算基盤の開発
ssii
PRO
0
330
SSII2026 [OS1-2] 学術クラウド基盤mdx IIの 設計と運用
ssii
PRO
0
320
SSII2026 [OS1-3] 実験室自動化を目指した 計算機との試行錯誤
ssii
PRO
0
300
Other Decks in Research
See All in Research
Cross-Media Information Spaces and Architectures
signer
PRO
0
300
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
1
1.3k
COFFEE-Japan PROJECT Impact Report(Uminomukou Coffee)
ontheslope
0
190
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
190
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
630
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
640
Using our influence and power for patient safety
helenbevan
0
360
2026年度 生成AI を活用した論文執筆ガイド/ワークショップ / 2026 Academic Year Guide to Writing Papers Using Generative AI - Workshop
ks91
PRO
0
170
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
shunk031
4
1k
計算情報学研究室(数理情報学第7研究室)2026
tomohirokoana
0
560
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
560
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
990
Featured
See All Featured
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
330
It's Worth the Effort
3n
188
29k
Practical Orchestrator
shlominoach
191
11k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
120k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
130
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
How to make the Groovebox
asonas
2
2.2k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
GraphQLとの向き合い方2022年版
quramy
50
15k
Transcript
GPT-4Vで画像認識は終わるのか 2024.6.13 八木 拓真(産業技術総合研究所)
背景 NLP2023開催(23年3月)直前にChatGPTが登場、会期中に緊急パネルが開催 2 https://www.anlp.jp/nlp2023/pdf/NLP2023_0314_special_panel.pdf
3 タスクの要求 回答形式の要求 主題・商品内容の認識 パネルの枚数の認識 画像の見た目・物体の認識 宣言的知識の参照 画像から得られた情報を参照しての推論 GPT-4 Technical
Report [OpenAI, ‘23] GPT-4Vは従来の画像認識タスクが 扱ってきた「見えるものを見る」を 超えた推論ができている
画像認識からマルチモーダル理解へ MMMU [Yue+, CVPR’24]:専門知を要求する総合質問応答ベンチマーク 4 https://arxiv.org/abs/2311.16502
テーマ:GPT-4Vで画像認識は終わるのか 大規模言語モデル(LLM)をはじめとした基盤モデルの波が画像認識分野にも 波及し、マルチモーダル基盤モデルの時代を迎えつつある マルチモーダル基盤モデルは高い性能と柔軟さを兼ね備え、 今までの個別タスクによるベンチマーキングを覆すインパクトを与えつつある 5 1990年代 画像処理 計測・抽出の時代 2000年代
統計的パターン認識 特徴量設計の時代 2010年代 深層学習 アーキテクチャ設計の時代 第1回SSII(1995) ↓ 2020年代 基盤モデル →次のトレンドは? 第30回SSII(2024) ↓ GPT-4Vによって画像認識は終わるのか?どう変わるのか?
講演者紹介 大規模言語モデルとVision & Languageのこれから • 栗田 修平さん(国立情報学研究所) 画像、その先へ ~モーション解析への誘い~ •
藤原 研人さん(LINEヤフー株式会社-大阪大学VHL) 大規模言語モデルと基盤モデルの射程 • 大谷 まゆさん(サイバーエージェント) 6