Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
画像センシングシンポジウム
PRO
June 12, 2024
Research
1
1.1k
SSII2024 [OS2] GPT-4Vで画像認識は終わるのか(オープニング)
画像センシングシンポジウム
PRO
June 12, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2025 [OS3] どの論文でもダメなんだけど! 〜実応用とその課題〜
ssii
PRO
2
1.7k
SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から
ssii
PRO
6
3.3k
SSII2025 [OS3-02] 広告における画像生成技術の実応用の現状
ssii
PRO
6
1.5k
SSII2025 [OS3-03] 有機ミニトマト農場におけるロボット開発と基礎研究
ssii
PRO
0
1.1k
SSII2025 [OS2-01] 自動運転の性能と共に進化するセンシングデバイス
ssii
PRO
2
2.1k
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
3
1.5k
SSII2025 [OS2] 新たなセンシングの潮流
ssii
PRO
1
700
SSII2025 [OS2-02] イベントカメラの研究紹介と可視光通信への応用
ssii
PRO
1
1.4k
SSII2025 [OS2-03] マルチ/ハイパースペクトル領域における高度な画像撮影および処理技術
ssii
PRO
2
1.5k
Other Decks in Research
See All in Research
Ankylosing Spondylitis
ankh2054
0
150
[SITA2025 Workshop] 空中計算による高速・低遅延な分散回帰分析
k_sato
0
130
From Data Meshes to Data Spaces
posedio
PRO
0
470
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
200
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
250
AWSの耐久性のあるRedis互換KVSのMemoryDBについての論文を読んでみた
bootjp
1
560
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
180
生成AI による論文執筆サポート・ワークショップ 論文執筆・推敲編 / Generative AI-Assisted Paper Writing Support Workshop: Drafting and Revision Edition
ks91
PRO
0
170
ウェブ・ソーシャルメディア論文読み会 第36回: The Stepwise Deception: Simulating the Evolution from True News to Fake News with LLM Agents (EMNLP, 2025)
hkefka385
0
210
Can We Teach Logical Reasoning to LLMs? – An Approach Using Synthetic Corpora (AAAI 2026 bridge keynote)
morishtr
1
170
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
300
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
6
4.1k
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
360
30k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
410
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Navigating Team Friction
lara
192
16k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.2k
Designing Experiences People Love
moore
143
24k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.1k
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
120
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.4k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
190
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
380
Transcript
GPT-4Vで画像認識は終わるのか 2024.6.13 八木 拓真(産業技術総合研究所)
背景 NLP2023開催(23年3月)直前にChatGPTが登場、会期中に緊急パネルが開催 2 https://www.anlp.jp/nlp2023/pdf/NLP2023_0314_special_panel.pdf
3 タスクの要求 回答形式の要求 主題・商品内容の認識 パネルの枚数の認識 画像の見た目・物体の認識 宣言的知識の参照 画像から得られた情報を参照しての推論 GPT-4 Technical
Report [OpenAI, ‘23] GPT-4Vは従来の画像認識タスクが 扱ってきた「見えるものを見る」を 超えた推論ができている
画像認識からマルチモーダル理解へ MMMU [Yue+, CVPR’24]:専門知を要求する総合質問応答ベンチマーク 4 https://arxiv.org/abs/2311.16502
テーマ:GPT-4Vで画像認識は終わるのか 大規模言語モデル(LLM)をはじめとした基盤モデルの波が画像認識分野にも 波及し、マルチモーダル基盤モデルの時代を迎えつつある マルチモーダル基盤モデルは高い性能と柔軟さを兼ね備え、 今までの個別タスクによるベンチマーキングを覆すインパクトを与えつつある 5 1990年代 画像処理 計測・抽出の時代 2000年代
統計的パターン認識 特徴量設計の時代 2010年代 深層学習 アーキテクチャ設計の時代 第1回SSII(1995) ↓ 2020年代 基盤モデル →次のトレンドは? 第30回SSII(2024) ↓ GPT-4Vによって画像認識は終わるのか?どう変わるのか?
講演者紹介 大規模言語モデルとVision & Languageのこれから • 栗田 修平さん(国立情報学研究所) 画像、その先へ ~モーション解析への誘い~ •
藤原 研人さん(LINEヤフー株式会社-大阪大学VHL) 大規模言語モデルと基盤モデルの射程 • 大谷 まゆさん(サイバーエージェント) 6