Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [PD] SSII、次の30年への期待
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
画像センシングシンポジウム
PRO
June 12, 2024
Research
1.7k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SSII2024 [PD] SSII、次の30年への期待
画像センシングシンポジウム
PRO
June 12, 2024
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜
ssii
PRO
0
590
SSII2026 [SS2] CADにおけるAI分野の動向と製造業 への実適⽤
ssii
PRO
1
1k
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
ssii
PRO
0
420
SSII2026 [PT1] アクセラレーテッド・コンピューティングが切り拓く知能の最前線 ~生成AIからエージェンティックAI、そしてフィジカルAIへの進化~
ssii
PRO
0
550
SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜
ssii
PRO
0
570
SSII2026 [OS1] 計算機インフラどうしてる?
ssii
PRO
0
340
SSII2026 [OS1-1] 機械学習のための計算基盤の開発
ssii
PRO
0
330
SSII2026 [OS1-2] 学術クラウド基盤mdx IIの 設計と運用
ssii
PRO
0
310
SSII2026 [OS1-3] 実験室自動化を目指した 計算機との試行錯誤
ssii
PRO
0
300
Other Decks in Research
See All in Research
LINEヤフー データサイエンス Meetup「三井物産コモディティ予測チャレンジ」の舞台裏-AlpacaTechパート
gamella
1
570
LiDAR点群の地表面分類手法の比較・検証
vegapunkhiroshi79
0
120
事後確率分布の共分散について
koide3
0
110
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
SAKURAONE:An Open Ethernet-based AI HPC System And Its Observed Workload Dynamicsin a Single-Tenant LLM Development Environment
yuukit
1
320
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
「なんとなく」の顧客理解から脱却する ──顧客の解像度を武器にするインサイトマネジメント
tajima_kaho
10
7.6k
論文紹介 "ReSim: Reliable World Simulation for Autonomous Driving"
kogo
0
630
Harness Engineering and Al Agent
kzinmr
3
1.7k
東京大学工学部計数工学科、計数工学特別講義の説明資料
kikuzo
0
480
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent
satai
2
300
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
630
Featured
See All Featured
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
2k
Typedesign – Prime Four
hannesfritz
42
3.1k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
610
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
270
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.7k
Speed Design
sergeychernyshev
33
1.8k
The Curse of the Amulet
leimatthew05
1
13k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Transcript
30周年記念パネルディスカッション SSII, 次の30年への期待 2024.6.12 鷲見 和彦(青山学院大学)
SSII2024 第30回 画像センシングシンポジウム 30年を振り返って • 1991: 画像解析ハンドブック(2004年改訂) • 高木幹雄ほか編著、東京大学出版会 •
リモートセンシングからロボットビジョン・人物解析ま での総合的な技術の総括 • 1994: パターン認識・理解の新たな展開 • 小川英光編著、電子情報通信学会 • 今後10年間に挑戦すべき課題を議論 • 2008: PRMU Grand Challenge • PRMU 馬場口委員長指示で電子情報積信学会誌に寄稿 • 内田誠一,佐藤真一,佐藤洋一,日浦慎作,福井和広,鷲見和彦 • 2010年からの10年間に挑戦すべき課題を議論 3 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム 画像解析ハンドブック(第2版)当時のテーマ • リモートセンシングからロボットビジョン・人 物解析までの総合的な技術の総括 • 1994: パターン認識・理解の新たな展開
• 小川英光編著、電子情報通信学会 • 今後10年間に挑戦すべき課題を議論 • 2008: PRMU Grand Challenge • PRMU 幹事団有志により電子情報積信学会誌に寄 稿 • 2010年からの10年間に挑戦すべき課題を議論 (第2版の装丁とカラー図表ページ) 人物姿勢推定や人体モデル・パーツ セグメンテーションなど,今も研究 されている技術が掲載されている → 研究対象の大きな変化はない 4 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •
PRMU 幹事団有志により電子情報積信学会誌に寄稿 • 2010年からの10年間に挑戦すべき課題を議論 https://www.journal.ieice.org/conts/kaishi_wadainokiji/2009/2009081.pdf 5 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム 2008年に検討した10年先に向けたテーマ • 2008: PRMU Grand Challenge •
PRMU 幹事団有志により電子情報積信学会誌に寄稿 • 2010年からの10年間に挑戦すべき課題を議論 Action Recognition Dense Image Captioning Salient Object Recognition Depth camera, LiDAR, 4DRadar, etc. Video based Future Prediction Medical Computer Aided Diagnosis OCR in the wild Visual Question and Answering 予想の8割の課題で,現在ベンチ マークが行われるほど発展した! 6 Kazuhio Sumi, SSII2024 https://www.journal.ieice.org/conts/kaishi_wadainokiji/2009/2009081.pdf
SSII2024 第30回 画像センシングシンポジウム 予想超え: Vision & Language • Visual Q&A
(VQA)では,Yes/No ではなく, より日常的な QA が可能になった • Vision から得られる特徴表現と,Language から得られる特徴表現を,おなじ空間にマッピ ングできた(例:CLIP) • Large Language Model が Multimedia 化さ れ VL タスクを解いた(例:GPT 4o) 8 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム 予想越え: ChatGPT 4o の例 9 Kazuhio Sumi,
SSII2024 (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)
SSII2024 第30回 画像センシングシンポジウム 予想越え: ChatGPT 4o の例 10 Kazuhio Sumi,
SSII2024 この写真には、いくつかの要素が映っています。以下に、一つ一つの 要素を説明します。 車: 写真の中心には、青いスポーツカー(おそらくロータス エリー ゼ)が見えます。車は道路の角に駐車されているようです。 標識: 車の後ろには、いくつかの標識があります。一つは駐車禁止の 標識で、もう一つは進入禁止の標識のように見えます。これら の標識は、特定のエリアでの交通ルールを示しています。 自転車: 右側には緑色の自転車が駐輪されています。自転車は自転車 ラックに固定されているようです。 歩行者: 画面の左側と右側には、歩道を歩いている人々が見えます。彼 らは、日常の活動を行っているようです。 建物: 背景には、歴史的な建物や一般的な都市の建物が並んでいます。 これらの建物は、ヨーロッパの都市の典型的な建築スタイルを 反映しています。 植栽: 道路の中央分離帯には、いくつかの植栽が見られます。これら は都市の緑化の一環として設置されています。 通りの風景: 全体として、写真はヨーロッパの都市の一角を写しており、古 い建物とモダンな交通手段が共存している様子が見て取れます。 この写真は、おそらくヨーロッパの都市で撮影されたものであり、特 に駐車ルールが厳しい地域を示している可能性があります。 (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)
SSII2024 第30回 画像センシングシンポジウム 予想越え: ChatGPT 4o の例 11 Kazuhio Sumi,
SSII2024 (鷲見)この写真にはどんな人物が映っていますか?人物を、互いに近く にいるグループに分けて、グループごとに説明してください。 (A) この写真には、いくつかの人物が映っています。以下に、互いに近 くにいるグループごとに説明します。 左側のグループ: 写真の左側には、二人の歩行者が見えます。一人は男 性で、黒いコートを着ており、もう一人は女性で、薄い色のコートを 着ています。二人は建物の前を歩いているようです。 右側のグループ: 写真の右側には、二人の人物が見えます。一人は男性 で、緑色の自転車の近くに立っています。彼はカジュアルな服装をし ており、何かを見ている様子です。もう一人の人物は歩道を歩いてい るように見えます。(鷲見註:もう一人はいない!) 背景の人物: 写真の奥の方、道路の向こう側に、さらに二人の人物が歩 いているのが見えます。これらの人物は遠くにいるため、詳細な特徴 はわかりませんが、歩行者として通りを歩いているようです。 (鷲見) この写真が撮影された場所を推定してみて下さい (A) この写真が撮影された場所を推定するためには、以下の要素を考慮 します: 建築様式: 背景の建物はヨーロッパ風の建築様式を持っており、特にパ リのようなフランスの都市に見られるデザインです。 道路標識: 道路標識にはフランス語で書かれたものが含まれているよう に見えます。例えば、駐車禁止の標識などです。 車のナンバープレート: 車のナンバープレートは、フランスの形式に似 ています。 周囲の環境: 都市の景観や植栽、通りの雰囲気もパリに似ています。 これらの要素を総合すると、この写真はフランスのパリで撮影された 可能性が非常に高いです。 現状:マルチメディア化された LLM は V&L 問題を人間以上の詳しさで解 くことができる.ただし,ところどこ ろ間違っていることもある. (2009/12 PRMU 発表資料に書いた V&L 問題を解かせてみた)
SSII2024 第30回 画像センシングシンポジウム 今後の課題 • Multimedia LLM の登場で研究の様相は一変 • Language
LLM が達成したレベルはかなり高い • OpenSource LLM に期待が集まっている • Image / Video LLM の性能は発展途上 • 一部のベンチマーキングの性能はとても良い • In the wild な問題への対応はこれから • Language LLM 並みに発展させるには,ひと工夫必要 • LLM の開発には 膨大なリソースが必要で, 小規模組織 の研究者には手が出ず, 使いこなし方が注目されている 12 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム LLM が多数発表され, Open Source 実装も存在 13 Kazuhio
Sumi, SSII2024 https://arxiv.org/pdf/2303.18223
SSII2024 第30回 画像センシングシンポジウム Open source の LLaMA から多くの研究が派生 14 Kazuhio
Sumi, SSII2024 https://arxiv.org/pdf/2303.18223
SSII2024 第30回 画像センシングシンポジウム 期待その1:新しい原理 • 省リソース: “>10Bパラメータ” を変える 15 Kazuhio
Sumi, SSII2024 https://levelup.gitconnected.com/
SSII2024 第30回 画像センシングシンポジウム 期待その1:新しい原理 • MiniGPT-4: 学習済 Vision Enc. +
LLM 16 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2304.10592
SSII2024 第30回 画像センシングシンポジウム 期待その1:新しい原理 • Knowledge distillation of LLM 17
Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2402.13116
SSII2024 第30回 画像センシングシンポジウム 期待その1:新しい原理 • Structured Knowledge and LLM 18
Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2312.06323
SSII2024 第30回 画像センシングシンポジウム 期待その2:個別課題の解決 19 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2303.18223
SSII2024 第30回 画像センシングシンポジウム 期待その2:個別課題の解決 20 Kazuhio Sumi, SSII2024 https://arxiv.org/pdf/2303.16199 •
Efficient Fine-tuning of LLM (LLaMa-Adapter) 既存の学習済みモデルを組み合わせて、 個別の課題を fine tuning だけで解く 枠組みが提案されている
SSII2024 第30回 画像センシングシンポジウム これから取り組む人へ • やっちゃいけないこと • SoTA な研究を追いかけて改良すること •
そういう研究は山ほどあるが,ほとんど残らない • ベンチマーキングでより良い値を出すこと • ゲームには良いが,成績は塗り替えられる • やってほしいこと • 新しいベンチマークが必要になる研究 • より実用に近づいているという証拠 • 課題は現場にある • 既存の課題ではなく,実フィールドの問題を見つけよう • 実用に至るマイルストーンとしてベンチマークを設定 21 Kazuhio Sumi, SSII2024
SSII2024 第30回 画像センシングシンポジウム さいごに • 規模の大きな組織だけが LLM をリード • ネット上の大規模データと大量の計算リソース
• 同じことをやっても意味がない • 使い方を考えるのは研究者じゃなくてもできる • 認識を変えよう • 現実には解けてない問題が山ほどある • データはネット上にもなく,未整理である • 個別問題に大量の計算リソースは投入できない • だから皆さんの力が必要です.期待しています 22 Kazuhio Sumi, SSII2024