Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
Search
高橋かずひと
November 16, 2024
Technology
2
140
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
動画は後日アップロード予定。
関連リポジトリ:
https://github.com/Kazuhito00/Pycon-mini-Tokai-2024-VLM-Colaboratory-Sample
高橋かずひと
November 16, 2024
Tweet
Share
More Decks by 高橋かずひと
See All by 高橋かずひと
【Python東海#44】Pydroid3で画像処理
kazuhitotakahashi
0
1.4k
【Unagi.py 56枚目】動物園(PINTO_model_zoo)に遊びに行こう
kazuhitotakahashi
1
1.5k
【Python東海#43】Image-Processing-Node-Editor
kazuhitotakahashi
0
990
【MLN】Visual Blocks for ML
kazuhitotakahashi
0
1.2k
【NGK2023S】 ノードエディタ形式の画像処理ツール「Image-Processing-Node-Editor」
kazuhitotakahashi
0
1.2k
【Pythonデータ分析勉強会#33】「DearPyGuiに入門しました」の続き~Image-Processing-Node-Editor~
kazuhitotakahashi
0
1.3k
【OSC2022Nagoya】DearPyGuiに入門しました / OSC2022Nagoya Introduced to DearPyGui
kazuhitotakahashi
1
1.7k
【Pythonデータ分析勉強会#32】Raspberry Piでリアルタイムな物体検出(2022年4月やったやつ)
kazuhitotakahashi
0
2k
【NGK2022S】Unity Barracuda で ニューラルネットワークの推論 / NGK2022S Unity Barracuda
kazuhitotakahashi
0
370
Other Decks in Technology
See All in Technology
DatabricksにおけるLLMOpsのベストプラクティス
taka_aki
4
1.6k
Amazon CloudWatch Network Monitor のススメ
yuki_ink
0
150
今、始める、第一歩。 / Your first step
yahonda
2
730
TypeScript、上達の瞬間
sadnessojisan
18
5.3k
[FOSS4G 2024 Japan LT] LLMを使ってGISデータ解析を自動化したい!
nssv
1
190
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
hirosatogamo
26
6.5k
利きプロセススケジューラ
sat
PRO
4
2.7k
いざ、BSC討伐の旅
nikinusu
2
720
組み込みLinuxの時系列
puhitaku
4
1.1k
福岡新卒エンジニアの会
teba_eleven
2
190
20241108_CS_LLMMT
shigashiyama
0
260
Can We Measure Developer Productivity?
ewolff
1
110
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
RailsConf 2023
tenderlove
29
900
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Raft: Consensus for Rubyists
vanstee
136
6.6k
Thoughts on Productivity
jonyablonski
67
4.3k
Keith and Marios Guide to Fast Websites
keithpitt
409
22k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
Practical Orchestrator
shlominoach
186
10k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
KATA
mclloyd
29
14k
Why Our Code Smells
bkeepers
PRO
334
57k
Scaling GitHub
holman
458
140k
Transcript
Pycon mini 東海(15:00~15:25) 高橋 かずひと Google Colaboratory で試すVLM
Name: Who am I ? 高橋かずひと Work :画像処理系プログラマ 元組み込み屋、元IoT屋 Other:インディーゲーム
開発のお手伝いなど @Kazuhito00 @KzhtTkhs
None
AGENDA Who am I ? 【済】自己紹介 Prerequisites 前提、実行環境や 取り扱うモデルについて What
is VLM? VLMとは? Introducing some VLM models いくつかのVLMモデルの 紹介と動作例 Summary まとめ 01 02 04 05 03
02 Prerequisites 前提、実行環境や取り扱うモデルについて
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点 :この分野も日進月歩なので……
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点 :この分野も日進月歩なので…… ・サンプルは基本的(と思ってる)な構文のみを使用 ・上から順に実行すれば動かせるノートブックを公開 ・VLMの詳しい動作原理などは説明対象外 ・VLMを試してみたいけど、あまりお金かけずにとりあえず触ってみたい方 https://github.com/Kazuhito00/Pycon-mini-Tokai-2024-VLM-Colaboratory-Sample
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点 :この分野も日進月歩なので…… ・Googleが提供するクラウドベースのJupyter Notebook環境 ※要Googleアカウント ・無料でも、ある程度のGPU実行が可能
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点 :この分野も日進月歩なので…… ・無償(Pay As You Go)プランで使用できるランタイム ※もしサンプルがミスってて、無償プランで動作しなかったらコッソリ教えてください ・上記ランタイムで動作可能なVLMをご紹介
Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4
GPU 注意点(言い訳など) :この分野も日進月歩なので…… ・Colaboratoryで動作するモデルを網羅した資料ではないです ・昨日動いていたものが色々な理由で動かなくなってるかも ※もし動かなかったらコッソリ教えてください…… ・「もっと良いモデルあるよ!」知っている方は皆に教えてください
03 What is VLM? VLMとは?
What is VLM? VLMとは? VLM(Vision Language Model)は、 ・テキスト情報(言語) ・視覚情報(画像や映像) を複合的に処理できるモデル
もの凄くざっくり言うと LLM(Large Language Model)に 画像を入力できるようにしたもの
What is VLM? VLMとは? VLMをイメージした 画像を生成して VLMの概念が含む処理は幅広く… ・テキスト → 画像(画像生成)
※今回は扱いません
What is VLM? VLMとは? 画像では、筋肉が非常に発達した男性 が登場しており、特に腹筋が際立って います。彼のポージングと豪華な椅子、 王冠とマントの組み合わせが、力強さ と威厳を同時に演出しています。しか し、その一方で手に持っているシェイ
カーや背景のアートが全体に少しユー モラスな雰囲気を加えており、シリア スさと軽妙さが絶妙に融合したシーン になっています。 画像:マッチョのフリー写真素材(マッスルプラス)傲慢な王様マッチョ https://freephotomuscle.com/archives/photo/6527 VLMの概念が含む処理は幅広く… ・テキスト → 画像(画像生成) ※今回は扱いません ・画像キャプション生成
What is VLM? VLMとは? 画像のナースが持ってい るボードには「手術室」 と書かれています。 そのため、彼女は手術室 へ向かいたいと考えてい るようです。
ナースの行きたい場所は? 画像:看護師のフリー写真素材(スキマナース)ヒッチハイクする看護師 https://nurse-web.jp/photo/archives/338 VLMの概念が含む処理は幅広く… ・テキスト → 画像(画像生成) ※今回は扱いません ・画像キャプション生成 ・視覚質問応答(VQA) ・etc
None
画像:ぱくたそ トゲトゲのサボテンとハリネズミ https://www.pakutaso.com/20190257050post-19488.html
What is VLM? VLMとは? 画像:ぱくたそ 人のいない雪道と車の痕 https://www.pakutaso.com/20200513149post-27770.html ▪事例(GPT-4o-mini) 道路を撮影し、VLMで天気や道路状況を監視し、Slackへ通知 ※イメージです
04 Introducing some VLM models いくつかのVLMモデルの紹介と動作例
Introducing some VLM models いくつかのVLMモデルの紹介と動作例 ▪ 軽量で高速なVLM(MobileVLM-V2) ▪ 動画の認識も可能なVLM(MiniCPM-V2.6) ▪
マルチタスクを扱えるVLM (Florence-2) ▪ 日本語も使用可能なVLM (Qwen2-VL)
軽量で高速なVLM (MobileVLM-V2) ・モバイルデバイス向けVLM ・非常に高速に動作 ・モデルによってはT4 GPU でも1秒未満の処理速度 1.7B(v2):約0.7s 3B(v2) :約1s
7B(v2) :約17s ※プロンプトや画像サイズ、出力文字数によって変わるため、ご参考程度に 参考:https://github.com/Meituan-AutoML/MobileVLM
軽量で高速なVLM (MobileVLM-V2)
動画の認識も可能なVLM (MiniCPM-V2.6) ・単一画像、複数画像、ビデオ などの画像理解が可能 ・単一画像理解では GPT-4o mini Gemini 1.5 Pro、Claude
3.5 Sonnet よりも優れる(自称) ・iPad などのエンドサイドデバイス 上での動作も想定 参考:https://github.com/OpenBMB/MiniCPM-V
動画の認識も可能なVLM (MiniCPM-V2.6) ・単一画像、複数画像、ビデオ などの画像理解が可能 ・単一画像理解では GPT-4o mini Gemini 1.5 Pro、Claude
3.5 Sonnet よりも優れる(自称) ・iPad などのエンドサイドデバイス 上での動作も想定 参考:https://github.com/OpenBMB/MiniCPM-V 画像:ぱくたそ テレビゲームで遊ぶ子どもたち https://www.pakutaso.com/20190310081post-20065.html
動画の認識も可能なVLM (MiniCPM-V2.6)
動画の認識も可能なVLM (MiniCPM-V2.6) 画像:ぱくたそ 急な展開で思わず反応してしまう男女 https://www.pakutaso.com/20240245033post-50463.html
動画の認識も可能なVLM (MiniCPM-V2.6) 画像:NHKクリエイティブ・ライブラリー コアラ初来日 https://www2.nhk.or.jp/archives/movies/?id=D0002080144_00000
日本語も使用可能なVLM (Qwen2-VL) ・様々な解像度と比率の画像理解 ・ビデオ理解 ※MiniCPM-V2.6よりメモリ使用量が多いため、FPS調整やサイズ調整が必要 ・携帯電話やロボットでの動作も想定 ・多言語サポート - 英語 -
中国語 - ヨーロッパ系の言語 - 日本語 - 韓国語 - アラビア語 - ベトナム語 など 参考:https://github.com/QwenLM/Qwen2-VL
・様々な解像度と比率の画像理解 ・ビデオ理解 ・携帯電話やロボットでの動作も想定 ・多言語サポート - 英語 - 中国語 - ヨーロッパ系の言語
- 日本語 - 韓国語 - アラビア語 - ベトナム語 など 参考:https://github.com/QwenLM/Qwen2-VL 日本語も使用可能なVLM (Qwen2-VL) 画像:ぱくたそ 成子天神下交差点前 https://www.pakutaso.com/20240848233post-52002.html
日本語も使用可能なVLM (Qwen2-VL)
マルチタスクを扱えるVLM (Florence-2) ・様々な視覚タスクを同一モデルで 実行 - キャプション - 物体検出 - セグメンテーション
- OCR など(以降のページではいくつか抜粋して紹介) ・タスクによって処理速度は異なるが T4 GPUで動作可能 ・プロンプトは特定のフォーマット のため、汎用性が少し低い 参考:https://github.com/QwenLM/Qwen2-VL
マルチタスクを扱えるVLM (Florence-2) 画像:ぱくたそ 雨の都市風景、 横断歩道と歩行者 https://www.pakutaso.com/20230815222post-48102.html
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2)
マルチタスクを扱えるVLM (Florence-2) 画像:ぱくたそ パイクプレイスマーケットのエントランス https://www.pakutaso.com/20240617157medicleanse.html
マルチタスクを扱えるVLM (Florence-2)
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容……
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… https://zenn.dev/karaage0703/articles/5a02a0822fba8a
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… 多くのチャレンジャーが他モデル(※)を試したり プロンプトチューニングを試みるも死屍累々…… ※試行されたモデルの例 ・GPT-4o ・GPT-4o-mini ・Claude 3.5
Sonnet ・Gemini 1.5 Flash ・MobileVLM v2 ・Qwen2-VL ・heron-blip-v1 ・Molmo etc
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… ▪ オブジェクトの絶対位置の認識 ▪ 複数オブジェクト間の関係理解 ▪ 細かい視覚的ディテールの認識 ※ファミコンコントローラの上下逆がわからない
とか サイゼリヤの間違い探しをクリアできない とか ▪ 抽象的または暗示的な概念の理解 ※美しい箇所はどこ? 画家が心情を表した箇所はどこ? とか ▪ 文化的・社会的バイアス などなど
Tips以下の例 ・オブジェクトの絶対位置の認識 ・複数オブジェクト間の関係理解
Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… ▪ オブジェクトの絶対位置の認識 ▪ 複数オブジェクト間の関係理解 ▪ 細かい視覚的ディテールの認識 ※ファミコンコントローラの上下逆がわからない
とか サイゼリヤの間違い探しをクリアできない とか ▪ 抽象的または暗示的な概念の理解 ※美しい箇所はどこ? 画家が心情を表した箇所はどこ? とか ▪ 文化的・社会的バイアス などなど
Tips 位置苦手問題については、Visual promptingなどの改善案も研究 されている ▪画像に対して、セマンティックセグメンテーションを行い 番号を割り当てて描画したものを入力画像にする Set-of-Mark Prompting Unleashes Extraordinary
Visual Grounding in GPT-4V ▪画像に対して、等間隔のグリッドとグリッド座標を 描画したものを入力画像にする Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models ▪注視して欲しい箇所がある場合、その箇所を丸や四角で 囲んだり、矢印を描画したものを入力画像にする
05 Summary まとめ
Summary まとめ まとめと言うほど大層な内容ではありませんが、、、 ・一般人も利用可能なVMLが登場し、1年以上が経過し Google Colaboratoryで動かせるモデルも増えてきた ・その中のいくつかを本トークでご紹介した ・物凄い勢いで発展してきているが、まだまだ苦手な 認識も結構ある →
興味のある方は、今回紹介したノートブックなど 上手く行くか行かないか、試してもらえると良いと思います
ご清聴ありがとう ございました