Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【Pycon mini 東海 2024】Google Colaboratoryで試すVLM

【Pycon mini 東海 2024】Google Colaboratoryで試すVLM

動画は後日アップロード予定。

関連リポジトリ:https://github.com/Kazuhito00/Pycon-mini-Tokai-2024-VLM-Colaboratory-Sample

高橋かずひと

November 16, 2024
Tweet

More Decks by 高橋かずひと

Other Decks in Technology

Transcript

  1. AGENDA Who am I ? 【済】自己紹介 Prerequisites 前提、実行環境や 取り扱うモデルについて What

    is VLM? VLMとは? Introducing some VLM models いくつかのVLMモデルの 紹介と動作例 Summary まとめ 01 02 04 05 03
  2. Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4

    GPU 注意点 :この分野も日進月歩なので…… ・サンプルは基本的(と思ってる)な構文のみを使用 ・上から順に実行すれば動かせるノートブックを公開 ・VLMの詳しい動作原理などは説明対象外 ・VLMを試してみたいけど、あまりお金かけずにとりあえず触ってみたい方 https://github.com/Kazuhito00/Pycon-mini-Tokai-2024-VLM-Colaboratory-Sample
  3. Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4

    GPU 注意点 :この分野も日進月歩なので…… ・Googleが提供するクラウドベースのJupyter Notebook環境 ※要Googleアカウント ・無料でも、ある程度のGPU実行が可能
  4. Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4

    GPU 注意点 :この分野も日進月歩なので…… ・無償(Pay As You Go)プランで使用できるランタイム ※もしサンプルがミスってて、無償プランで動作しなかったらコッソリ教えてください ・上記ランタイムで動作可能なVLMをご紹介
  5. Prerequisites 前提、実行環境や取り扱うモデルについて トーク対象者:初級者~ 実行環境 :Google Colaboratory ランタイム :CPU or T4

    GPU 注意点(言い訳など) :この分野も日進月歩なので…… ・Colaboratoryで動作するモデルを網羅した資料ではないです ・昨日動いていたものが色々な理由で動かなくなってるかも ※もし動かなかったらコッソリ教えてください…… ・「もっと良いモデルあるよ!」知っている方は皆に教えてください
  6. What is VLM? VLMとは? 画像では、筋肉が非常に発達した男性 が登場しており、特に腹筋が際立って います。彼のポージングと豪華な椅子、 王冠とマントの組み合わせが、力強さ と威厳を同時に演出しています。しか し、その一方で手に持っているシェイ

    カーや背景のアートが全体に少しユー モラスな雰囲気を加えており、シリア スさと軽妙さが絶妙に融合したシーン になっています。 画像:マッチョのフリー写真素材(マッスルプラス)傲慢な王様マッチョ https://freephotomuscle.com/archives/photo/6527 VLMの概念が含む処理は幅広く… ・テキスト → 画像(画像生成) ※今回は扱いません ・画像キャプション生成
  7. What is VLM? VLMとは? 画像のナースが持ってい るボードには「手術室」 と書かれています。 そのため、彼女は手術室 へ向かいたいと考えてい るようです。

    ナースの行きたい場所は? 画像:看護師のフリー写真素材(スキマナース)ヒッチハイクする看護師 https://nurse-web.jp/photo/archives/338 VLMの概念が含む処理は幅広く… ・テキスト → 画像(画像生成) ※今回は扱いません ・画像キャプション生成 ・視覚質問応答(VQA) ・etc
  8. 軽量で高速なVLM (MobileVLM-V2) ・モバイルデバイス向けVLM ・非常に高速に動作 ・モデルによってはT4 GPU でも1秒未満の処理速度 1.7B(v2):約0.7s 3B(v2) :約1s

    7B(v2) :約17s ※プロンプトや画像サイズ、出力文字数によって変わるため、ご参考程度に 参考:https://github.com/Meituan-AutoML/MobileVLM
  9. 動画の認識も可能なVLM (MiniCPM-V2.6) ・単一画像、複数画像、ビデオ などの画像理解が可能 ・単一画像理解では GPT-4o mini Gemini 1.5 Pro、Claude

    3.5 Sonnet よりも優れる(自称) ・iPad などのエンドサイドデバイス 上での動作も想定 参考:https://github.com/OpenBMB/MiniCPM-V
  10. 動画の認識も可能なVLM (MiniCPM-V2.6) ・単一画像、複数画像、ビデオ などの画像理解が可能 ・単一画像理解では GPT-4o mini Gemini 1.5 Pro、Claude

    3.5 Sonnet よりも優れる(自称) ・iPad などのエンドサイドデバイス 上での動作も想定 参考:https://github.com/OpenBMB/MiniCPM-V 画像:ぱくたそ テレビゲームで遊ぶ子どもたち https://www.pakutaso.com/20190310081post-20065.html
  11. ・様々な解像度と比率の画像理解 ・ビデオ理解 ・携帯電話やロボットでの動作も想定 ・多言語サポート - 英語 - 中国語 - ヨーロッパ系の言語

    - 日本語 - 韓国語 - アラビア語 - ベトナム語 など 参考:https://github.com/QwenLM/Qwen2-VL 日本語も使用可能なVLM (Qwen2-VL) 画像:ぱくたそ 成子天神下交差点前 https://www.pakutaso.com/20240848233post-52002.html
  12. マルチタスクを扱えるVLM (Florence-2) ・様々な視覚タスクを同一モデルで 実行 - キャプション - 物体検出 - セグメンテーション

    - OCR など(以降のページではいくつか抜粋して紹介) ・タスクによって処理速度は異なるが T4 GPUで動作可能 ・プロンプトは特定のフォーマット のため、汎用性が少し低い 参考:https://github.com/QwenLM/Qwen2-VL
  13. Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… ▪ オブジェクトの絶対位置の認識 ▪ 複数オブジェクト間の関係理解 ▪ 細かい視覚的ディテールの認識 ※ファミコンコントローラの上下逆がわからない

    とか サイゼリヤの間違い探しをクリアできない とか ▪ 抽象的または暗示的な概念の理解 ※美しい箇所はどこ? 画家が心情を表した箇所はどこ? とか ▪ 文化的・社会的バイアス などなど
  14. Tips (今後の技術進歩で解消されると思いますが) VLMが苦手な認識対象や内容…… ▪ オブジェクトの絶対位置の認識 ▪ 複数オブジェクト間の関係理解 ▪ 細かい視覚的ディテールの認識 ※ファミコンコントローラの上下逆がわからない

    とか サイゼリヤの間違い探しをクリアできない とか ▪ 抽象的または暗示的な概念の理解 ※美しい箇所はどこ? 画家が心情を表した箇所はどこ? とか ▪ 文化的・社会的バイアス などなど
  15. Tips 位置苦手問題については、Visual promptingなどの改善案も研究 されている ▪画像に対して、セマンティックセグメンテーションを行い 番号を割り当てて描画したものを入力画像にする Set-of-Mark Prompting Unleashes Extraordinary

    Visual Grounding in GPT-4V ▪画像に対して、等間隔のグリッドとグリッド座標を 描画したものを入力画像にする Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models ▪注視して欲しい箇所がある場合、その箇所を丸や四角で 囲んだり、矢印を描画したものを入力画像にする