Upgrade to Pro — share decks privately, control downloads, hide ads and more …

マルチモーダルLLMがもたらすビジネス革新と技術解説

Elith
March 30, 2024
600

 マルチモーダルLLMがもたらすビジネス革新と技術解説

Elith

March 30, 2024
Tweet

Transcript

  1. 2 登壇者自己紹介 成木 太音 Naruki Taito ML Engineer 【略歴】 •

    豊田工業大学大学院にて画像合成について研 究し修士号を取得 • 広告会社における機械学習エンジニアのイン ターンシップや、データ分析をテーマにしたハッカ ソンへの参加を通じて、実務経験を積む • Elithに新卒で入社 【AIスタートアップへの入社理由】 • 最新のAI技術を駆使して、社会が直面する様々な課 題に対して解決策を提供できる • 様々なことに挑戦できる 本日は、注目を集め始めているマルチモーダル LLMについてご紹介します。
  2. 3 アジェンダ 本日は下記アジェンダに沿ってお話させていただきます。 ✔ LLMの普及とマルチモーダルへの転換 ◦ LLMの能力と問題点 ◦ マルチモーダルLLMを用いた主要プロダクト ✔

    マルチモーダルLLMで切り拓くビジネスの未来像 ◦ プロダクトと企業研究の概観 ◦ ビジネス構想についての仮説 ✔ マルチモーダルLLMの技術解説とトレンド ◦ モデル構造 ◦ 学習方法 ✔ LLaVAの実施例の紹介
  3. 5 LLMの普及とマルチモーダルへの転換: LLMの能力と問題点 LLMは高い能力を持つがテキストしか入力できず、 応用範囲を広げるにはマルチモーダルである必要がある。 LLMの能力 医療で必要なモダリティ Acosta et al.,

    Nature Medicine 2022 汎用的な知識 多様な指示への 対応力 推論能力 ゼロショット性能 インストラクション・チューニングにより、 様々なタスクの指示に回答が可能 論理的思考を用いて、より複雑で多段階の 思考プロセスが要求される指示文に対して も答えを導く データセットには無いような指示文に対して も適切に回答 大規模なデータセットによる学習により、あ らゆる分野にわたる幅広い知識を持つ
  4. 6 LLMの普及とマルチモーダルへの転換:主要プロダクト 2023年からマルチモーダルLLMを用いたプロダクトが徐々に登場おり、 国内でもTuringやメルカリ、NTTなどが積極的に開発を推進している。 世界のプロダクト 国内企業の動向 • GPT-4V • GPT-4を画像入力可能にしたもの

    で、様々な研究やプロダクトに活用 されている • Gemini • 画像、音声、動画、テキストの4つに モダリティに対応している • Microsoft Copilot • BingやExcel, PowerPointといった ツールの使用をアシストする • メルカリAIアシストによる商品タイトル提案 • テキストを活用した商品画像検索 • マルチモーダルLLMを活用した自動運転システムの開発 • マルチモーダル学習ライブラリHeronの公開 • 日本語特化LLMであるtsuzumiのマルチモーダル化 Turing メルカリ NTT LINE • LINE AIアシスタントの開始
  5. 8 マルチモーダルLLMで切り拓くビジネスの未来像:プロダクトと企業の研究 マルチモーダルLLMを用いたプロダクトと企業の研究をまとめたものが以下で、 様々な分野で活用が進められている。 プロダクト 企業の研究 チャットボット 検索 業務効率化 防衛

    医療 ロボティクス 動画認識 文書 画像編集 UIアシスト 自動運転 3Dゲーム 音楽 動画生成 音声 Med-PaLM M LLaVA-Med RT-2 VIMA LINGO-1 DriveGPT4 SIMA MGIE CoDi-2 ScreenAI AppAgent Qwen-Audio SALMON VideoPoet M2UGen GroundingGPT VideoLLaMA DocOwl DocLLM LUMOS DocPedia
  6. 9 マルチモーダルLLMで切り拓くビジネスの未来像:マルチモーダル LLMの分類 先で紹介した多様なマルチモーダル LLMのプロダクトや研究を、 その活用方法により3つに分類する。 通常のLLM同様に、質問に対し回 答・解説することで、人の理解をア シスト 画像や音声など、テキスト以外を

    扱った生成や編集を行う 周囲の環境を知覚しながら、ユーザ の指示文を実行 ※1 Tu et al., NEJM AI 2024 ※2 Tang et al., arXiv 2023 ※3 Zitkovich et al., PMLR 2023 Med PaLM M※1 CoDi-2※2 RT-2※3 質問方法の柔軟性を向上させ、通 常のLLMでは不可能だった分野へ の活用が可能に 自然言語のような抽象的な指示文 による操作が可能に 画像や音声、テキストを組み合わ せた新たな生成・編集方法が実現 概要 理解のアシスト 生成・編集 自律エージェント 実例 実現できるこ と
  7. 10 マルチモーダルLLMで切り拓くビジネスの未来像:ビジネス構想の仮説 GoogleのマルチモーダルLLMを活用したビジネス構想に関して、3つの仮説を立てた。 仮説1:汎用モデルの作成 仮説2:オンデバイス化 仮説3:実世界での応用 概要 • Geminiのような主要なモダリ ティにすべて対応した、強力な

    モデルを作成 • ChatGPTが多岐にわたる分野 で活用されているのと同様に、 Geminiも幅広い用途での活用 を目指す • 医療などの多様なモダリティを 処理する必要がある様々な分 野に転用 • Gemini Nanoは、デバイス上で 動作することを見越した軽量版 モデル • セキュリティが向上し、オフライ ンでの利用が可能になる • スマホやPCだけでなく、自動車 や工場機械などで活用 • UI操作を自動化 • 現実の世界の課題を解決する ためには、マルチモーダルであ ることは不可欠 • 将来的に、複雑で戦略が必要 な指示文も実行可能にする • 建築や介護、料理などより幅広 い対象にLLMを適応 展望
  8. マルチモーダルLLMの技術解説とトレンド:モデル構造 マルチモーダルLLMは、学習済みモデルをコネクタにより接続することで構築する。 これにより、事前知識の効率的な活用が可能になる。 トレンド 構築方法の具体例 LLM 画像エンコーダ (ViT) コネクタ 画像デコーダ

    (Diffusion) コネクタ 画像 テキスト 画像 テキスト コネクタの簡素化 モダリティの多様化 画像を入力する場合 画像を出力する場合 • ViTなどの画像エンコー ダを用意する • コネクタにより画像特徴 量をトークンに写像して LLMに入力 • Diffusionなどの画像デ コーダを用意する • コネクタによりトークンを 画像特徴量に写像し画 像デコーダに入力 • Q-FormerやP-Former といったトランスフォー マーが使用されていた が、現在ではMLPや線 形層が主流 • 音声、動画、デプスなど 利用可能なモダリティが 増加 • 入力だけでなく出力も可 能に 12
  9. マルチモーダルLLMの技術解説とトレンド:学習 事前学習とインストラクション・チューニングの2段階の学習について、 使用されるデータも踏まえて解説 学習の流れ • 異なるモダリティ間のアラインメントを行う • 画像を入力したい場合は画像キャプションデータ を用いて、画像を入力しキャプション文が生成さ れるように学習を行う

    • 利点:既存にある大量のキャプションデータが利 用可能 • 欠点:質問・回答の多様性に欠ける、深い推論を 必要としない • LLMと同様に、多様な指示文に対し望ましい回 答をするよう学習 • 多様な質問文に対して適切な回答を集めたデー タセットが必要 • 欠点:データセットの構築に労力がかかる →自動化してる場合もある キャプション A group of people standing outside of a black vehicle with various luggage. … BBox person: [0.681, 0.242, 0.774, 0.694], … LLaVA※1 ※1 Liu et al., NeurIPS 2024 Step1 事前学習 Step2 インストラク ション チューニング トレンド 学習方法の改良 データの多様化 3段階目にRLHFによる 学習を実施するなど、学 習方法の改良が進められ る キャプションデータだけで なく、OCRや領域認識用 のデータなど、使用される データが多様化している 13
  10. LLaVAの実施例の紹介 LLaVAを使用したデモンストレーションを通じて、マルチモーダル LLMの性能を体感する。 画像の説明 文字認識と翻訳 日本語に訳してください この画像には、"Go up and never

    stop"という英語の文字があります。 日本語に訳すと、"上がり続け、止まら ない"という意味になります。 LLaVA 画像を説明してください。 画像には、夜空の下にある古い建物が描かれていま す。建物は、その外観が古びており、屋根は暗い色で す。 建物の右側には、ブリッジのような構造が見えます。 夜空は、星々が輝き、その中には流れ星があります。流 れ星は、明るい輝きを持ち、建物やブリッジの上に飛ん でいます。 建物の周囲には、草が生えており、地面は暗い色です。 この景色は、静かな夜の景色を表しています。 LLaVA 15
  11. 参考資料 16 • Zhang et al. "Mm-llms: Recent advances in

    multimodal large language models." arXiv 2024 • Chip Huyen. "Multimodality and Large Multimodal Models (LMMs)" https://huyenchip.com/2023/10/10/multimodal.html