マルチモーダルLLMがもたらすビジネス革新と技術解説

マルチモーダルLLMがもたらすビジネス革新と技術解説 Elith Inc. 成木太音

2 登壇者自己紹介成木太音 Naruki Taito ML Engineer 【略歴】 •
豊田工業大学大学院にて画像合成について研究し修士号を取得 • 広告会社における機械学習エンジニアのインターンシップや、データ分析をテーマにしたハッカソンへの参加を通じて、実務経験を積む • Elithに新卒で入社【AIスタートアップへの入社理由】 • 最新のAI技術を駆使して、社会が直面する様々な課題に対して解決策を提供できる • 様々なことに挑戦できる本日は、注目を集め始めているマルチモーダル LLMについてご紹介します。

3 アジェンダ本日は下記アジェンダに沿ってお話させていただきます。 ✔ LLMの普及とマルチモーダルへの転換 ◦ LLMの能力と問題点 ◦ マルチモーダルLLMを用いた主要プロダクト ✔
マルチモーダルLLMで切り拓くビジネスの未来像 ◦ プロダクトと企業研究の概観 ◦ ビジネス構想についての仮説 ✔ マルチモーダルLLMの技術解説とトレンド ◦ モデル構造 ◦ 学習方法 ✔ LLaVAの実施例の紹介

4 LLMの普及とマルチモーダルへの転換

5 LLMの普及とマルチモーダルへの転換： LLMの能力と問題点 LLMは高い能力を持つがテキストしか入力できず、応用範囲を広げるにはマルチモーダルである必要がある。 LLMの能力医療で必要なモダリティ Acosta et al.,
Nature Medicine 2022 汎用的な知識多様な指示への対応力推論能力ゼロショット性能インストラクション・チューニングにより、様々なタスクの指示に回答が可能論理的思考を用いて、より複雑で多段階の思考プロセスが要求される指示文に対しても答えを導くデータセットには無いような指示文に対しても適切に回答大規模なデータセットによる学習により、あらゆる分野にわたる幅広い知識を持つ

6 LLMの普及とマルチモーダルへの転換：主要プロダクト 2023年からマルチモーダルLLMを用いたプロダクトが徐々に登場おり、国内でもTuringやメルカリ、NTTなどが積極的に開発を推進している。世界のプロダクト国内企業の動向 • GPT-4V • GPT-4を画像入力可能にしたもの
で、様々な研究やプロダクトに活用されている • Gemini • 画像、音声、動画、テキストの４つにモダリティに対応している • Microsoft Copilot • BingやExcel, PowerPointといったツールの使用をアシストする • メルカリAIアシストによる商品タイトル提案 • テキストを活用した商品画像検索 • マルチモーダルLLMを活用した自動運転システムの開発 • マルチモーダル学習ライブラリHeronの公開 • 日本語特化LLMであるtsuzumiのマルチモーダル化 Turing メルカリ NTT LINE • LINE AIアシスタントの開始

7 マルチモーダルLLMで切り拓くビジネスの未来像

8 マルチモーダルLLMで切り拓くビジネスの未来像：プロダクトと企業の研究マルチモーダルLLMを用いたプロダクトと企業の研究をまとめたものが以下で、様々な分野で活用が進められている。プロダクト企業の研究チャットボット検索業務効率化防衛
医療ロボティクス動画認識文書画像編集 UIアシスト自動運転 3Dゲーム音楽動画生成音声 Med-PaLM M LLaVA-Med RT-2 VIMA LINGO-1 DriveGPT4 SIMA MGIE CoDi-2 ScreenAI AppAgent Qwen-Audio SALMON VideoPoet M2UGen GroundingGPT VideoLLaMA DocOwl DocLLM LUMOS DocPedia

9 マルチモーダルLLMで切り拓くビジネスの未来像：マルチモーダル LLMの分類先で紹介した多様なマルチモーダル LLMのプロダクトや研究を、その活用方法により３つに分類する。通常のLLM同様に、質問に対し回答・解説することで、人の理解をアシスト画像や音声など、テキスト以外を
扱った生成や編集を行う周囲の環境を知覚しながら、ユーザの指示文を実行 ※1 Tu et al., NEJM AI 2024 ※2 Tang et al., arXiv 2023 ※3 Zitkovich et al., PMLR 2023 Med PaLM M※1 CoDi-2※2 RT-2※3 質問方法の柔軟性を向上させ、通常のLLMでは不可能だった分野への活用が可能に自然言語のような抽象的な指示文による操作が可能に画像や音声、テキストを組み合わせた新たな生成・編集方法が実現概要理解のアシスト生成・編集自律エージェント実例実現できること

10 マルチモーダルLLMで切り拓くビジネスの未来像：ビジネス構想の仮説 GoogleのマルチモーダルLLMを活用したビジネス構想に関して、３つの仮説を立てた。仮説１:汎用モデルの作成仮説２:オンデバイス化仮説３:実世界での応用概要 • Geminiのような主要なモダリティにすべて対応した、強力な
モデルを作成 • ChatGPTが多岐にわたる分野で活用されているのと同様に、 Geminiも幅広い用途での活用を目指す • 医療などの多様なモダリティを処理する必要がある様々な分野に転用 • Gemini Nanoは、デバイス上で動作することを見越した軽量版モデル • セキュリティが向上し、オフラインでの利用が可能になる • スマホやPCだけでなく、自動車や工場機械などで活用 • UI操作を自動化 • 現実の世界の課題を解決するためには、マルチモーダルであることは不可欠 • 将来的に、複雑で戦略が必要な指示文も実行可能にする • 建築や介護、料理などより幅広い対象にLLMを適応展望

11 マルチモーダルLLMの技術解説とトレンド

マルチモーダルLLMの技術解説とトレンド：モデル構造マルチモーダルLLMは、学習済みモデルをコネクタにより接続することで構築する。これにより、事前知識の効率的な活用が可能になる。トレンド構築方法の具体例 LLM 画像エンコーダ (ViT) コネクタ画像デコーダ
(Diffusion) コネクタ画像テキスト画像テキストコネクタの簡素化モダリティの多様化画像を入力する場合画像を出力する場合 • ViTなどの画像エンコーダを用意する • コネクタにより画像特徴量をトークンに写像して LLMに入力 • Diffusionなどの画像デコーダを用意する • コネクタによりトークンを画像特徴量に写像し画像デコーダに入力 • Q-FormerやP-Former といったトランスフォーマーが使用されていたが、現在ではMLPや線形層が主流 • 音声、動画、デプスなど利用可能なモダリティが増加 • 入力だけでなく出力も可能に 12

マルチモーダルLLMの技術解説とトレンド：学習事前学習とインストラクション・チューニングの２段階の学習について、使用されるデータも踏まえて解説学習の流れ • 異なるモダリティ間のアラインメントを行う • 画像を入力したい場合は画像キャプションデータを用いて、画像を入力しキャプション文が生成されるように学習を行う
• 利点：既存にある大量のキャプションデータが利用可能 • 欠点：質問・回答の多様性に欠ける、深い推論を必要としない • LLMと同様に、多様な指示文に対し望ましい回答をするよう学習 • 多様な質問文に対して適切な回答を集めたデータセットが必要 • 欠点：データセットの構築に労力がかかる →自動化してる場合もあるキャプション A group of people standing outside of a black vehicle with various luggage. … BBox person: [0.681, 0.242, 0.774, 0.694], … LLaVA※1 ※1 Liu et al., NeurIPS 2024 Step1 事前学習 Step2 インストラクションチューニングトレンド学習方法の改良データの多様化３段階目にRLHFによる学習を実施するなど、学習方法の改良が進められるキャプションデータだけでなく、OCRや領域認識用のデータなど、使用されるデータが多様化している 13

14 LLaVAの実施例の紹介

LLaVAの実施例の紹介 LLaVAを使用したデモンストレーションを通じて、マルチモーダル LLMの性能を体感する。画像の説明文字認識と翻訳日本語に訳してくださいこの画像には、"Go up and never
stop"という英語の文字があります。日本語に訳すと、"上がり続け、止まらない"という意味になります。 LLaVA 画像を説明してください。画像には、夜空の下にある古い建物が描かれています。建物は、その外観が古びており、屋根は暗い色です。建物の右側には、ブリッジのような構造が見えます。夜空は、星々が輝き、その中には流れ星があります。流れ星は、明るい輝きを持ち、建物やブリッジの上に飛んでいます。建物の周囲には、草が生えており、地面は暗い色です。この景色は、静かな夜の景色を表しています。 LLaVA 15

参考資料 16 • Zhang et al. "Mm-llms: Recent advances in
multimodal large language models." arXiv 2024 • Chip Huyen. "Multimodality and Large Multimodal Models (LMMs)" https://huyenchip.com/2023/10/10/multimodal.html

マルチモーダルLLMがもたらすビジネス革新と技術解説

マルチモーダルLLMがもたらすビジネス革新と技術解説

Elith

More Decks by Elith

Featured

Transcript