Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Turingと自動運転とLLM- LLM-jp 勉強会

Inoichan
October 18, 2023

Turingと自動運転とLLM- LLM-jp 勉強会

2023/10/18に開催されたLLM-jp 勉強会の資料です。
あわせてこちらのテックブログもぜひご覧ください!
・完全自動運転にLLMは必要か?: https://zenn.dev/turing_motors/articles/353a6e71a1444c
・基盤モデルを使ったTuringの完全自動運転戦略: https://zenn.dev/turing_motors/articles/bd575a1097a266
・走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話: https://zenn.dev/turing_motors/articles/ce20c5202e107e
・作って遊ぼう!LLMを搭載した君だけのV&Lモデル!: https://zenn.dev/turing_motors/articles/6e0ac9deb2d2e5
・Introducing “Heron”: A Multilingual, Multimodal Learning Library with 70 Billion LLM: https://medium.com/@inoichan/introducing-heron-a-multilingual-multimodal-learning-library-with-70-billion-llm-fd1106f3ec1e
・Build and Play! Your Own V&L Model Equipped with LLM!: https://medium.com/towards-data-science/build-and-play-your-own-v-l-model-equipped-with-llm-afa773b9249e

Inoichan

October 18, 2023
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. 自己紹介 ❖ Inoue Yuichi ❖ Turing Inc. Brain Research Team ❖

    京都大学 博士(薬学) ❖ Kaggle Competitions Grandmaster
  2. 学習の設定 学習バッチサイズ 勾配累積サイズ エポック数 データローダワーカ数 最適化手法 学習率 DeepSpeedの設定 モデルの保存パス 学習メトリックの送信先

    ここで設定した項目は直接 transformersのTrainingArgumentsに渡される 詳細は https://huggingface.co/docs/transformers/v4.33.0/en/main_classes/trainer を参照
  3. データセットの設定 データセット設定ファイルのパスのリスト (visual genomeと日本語llavaデータを繋げて使う ) データセットの設定ファイルのパスのリストを渡すことで、それらのデータセットを concatしたも のが学習に使われる。 利用できるデータセット •

    japanese_csv.yaml • llava_en.yaml • llava_ja.yaml • m3it.yaml • m3it_ipc.yaml • stair_coco.yaml • visual_genome.yaml 自分でPyTorchのデータセットクラス継承して独自のデータセットを作ることも可能
  4. 学習方法の省メモリ化や高速化 • 省メモリ化や高速化が示されている手法の導入 ◦ Flash-Attention 2 ◦ ZeRO++ ◦ xformers

    ◦ optimum BetterTransformer Dao, Tri, et. al. 2022. “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” arXiv [cs.LG]. arXiv. http://arxiv.org/abs/2205.14135. Wang, Guanhua, et. al. 2023. “ZeRO++: Extremely Efficient Collective Communication for Giant Model Training.” arXiv [cs.DC]. arXiv. http://arxiv.org/abs/2306.10209.
  5. 学習方法の多様化 • 任意の場所に画像トークンを挿入 ◦ DeepSpeed-VisualChat ◦ MMICL • テキストだけのデータをまぜる ◦

    Qwen-VL ◦ LLaVA-1.5 • 高解像度の画像を扱う ◦ MiniGPT-v2 Chen, Jun, et. al. 2023. “MiniGPT-v2: Large Language Model as a Unified Interface for Vision-Language Multi-Task Learning.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2310.09478. Zhao, Haozhe, et. al. 2023. “MMICL: Empowering Vision-Language Model with Multi-Modal In-Context Learning.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2309.07915.
  6. 高品質のセンサと高精度3次元地図はハイコスト • センサの精度と価格は比例する。 • 高精度マップに依存しすぎると、地図がない場所で運転できない。 • 市販車にこの見た目は受け入れられる...?? Caesar, Holger, Juraj

    Kabzan, Kok Seang Tan, Whye Kit Fong, Eric Wolff, Alex Lang, Luke Fletcher, Oscar Beijbom, and Sammy Omari. 2021. “NuPlan: A Closed-Loop ML-Based Planning Benchmark for Autonomous Vehicles.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2106.11810.
  7. Vision Centricな自動運転 • マルチカメラを用いたEnd-to-endのアプローチは産学ともに大本命のアプローチ • RGBの映像はかなりリッチな情報 • 画像を扱う技術はかなり成熟している。 Tesla AI

    Day 2022 Hu, Yihan, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, et al. 2022. “Planning-Oriented Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2212.10156. ⭐CVPR 2023 Best Paper
  8. 状況判断をLLMにさせる • GPT-Driver: Learning to Drive with GPT • Drive

    like Humans • LanguageMPC Mao, Jiageng, Yuxi Qian, Hang Zhao, and Yue Wang. 2023. “GPT-Driver: Learning to Drive with GPT.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2310.01415. GPT-Driverでは実際に車がどう進むかの経路情報を GPT3.5に推論させている。GPTのFine-tuningを行うこ とで精度がかなり上がることも報告している。
  9. 状況をLLMに説明させる • BDD-X • DriveGPT4 • LINGO-1 • Honda DRAMA

    / Rank2Tell • DriveLM • Driving with LLM 説明可能性、状況理解というのは LLMだからこそ性能 が上がる可能性のある分野の 1つ。データセットの作成 が鍵になりそう。 Xu, Zhenhua, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kenneth K. Y. Wong, Zhenguo Li, and Hengshuang Zhao. 2023. “DriveGPT4: Interpretable End-to-End Autonomous Driving via Large Language Model.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2310.01412.
  10. 認識をLLMにさせる • NuScenes-QA • Reffer-KITTI • NuPrompt • Honda DRAMA

    / Rank2Tell 周りの状況認識やテキスト入力による柔軟な検出。 Groundingなども。従来の検出と組合わせることで 様々な応用が考えられそう。 Wu, Dongming, Wencheng Han, Tiancai Wang, Yingfei Liu, Xiangyu Zhang, and Jianbing Shen. 2023. “Language Prompt for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2309.04379.