Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2024 [OS3] 企業における基盤モデル開発の実際
Search
画像センシングシンポジウム
PRO
June 12, 2024
Research
0
640
SSII2024 [OS3] 企業における基盤モデル開発の実際
画像センシングシンポジウム
PRO
June 12, 2024
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2024 [OS1] 自動運転における 重要技術とトレンド紹介
ssii
PRO
0
750
SSII2024 [PD] SSIIアナザーストーリーズ
ssii
PRO
0
220
SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
ssii
PRO
3
2.1k
SSII2024 [OS1] 現場の課題を解決する ロボットラーニング
ssii
PRO
0
640
SSII2024 [OS1] 画像認識におけるモデル・データの共進化
ssii
PRO
0
540
SSII2024 [OS1] 研究紹介100連発(オープンニング)
ssii
PRO
0
530
SSII2024 [OS2] 大規模言語モデルと基盤モデルの射程
ssii
PRO
0
530
SSII2024 [OS2] 画像、その先へ 〜モーション解析への誘い〜
ssii
PRO
1
1.2k
SSII2024 [OS2] 大規模言語モデルとVision & Languageのこれから
ssii
PRO
5
1.5k
Other Decks in Research
See All in Research
文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion
sansan_randd
2
190
大規模言語モデルを用いた日本語視覚言語モデルの評価方法とベースラインモデルの提案 【MIRU 2024】
kentosasaki
2
520
工学としてのSRE再訪 / Revisiting SRE as Engineering
yuukit
19
11k
秘伝:脆弱性診断をうまく活用してセキュリティを確保するには
okdt
PRO
3
740
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
150
Weekly AI Agents News! 10月号 論文のアーカイブ
masatoto
1
250
Kaggle役立ちアイテム紹介(入門編)
k951286
14
4.6k
MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」
miso2024
4
2.2k
日本語医療LLM評価ベンチマークの構築と性能分析
fta98
3
640
湯村研究室の紹介2024 / yumulab2024
yumulab
0
280
Generative Predictive Model for Autonomous Driving 第61回 コンピュータビジョン勉強会@関東 (後編)
kentosasaki
0
210
機械学習でヒトの行動を変える
hiromu1996
1
300
Featured
See All Featured
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
Into the Great Unknown - MozCon
thekraken
32
1.5k
How STYLIGHT went responsive
nonsquared
95
5.2k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
Facilitating Awesome Meetings
lara
50
6.1k
Music & Morning Musume
bryan
46
6.2k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
Optimizing for Happiness
mojombo
376
70k
Designing for Performance
lara
604
68k
Making Projects Easy
brettharned
115
5.9k
Faster Mobile Websites
deanohume
305
30k
Transcript
SSII2024 企業における基盤モデル開発の実際 2024.6.14 石上 亮介(株式会社サイバーエージェント)
©2023 CyberAgent Inc. Distribution prohibited 自己紹介 株式会社サイバーエージェント AI事業本部 極LP/基盤モデル事業部 石上亮介
2021年 株式会社サイバーエージェント 中途入社。 AI事業本部で「極予測LP」の開発、大規模言語モデ ル(LLM)をはじめとした「基盤モデルプロジェク ト」のリードを担当。画像やテキストを対象とした マルチモーダルなAIの社会実装に従事している。 2
©2023 CyberAgent Inc. Distribution prohibited サイバーエージェントの基盤モデル開発に関するリリース H100の導入 日本語LLMを公開 モデル公開中🤗:https://huggingface.co/cyberagent 3
©2023 CyberAgent Inc. Distribution prohibited 4 https://www.cyberagent.co.jp/news/detail/id=29643 基盤モデルの事業応用例
©2023 CyberAgent Inc. Distribution prohibited CyberAgentLM (CALM)の 開発について 5
©2023 CyberAgent Inc. Distribution prohibited CALM1 CALM2 パラメータ数 70億 70億
アーキテクチャ GPT-NeoX LLaMA context_length 2048 4096 学習方法 事前学習 事前学習 学習データ量 1000億トークン 1兆トークン 言語 日本語 日本語/英語/Code vocab 52000 65000 dtype fp16 bf16 • CALM2はCALM1と比べて学習Token数が大幅に増加 • H100の導入により効率的に学習が可能に CALMについて CALM2の学習曲線 6
©2023 CyberAgent Inc. Distribution prohibited H100とA100の速度比較 GPU iter_time samples/sec flops
A100x8 33.5 4.78 181.6 TFLOPS H100x8 13.03 12.27 466.6 TFLOPS • flops計算で約2.57倍 • Transformer Engineで更に高速化する見込み 7
©2023 CyberAgent Inc. Distribution prohibited CALMのベンチマーク結果 model 日本語 英語 コード
CALM1 (7B) 32.38 36.37 0.00 CALM2 (7B) 50.69 59.27 10.26 8 • 日本語:llm-jp-eval • 英語:GPT4ALL Benchmark • コード:HumanEval, MBPP • ベースモデル(instruction-tuningなし)のスコア
©2023 CyberAgent Inc. Distribution prohibited 事前学習データの落とし穴 9 • 事前学習データセットにベンチマークの言い換えが含まれている •
n-gramでは検出できないベンチマークデータに似たデータも存在している • この種のデータに偏らせることで「ベンチマーク上でGPT-4を超える性能」も達成可能 (過学習のため未知タスクには対応不可) 事前学習データに含まれる言い換えサンプル https://arxiv.org/abs/2311.04850 n-gramでは検出できない似たサンプルによる学習結果 https://arxiv.org/abs/2401.12246
©2023 CyberAgent Inc. Distribution prohibited チューニングの落とし穴 10 モデルA ベンチマーク モデルB
モデルC モデルD ベンチマークへの過学習 • 同じベンチマークでチューニングと評価を繰り返すと過学習が起きる • チューニング用と評価用を分けるのが望ましい モデル チューニング用 ベンチマーク 評価用 ベンチマーク チューニング用と評価用ベンチマークの区別 • チェックポイントの選択 • 指示チューニング • アライメントチューニング • モデルマージ • モデルの最終評価 • 他モデルとの比較 • チェックポイントの選択 • 指示チューニング • アライメントチューニング • モデルマージ • モデルの最終評価 • 他モデルとの比較
©2023 CyberAgent Inc. Distribution prohibited LLM開発の失敗例 勾配爆発で学習失敗💥 ◦ 上手く行っているように見えても突然 学習に失敗する
◦ 少し前のcheckpointから再開できるこ ともあれば、再開不能な場合も https://tech-blog.abeja.asia/entry/abeja-g pt-project-202207 https://drive.google.com/file/d/18wMZFRp huwRwOfeDmVlnBxxVOKjt1PVw 11
©2023 CyberAgent Inc. Distribution prohibited 学習の安定化に影響する要素について ◦ LR, QK-LayerNorm, Z
loss, warm up, weight decay, width vs depth, μParam 参考になる論文 https://arxiv.org/abs/2309.14322 Context Length 初期値の設定 ◦ Context Lengthが長いほど不安定に ▪ 参考 :https://arxiv.org/abs/2108.06084 ◦ 重みの初期値の設定によって不安定に 12
©2023 CyberAgent Inc. Distribution prohibited Context Lengthの拡張について https://www.reddit.com/r/LocalLLaMA/comments/14mrgpr/d ynamically_scaled_rope_further_increases/ NTK
RoPE scaling RoPE+ABF https://arxiv.org/abs/2309.16039 • 位置埋め込みRoPEに変更を加えることでContext Lengthを拡張する手法が複数提案されている 13
©2023 CyberAgent Inc. Distribution prohibited CALM2のContext Lengthの拡張 CALM2-7B CALM2-7B (dynamic
scale=2) CALM2-7B (theta=500k) positional encoding RoPE NTK RoPE RoPE+ABF 追加学習 なし なし あり max_pos_ emb 4096 4096 32768 theta 10000 10000 500000 元モデルとの比較 • CALM2-7BのContext Lengthを拡張 ◦ NTK RoPEに変更(追加学習なし) ◦ RoPE ABFに変更して40Bトークン追加学習 • 長文の途中に含まれるパスワードを答えるToyタスクで評価 ◦ https://github.com/CStanKonrad/long_llama/blob/main/examples/passkey.py passkeyによる評価(Accuracy) ctx CALM2-7B CALM2-7B (dynamic scale=2) CALM2-7B (theta=500k) 2k 100% 100% 100% 4k 100% 100% 100% 8k 0% 88% 100% 16k 0% 15% 100% 32k 0% 0% 100% 14
©2023 CyberAgent Inc. Distribution prohibited Grouped Query Attention (GQA)への拡張について https://arxiv.org/abs/2305.13245
MHA-pretrainとGQA-tuningの学習曲線 MHAとGQAの比較 • GQAはQueryをグループ化して、グループごとにKeyとValueを共有する高速化手法 • MHAで事前学習を行ったCALM2-7Bの重み変換を行い、GQAとして追加学習 • MHAのスクラッチ学習と比べて収束が早い 15
©2023 CyberAgent Inc. Distribution prohibited マルチモーダルモデルの 開発について 16
©2023 CyberAgent Inc. Distribution prohibited 広告領域での活用を目指した開発 17 画像 テキスト 動画
音声 モーダル • クリエイティブは複数のモーダル(データ形式)の組み合わせであり、複雑 • 公開データセットは英語が基本で日本的なデータが少ない • 日本語/文化の理解/認識から生成/効果予測まで一貫した開発が必要 広告領域向けのマルチモーダルモデル開発の課題
©2023 CyberAgent Inc. Distribution prohibited CALM2のVLM化 18 • CALM2+SigLIPでVision&Language Model
(VLM)を構築 • 日本語文化を理解しつつ、視覚的な情報も加味できるモデル
©2023 CyberAgent Inc. Distribution prohibited VLMのベンチマーク結果 19 Model Detail Conv
Complex Average GPT-4V 83.33 77.53 78.25 79.70 Claude 3 Opus 74.52 68.42 77.74 73.56 Gemini Pro 55.63 64.31 64.02 61.32 LLaVA-CyberAgentLM2-7B 64.78 54.23 55.16 58.05 LLaVA 1.5 7B 42.42 45.89 35.50 41.27 Qwen-VL 7B 46.34 50.56 52.27 49.72 StabilityAI StableVLM 7B 25.15 51.23 37.84 38.07 SakanaAI EvoVLM-JP 50.31 44.42 40.47 45.07 Heron BLIP v1 (620k) 49.09 41.51 45.72 45.44 Heron GIT 42.77 54.20 43.53 46.83 引用: https://arxiv.org/html/2404.07824v1 ※評価値は24/4現在 Heron-Bench
©2023 CyberAgent Inc. Distribution prohibited 特化モデルの開発 20 CyberAgentLM2-7B (+Vision) 広告特化型モデル
・広告画像の深い理解 ・構成案の提案/アドバイス 説明特化型モデル ・画像を超詳細に説明 ・視覚的な情報をテキスト化 社内の高品質データ
©2023 CyberAgent Inc. Distribution prohibited 広告特化モデルの検証例 21 この広告のデザインに ついて詳しくレビューして ください。
この広告は非常にシンプルで洗練されたデザインです。背景は暗めの緑色で、 左側に黒く丸いロゴがあり、そこには「極予測LP」という テキストが配置されています。ロゴは脳の形をしており、AI技術との関連性を 示唆しているようです。テキストは、サービスの特徴と導入効果を強調して おり、視覚的に訴えかけるデザインとなっています。 https://www.cyberagent.co.jp/news/detail/id=28185
©2023 CyberAgent Inc. Distribution prohibited 説明特化モデルの検証例 22 この画像を詳しく説明して ください。 画像の中心には、鉄板の上で焼かれている美味しそうな料理が写っています。料理は、表面がカリッとしていて、中はジュー
シーな見た目の「お好み焼き」です。お好み焼きは、日本の伝統的な料理で、小麦粉と卵を主原料とした生地をベースに、野 菜や肉などの具材を混ぜて焼くものです。このお好み焼きの特徴は、表面に焦げ目がついており、香ばしい風味を想像させま す。また、ソースやマヨネーズなどの調味料がかかっており、食欲をそそる見た目になっています。鉄板の上のお好み焼き は、黒い鉄のプレートの上に載っており、その下には油が敷かれています。鉄板自体は黒く、光沢があり、熱伝導が良さそう です。背景では、ぼんやりとした人物の一部が見えますが、顔ははっきりとは識別できません。しかしながら、人物が食事を している様子が伺えます。おそらく、鉄板を共有している家族や友人と思われます。彼らはおそらく会話を楽しんでいるか、 あるいは美味しい料理を囲んで和やかな時間を過ごしていることでしょう。全体的な雰囲気は家庭的で温かみがあります。画 像は、食事が進行中であることを捉えており、見る人に安らぎと満足感を与えるようなシーンを演出しています。
©2023 CyberAgent Inc. Distribution prohibited まとめ 23
©2023 CyberAgent Inc. Distribution prohibited まとめ • CyberAgentLM(CALM)の取り組みについて紹介 ◦ LLMの開発や拡張について紹介
• マルチモーダルモデルの取り組みについて紹介 ◦ VLMモデルの開発や特化モデルの開発について紹介 24