第16回最先端NLP勉強会_スポンサー公開資料

2 ©2024 ELYZA,Inc 本日の現地参加メンバー大葉大輔株式会社ELYZA 研究開発Gr 東京大学大学院情報理工学系研究科
博士後期課程修了。博士（情報理工学）。在学中、学術振興会特別研究員（DC2）に採用。自然言語処理の研究を専門とし、国際学会の採択経験あり。同大学にて特別研究員を務めたのち、ELYZAに参画。 ELYZAでは大規模言語モデルの研究開発を担当。平川雅人株式会社ELYZA 研究開発Gr Mgr 東京大学大学院工学系研究科松尾研究室修士卒。モデル圧縮や宝くじ仮説に関する研究に従事。在学中、東大松尾研主催のGCIを優秀生として修了。 ELYZAでは大手企業との共同研究PJTのマネジメントに複数携わった後、現在は大規模言語モデルの研究開発を担当。

5 ©2024 ELYZA,Inc 研究開発: 取り組み紹介 ELYZAの研究開発における活動の一部として、「Llama-3-ELYZA-JP」シリーズの公開と、GENIACでの取り組みについてご紹介「Llama-3-ELYZA-JP」シリーズ GENIAC 研究
開発 1

6 ©2024 ELYZA,Inc ELYZAの汎用モデル開発の歩み ELYZAでは、オープンモデルをベースに、日本語の追加事前学習と、事後学習を実施し、日本語に強いモデルを開発してきた研究開発 1 ELYZAの汎用
モデル開発の方針 Llama 2ベースの継続学習の取り組み

7 ©2024 ELYZA,Inc 「Llama-3-ELYZA-JP」シリーズの公開今年6月、Meta社のLlama 3 (8B/70B) をベースに2つのモデルを開発 8Bは商用利用可能な形で一般公開、70Bはデモサイトを無料解放研究開発
Llama-3-ELYZA-JP-8B Llama-3-ELYZA-JP-70B デモサイト: https://elyza.ai/lp/elyza-llm-for-jp HF: https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B 研究開発 1

8 ©2024 ELYZA,Inc 「Llama-3-ELYZA-JP」シリーズの性能 70Bモデルは「GPT-4」などの主要グローバルモデルを上回るスコアを達成。 8Bモデルは、「GPT-3.5 Turbo」に匹敵するスコアを達成した７０Bモデル 8Bモデル研究
開発 1 ※ ELYZA-Tasks-100は、「GPT-4o」による自動評価結果 ※ Japanese MT-Bench評価の際は、Japanese MT-Bench のリポジトリのコードベースを使用。

9 ©2024 ELYZA,Inc GENIACへの採択経済産業省の生成AI開発力強化プロジェクト GENIAC のもと、H100 数百基を支援いただき、大規模なLLMの研究開発を実施研究
開発 1

10 ©2024 ELYZA,Inc GENIAC: Depth Up-Scaling (1/2) 継続学習にモデルのスケールアップを組み合わせることで、既存モデルから到達可能な性能のトップラインを引き上げる試み研究
開発 1 0-80 80層 140層 0-10 5-15 10-20 60-70 65-75 70-80 ・・・ Depth Up-Scaling [1] Up-scaling Llama-3-120B の継続事前学習「Meta-Llama-3-70B-Instruct」をベースにスケールアップ • mergekitのpassthroughを使用し、層を部分的に重複させながら積む • 右図の設定で、Llama-3-120B (1,220億パラメータ) を作成 Llama-3-120Bに対し、約150Bトークンの追加事前学習と、事後学習を実施 [1] https://arxiv.org/abs/2312.15166

11 ©2024 ELYZA,Inc GENIAC: Depth Up-Scaling (2/2) １２０Bモデルは70Bモデルより学習効率が高く、最終的に得られたモデルは、 70Bモデルや「GPT-4」を上回る性能を達成 FLOPsごとの訓練誤差
最終モデルの性能評価結果初期は70Bモデルのlossの方が低いが、 120Bモデルの方がより速くlossが減衰 ※ 「nejumi-v3」は、wandb/llm-leaderboardを使用して算出し、「汎用的言語性能(GLP)_AVG」を参照 ※ 「Llama-3-ELYZA-JP-70B」「GPT-4」「GPT-4o」はリリース時のスコアを引用 ※ この成果は、国立研究開発法人新エネルギー・産業技術総合開発機構（ＮＥＤＯ）の「ポスト５Ｇ情報通信システム基盤強化研究開発事業」 JPNP 20017 ）の助成事業の結果得られたものです。研究開発 1

12 ©2024 ELYZA,Inc GENIAC: 日本の知識に関する特化学習日本特有の知識 (法令、行政手続き等) に関する特化学習を実施。応答性能を測るため、ベンチマークを新たに作成し評価に用いた背景
日本語ベンチマークの評価研究開発 1 課題原因仮説方法評価方法グローバルモデルの、日本の文化や言語に関するタスクへの低い応答性能事前学習コーパスにおいて、法令や行政手続きなどの日本特化情報に関する網羅性が高くない 1. 政府省庁サイトからの法令・行政テキスト収集 2. 指示学習データの生成 3. 特化学習の実施日本のローカルルールに関する知識と、その活用に関する計30問のベンチマークを作成 [例] 事故で片足を失い義足を作ったのですが、義足は高額療養費の対象となりますか？ ※ 評価は、「GPT-4」による自動評価を実施 ※ 「contextあり」は、必要な情報が含まれるテキストを、回答時のpromptに挿入した場合 • 特化学習により、知識の焼き付けには一定成功している • 一方で、「contextあり」のスコアは低く、知識の活用に関してはまだ課題がある

13 ©2024 ELYZA,Inc ELYZAの社会実装日系大手企業との取り組み多数。PoCにとどまらず、実業務への導入を多数実現しており、それらは自社のApp Platform上で実装されている大手企業との共同研究自社プロダクト (App
Platform) (ほか、大手メディア、大手製薬メーカー、精密化学メーカーなどで導入) 『ELYZA App Platform』 LLM実用化プラットフォーム社会実装 2

15 ©2024 ELYZA,Inc 主な支援実績: 三井住友カード (2/2) 問い合わせメールへの回答草案を生成するRAGシステムを構築。クエリ拡張・Rank fusion・リランキング等を組み合わせ、実用レベルの精度を達成生成AI技術を活用し、
コンタクトセンター業務の高度化・効率化を促進 with生成AI 従来お客様オペレーターオペレーター回答生成AI お客様問い合わせ回答問い合わせ回答問い合わせ内容流し込み業務フロー内容検討回答の元となる情報抽出草案作成草案作成最終文面作成回答の元となる情報抽出社内情報参照推敲最終文面作成推敲探索AI 草案提示 RAG 社会実装 2

第16回最先端NLP勉強会_スポンサー公開資料

第16回最先端NLP勉強会_スポンサー公開資料

株式会社ELYZA

More Decks by 株式会社ELYZA

Featured

Transcript

1 ©2024 ELYZA,Inc 「未踏の領域で、あたりまえを創る」 Confidential 最先端NLP勉強会2024 2024/08/25-26

2 ©2024 ELYZA,Inc 本日の現地参加メンバー大葉大輔株式会社ELYZA 研究開発Gr 東京大学大学院情報理工学系研究科

3 ©2024 ELYZA,Inc 会社紹介: ELYZA (1/2) 2018年9月に東京大学松尾研究室からスピンアウトしたAIスタートアップ読み方：イライザ

4 ©2024 ELYZA,Inc 会社紹介: ELYZA (2/2) ChatGPT以前から自然言語処理分野に注力し、大規模言語モデル (LLM) の研究開発と社会実装の両軸で活動を実施

5 ©2024 ELYZA,Inc 研究開発: 取り組み紹介 ELYZAの研究開発における活動の一部として、「Llama-3-ELYZA-JP」シリーズの公開と、GENIACでの取り組みについてご紹介「Llama-3-ELYZA-JP」シリーズ GENIAC 研究

6 ©2024 ELYZA,Inc ELYZAの汎用モデル開発の歩み ELYZAでは、オープンモデルをベースに、日本語の追加事前学習と、事後学習を実施し、日本語に強いモデルを開発してきた研究開発 1 ELYZAの汎用

7 ©2024 ELYZA,Inc 「Llama-3-ELYZA-JP」シリーズの公開今年6月、Meta社のLlama 3 (8B/70B) をベースに2つのモデルを開発 8Bは商用利用可能な形で一般公開、70Bはデモサイトを無料解放研究開発

8 ©2024 ELYZA,Inc 「Llama-3-ELYZA-JP」シリーズの性能 70Bモデルは「GPT-4」などの主要グローバルモデルを上回るスコアを達成。 8Bモデルは、「GPT-3.5 Turbo」に匹敵するスコアを達成した７０Bモデル 8Bモデル研究

9 ©2024 ELYZA,Inc GENIACへの採択経済産業省の生成AI開発力強化プロジェクト GENIAC のもと、H100 数百基を支援いただき、大規模なLLMの研究開発を実施研究

10 ©2024 ELYZA,Inc GENIAC: Depth Up-Scaling (1/2) 継続学習にモデルのスケールアップを組み合わせることで、既存モデルから到達可能な性能のトップラインを引き上げる試み研究

11 ©2024 ELYZA,Inc GENIAC: Depth Up-Scaling (2/2) １２０Bモデルは70Bモデルより学習効率が高く、最終的に得られたモデルは、 70Bモデルや「GPT-4」を上回る性能を達成 FLOPsごとの訓練誤差

12 ©2024 ELYZA,Inc GENIAC: 日本の知識に関する特化学習日本特有の知識 (法令、行政手続き等) に関する特化学習を実施。応答性能を測るため、ベンチマークを新たに作成し評価に用いた背景

13 ©2024 ELYZA,Inc ELYZAの社会実装日系大手企業との取り組み多数。PoCにとどまらず、実業務への導入を多数実現しており、それらは自社のApp Platform上で実装されている大手企業との共同研究自社プロダクト (App

14 ©2024 ELYZA,Inc 主な支援実績: 東京海上日動 (1/2) 対話履歴から、オペレーター回答の草案を作成する独自モデルを学習。応対文面の作成業務で約50%の省力化に成功し、品質の均質化・向上にも寄与社会実装

15 ©2024 ELYZA,Inc 主な支援実績: 三井住友カード (2/2) 問い合わせメールへの回答草案を生成するRAGシステムを構築。クエリ拡張・Rank fusion・リランキング等を組み合わせ、実用レベルの精度を達成生成AI技術を活用し、

16 ©2024 ELYZA,Inc 16 募集中の職種⼀覧はこちら ※ 現在採⽤強化中⼀緒に未踏の領域であたりまえを創りましょうカジュアル⾯談（社員との⾷事も歓迎！）の応募フォームはこちら