Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【株式会社ELYZA】|GENIAC成果報告会 自社開発モデルプレゼンテーション

【株式会社ELYZA】|GENIAC成果報告会 自社開発モデルプレゼンテーション

■概要
日本の生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の成果報告会のプレゼンテーション資料

# LLM # GENIAC # ELYZA # NLP

株式会社ELYZA

September 18, 2024
Tweet

More Decks by 株式会社ELYZA

Other Decks in Technology

Transcript

  1. 11 ©2024 ELYZA,Inc Geniacでの取り組み概要 日本でインフラとして「使われる」基盤モデルの構築を目指す モデルの基礎能力向上 日本特有の知識・表現の性能向上 ・ 日本での社会実装を見据え、法令・行政手続きに関する特化学習 ・

    日本のローカルルールのベンチマークでGPT-4超えを目指す ・ 継続学習+モデルサイズ拡張により、性能のトップラインを引き上げ ・一般的な指標でGPT-4を超えるスコアの獲得を目指す 1 2
  2. 12 ©2024 ELYZA,Inc Geniacでの取り組み概要 日本でインフラとして「使われる」基盤モデルの構築を目指す モデルの基礎能力向上 日本特有の知識・表現の性能向上 ・ 日本での社会実装を見据え、法令・行政手続きに関する特化学習 ・

    日本のローカルルールのベンチマークでGPT-4超えを目指す ・ 継続学習+モデルサイズ拡張により、性能のトップラインを引き上げ ・一般的な指標でGPT-4を超えるスコアの獲得を目指す 1 2
  3. 14 ©2024 ELYZA,Inc モデルのサイズ拡張 継続学習アプローチにモデルのサイズ拡張を組み合わせることで、 既存モデルから到達可能な性能のトップラインを引き上げる オープン モデル 日本語化 モデル

    Depth Up-Scaling モデルサイズ拡張 ELYZA独自の データセット 事後学習 日本語データ 追加事前学習 オープン モデル 日本語化 モデル ELYZA独自の データセット 事後学習 Llama-3-70B 日本語データ 追加事前学習 Llama-3-ELYZA-JP-70B Llama-3-70B Llama-3-ELYZA-JP-120B 通常 今回
  4. Depth Up-Scaling 研究 開発 0-80 0-10 5-15 10-20 60-70 65-75

    70-80 ・・・
 Up-scaling 「Meta-Llama-3-70B-Instruct」をベースにスケールアップ • mergekitのpassthroughを使用し、層を部分的に重複させながら積む • 右図の設定で、Llama-3-120B (1,220億パラメータ) を作成 Llama-3-120Bに対し、約150Bトークンの追加事前学習と、事後学習を実施 [1] https://arxiv.org/abs/2312.15166 15 ©2024 ELYZA,Inc Llama-3-120B の継続事前学習 Depth Up-Scaling[1] 80層 140層 「Meta-Llama-3-70B-Instruct」をベースに、 層を部分的に重複させながら積むことで120Bモデルを作成
  5. 21 ©2024 ELYZA,Inc Geniacでの取り組み概要 日本でインフラとして「使われる」基盤モデルの構築を目指す モデルの基礎能力向上 日本特有の知識・表現の性能向上 ・ 日本での社会実装を見据え、法令・行政手続きに関する特化学習 ・

    日本のローカルルールのベンチマークでGPT-4超えを目指す ・ 継続学習+モデルサイズ拡張により、性能のトップラインを引き上げ ・一般的な指標でGPT-4を超えるスコアの獲得を目指す 1 2
  6. 22 ©2024 ELYZA,Inc 日本特有のタスクの例 基礎性能の高いLLMでも難易度が高い、日本での社会実装で 必要となり得るタスクの洗い出しを実施 カテゴリ 日本の法律 日本の制度 行政手続き

    サブカルチャーに関する知識 敬語やビジネスマナーなどの繊細な表現 漢字、平仮名、ローマ字、オノマトペ等 文字数の制限に従う 膨大な指示に漏れなく従うタスク 極めて難しい読解問題 検索が困難な質問 (RAGを想定) 項目 1. 日本のローカルルールに 関する知識とその活用 2. 日本語・日本文化に関する 理解 3. 言語に依らず困難なタスク • 「日本で鉄道事業を始めるにあたって注意点を 教えて」 • 「裁判所法第1条を答えてください」 具体例 • 「ちいかわのハチワレについて教えて」 • メールで疑問文に対して「?」を使ってしまう • 「AIについて18文字以上20文字以内で説明し て」 • 以下の条件を満たす文章を書いてください。 - 全体で10行、13文 - 最初の行と最後の行は空行ではない...
  7. 23 ©2024 ELYZA,Inc 日本特有のタスクの例 自社の社会実装での経験や課題感も踏まえ、 日本のローカルルールに関する知識とその活用に焦点 カテゴリ 日本の法律 日本の制度 行政手続き

    サブカルチャーに関する知識 敬語やビジネスマナーなどの繊細な表現 漢字、平仮名、ローマ字、オノマトペ等 文字数の制限に従う 膨大な指示に漏れなく従うタスク 極めて難しい読解問題 検索が困難な質問 (RAGを想定) 項目 1. 日本のローカルルールに 関する知識とその活用 2. 日本語・日本文化に関する 理解 3. 言語に依らず困難なタスク • 「日本で鉄道事業を始めるにあたって注意点を 教えて」 • 「裁判所法第1条を答えてください」 具体例 • 「ちいかわのハチワレについて教えて」 • メールで疑問文に対して「?」を使ってしまう • 「AIについて18文字以上20文字以内で説明し て」 • 以下の条件を満たす文章を書いてください。 - 全体で10行、13文 - 最初の行と最後の行は空行ではない...
  8. 24 ©2024 ELYZA,Inc 日本の知識に関する特化学習 研究 開発 ベンチマークの評価 評価方法 1. 政府省庁サイトからの法令・行政テキスト収集

    2. 指示学習データの生成 3. 特化学習の実施 日本のローカルルールに関する知識と、その活用 に関する計30問のベンチマークを作成 [例] 事故で片足を失い義足を作ったのですが、 義足は高額療養費の対象となりますか? ※ 評価は、「GPT-4」による自動評価を実施 ※ 「contextあり」は、必要な情報が含まれるテキストを、回答時のpromptに挿入した場合 • 特化学習により、知識の焼き付けには一定成功している • 一方で、「contextあり」のスコアは低く、知識の活用に関し てはまだ課題がある 24 ©2024 ELYZA,Inc 日本特有の知識(法令、行政手続き等)に関する特化学習を実施。 応答性能を測るため、ベンチマークを新たに作成し評価に用いた アプローチ 学習方法 [例] 副業などをしていなく、普通に企業勤めを している場合は確定申告はしなくていいんでし たっけ? 自分は50歳の男性で、家族構成は妻と子供が 2人います。所得は2,500万円です。
  9. 25 ©2024 ELYZA,Inc 出力事例 義足は高額療養費の対象となります。 高額療養費とは、医療機関や薬局の窓口で支払っ た額が、ひと月(月の初めから終わりまで)で上限 額を超えた場合に、その超えた金額を支給する制 度です。義足はその支給対象に含まれています。 ただし、対象となるのは、医師の指示・処方に基づ

    いて購入した義足に限られます。詳しくは、加入し ている健康保険組合等にご相談ください。 日本の健康保険制度では、義足や義手などの補装具は 高額療養費の対象には含まれません。これらは「看護・ リハビリテーションを目的とする施設等における食事・ 宿泊・入浴などの費用」や「予防接種・人間ドック・健康 診断の費用」などと同様に自己負担となります。 補装具の費用については、一部が健康保険適用となり ますが、全額が補償されるわけではありません。また、 各自治体により、障害者支援のための補助金制度や免 税措置が設けられていることがあるため、詳細は各自 治体の窓口に問い合わせることをおすすめします。 事故で片足を失い義足を作ったのですが、義足は高額療養費の対象となりますか ELYZAモデル GPT-4
  10. 26 ©2024 ELYZA,Inc 出力事例 日本国憲法第81条は、最高裁判所について規定し た条文です。 「最高裁判所は、一切の法律、命令、規則又は処分 が憲法に適合するかしないかを決定する権限を有 する終審裁判所である。」 日本国憲法第81条は、「すべての裁判について最終的

    な判断を下す権限を最高裁判所に与える。」と規定して います。全文は以下の通りです。 「すべての裁判について、最終的な判断を下す権利は、 最高裁判所に属する。」 日本国憲法第81条を答えて ELYZAモデル GPT-4
  11. 27 ©2024 ELYZA,Inc Geniacでの成果まとめ 日本でインフラとして「使われる」基盤モデルの構築を目指す • 継続学習アプローチにDepth Up-Scalingによるモデルサイズ拡張を組み 合わせることで、既存モデルから到達可能な性能のトップラインを引き上げ る試みを実施。

    • Japanese MT-Bench, ELYZA-Tasks-100, Nejumi-v3それぞれに 対して、GPT-4を上回るスコアを達成 モデルの基礎能力向上 日本特有の知識・表現 の性能向上 • 基礎性能の高いLLMでも難易度が高い、日本での社会実装で必要となり得 るタスクの洗い出しを実施 • 弊社のLLMの社会実装経験も踏まえ、インパクトの大きさから「日本のロー カルルールに関する知識とその活用」に焦点をあて、ベンチマークを作成 • 法令や行政手続き等の特化学習を実施し、GPT-4を上回るスコアを達成 - 一方、Contextの知識の活用にはまだ課題が残る 実施事項 取り組み内容