LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について

© LayerX Inc. LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について 2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田壮恭

目次 Agenda • 自己紹介、会社紹介、プロダクト紹介 • LLM生成文章の精度評価 • プロンプトチューニングの効率化

自己紹介、会社紹介、プロダクト紹介

4 Confidential © 2024 LayerX Inc. 自己紹介 • 恩田壮恭（おんだまさのり） •
cipepser（さいぺ） • LayerX AI・LLM事業部マネージャー • LayerXに入社して4年半 • これまで ◦ TEEやPrivacyTechなど、技術を軸にした新規プロダクトの開発 • 現在 ◦ Ai Workforce導入の高速化や、本番で使えるだけのLLMの精度達成を目指すチームのマネージャー

5 ｜株式会社LayerX（レイヤーエックス）｜　代表取締役CEO 福島良典（Gunosy創業・上場）　　代表取締役CTO 松本
勇気 (Gunosy/DMM CTO) ｜　2018年｜　132.6億円｜　バクラク事業、Fintech事業、AI・LLM事業｜　三井物産デジタル・アセットマネジメント*2 　　｜　会社紹介 LayerXのご紹介 *1 資本準備金含む *2 三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社会社名　　　　代表取締役　創業　　　　　資本金*1 関連会社株主一覧　大企業とのR&D組織が母体生成AIプロダクトを開発・提供バクラク事業 AIをプロダクトのコアとすることで経費精算・法人カード等の伝統的なソフトウェア市場を再定義 Fintech事業三井物産との合弁会社でデジタル証券を発行 AI・LLM事業

© LayerX Inc. 7 多くのお客様に共通する「文章処理の課題」さまざまの業種業界のお客様へのヒアリングによってわかった文章処理の課題契約書やレポート作成時に、複数の資料を参考しているけど、フォーマットや構成がバラバラで欲しい情報を探すのが大変… 手作業でのコピー&ペーストも面倒くさい…
契約書が社内規定にあっているかのチェック業務に時間がかかっている。早く案件を進めたいのに… 過去資料検索が大変。結局ファイルを開いて中を見てみないとわからない。タグを付けるルールにしたけど誰も付けてくれない… “知的だが単純な作業”に多くの時間を取られている(疲弊している) 各業界共通

8 ノーコード、ノープロンプトAIプラットフォーム「Ai Workforce」生成AIの活用課題とLayerXのアプローチ生成AIの業務活用におけるポテンシャルを最大限に引き出すノーコード、ノープロンプトAIプラットフォームとして「Ai Workforce」を開発。ナレッジポータル（検索・ポータルアプリケーション） •
AI ワークフローによって、非構造化データから業務上の意思決定に役立つ価値ある情報（Intelligence）を抽出 • ナレッジシェアやプロジェクト管理、契約書等のドキュメント管理などで活用 AI ワークフロー（文書処理効率化アプリケーション） • ノーコード、ノープロンプトで様々な文書処理業務の効率化・自動化を実現するAIワークフロー • AIに業務の仕方（ワークフロー）を教えたら、日々の業務ではAIにインプットを与えて処理結果をレビューするだけ Intelligence DB 蓄積データを検索・活用する AIに業務を実行させ、結果をレビューする AIに一連の業務フローを教える AIアルゴリズム基盤（LLM, OCR etc）外部データを取り込んで拡充書類を”活用できるデータ”に変えるデータを最大限”活用する”

© LayerX Inc. 9 文章をLLMが解釈して、欲しい項目をデータ化 Ai Workforceの特徴プロンプトを操作せず、ボタン操作やファイルアップロードだけでLLMが文章を解釈し、項目を抽出フォーマットや構成が異なる文章でも、LLMが意味や文脈を理解して欲しい情報を抽出(してデータ化) ファイルアップロード画面
アウトプット画面英語や他言語も翻訳して抽出・要約参照元表示機能（抽出項目の参照元に飛べる）文章の”活用できるデータ”化解釈・抽出精度向上のために利用者が参照元を見ながら、抽出結果を修正することが出来る

© LayerX Inc. 10 抽出した内容が、元文書のどこに対応するのかを、ワンタッチで表示できるので、一眼で内容レビューが可能（出典）Jin,
Bowen, et al. "Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG." arXiv preprint arXiv:2410.05983 (2024).

LLM生成文章の精度評価

© LayerX Inc. 12 Ai Workforceにおける精度評価の対象単純な値を取得するもの文章が生成されるもの
• 著者名 • 著者の所属 • 実験に用いたデータセット • … 項目精度評価手法 • 要約 • 論文が解決する課題 • 先行研究との比較 • … • exact match • ROUGE score ？？単純な値は精度評価が容易だが、生成された文章は「人間が見て評価」しがち（とても大変。スケールしない）

© LayerX Inc. 13 LLM生成文章の精度評価の難しさ • 評価の主観性 ◦ 人間による評価のばらつき ◦
一貫した評価基準の設定の困難さ • 多様な生成結果 ◦ 何をもって「正解」とするのか ◦ 文脈やニュアンスの違い機械的な判断ができず、スケールしない

© LayerX Inc. 14 一般的な精度評価手法評価メトリクスメトリクスの計測方法（出典）Jeffrey Ip. "LLM
Evaluation Metrics: The Ultimate LLM Evaluation Guide", 2024. https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation • Answer Relevancy ◦ 有益かつ簡潔な出力か • Correctness ◦ ファクトとして正しいか • Hallucination ◦ 捏造された情報が含まれているか • Contextual Relevancy ◦ コンテキストとして関連性が高いか • Responsible Metrics ◦ バイアスなどなく、有害でないか • Task-Specific Metrics ◦ ユースケースごとにカスタマイズするメトリクス

© LayerX Inc. 15 間接的な精度評価直接的にメトリクスを計算しなくても、精度の上界・下界を抑える形で精度を評価できる例: RAG ・・・これまでの研究では、LLMの出力
を高精度にするためには、XXXらのXXXやXXXらのXXXという手法が存在するが、XXXという課題が存在本論文では、XXXのアーキテクチャを提案し、XXXという課題の解決と堅牢な評価を行った大量のドキュメント・チャンク Retrieveされたドキュメント・チャンク最終的に Generationされた文章 Generationされた文章ではなく、 Retrieveされたチャンクでrecallを計算（そもそものRetrieveに失敗していればGenerationもうまくいかない = 精度の上界を計測）

© LayerX Inc. 16 LLM生成文章の精度評価まとめ • 単純な項目取得に対して、要約といった文章の精度評価は難しい • まずは一般的な精度評価手法を用いる •
直接的な測定が難しい場合は、間接的な評価も有効 ◦ ポイント: チューニング効率化のためには「自動化可能な定量化」が重要 ◦ ※必ずしも正確な精度は不要で、「メトリクスの変化」を追えればエンジニアリングができる

プロンプトチューニングの効率化

© LayerX Inc. 18 プロンプトチューニングの戦略 • プロンプトエンジニアリングガイドにある基本的なテクニックに則る • ロールの指定、明確・具体的な指
示、md/xml記法etc ベストプラクティスに従うタスクの分割、ブロック分け few-shot example CoT • プロンプトエンジニアリング関連の論文が多数出ている※1 • o1では非推奨※2 • input/outputペアの記載だけでなく、outputだけの記載も効果的 • 出力フォーマットの指定など ※1: Saumajit Saha, “Prompt Engineering Techniques — Brief Survey”, 2024. https://medium.com/@saha.saumajit/prompt-engineering-techniques-brief-survey-5e23993ef520 ※2: Emilia David, “How to prompt on OpenAI’s new o1 models”, 2024. https://venturebeat.com/ai/how-to-prompt-on-openai-o1/ • ある項目をチューニングしたら、無関係の他項目の精度が悪化する、等を防止 • エンジニアリングしやすさにも寄与 • タスク数が増えるのでprompt cacheも活用

© LayerX Inc. 19 自動評価とプロンプトチューニングの統合プロンプトチューニング精度評価 • 間接的でもいいので、
定量的なメトリクスを採用 • 精度評価を自動化 • 一つのパラメタの変更で変わる出力の範囲を限定するようプロンプトを設計 • 多数のパラメタを一括で実行できる工夫 • few-shot exampleなども追加しやすくプロンプトの変更と精度評価のフィードバックループを構築し、探索を高速化

LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について

LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について

LayerX PRO

More Decks by LayerX

Other Decks in Programming

Featured

Transcript

© LayerX Inc. LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について 2024/10/25 AI Engineering Decoded #4

目次 Agenda • 自己紹介、会社紹介、プロダクト紹介 • LLM生成文章の精度評価 • プロンプトチューニングの効率化

自己紹介、会社紹介、プロダクト紹介

4 Confidential © 2024 LayerX Inc. 自己紹介 • 恩田壮恭（おんだまさのり） •

5 ｜株式会社LayerX（レイヤーエックス）｜　代表取締役CEO 福島良典（Gunosy創業・上場）　　代表取締役CTO 松本

6

© LayerX Inc. 10 抽出した内容が、元文書のどこに対応するのかを、ワンタッチで表示できるので、一眼で内容レビューが可能（出典）Jin,

LLM生成文章の精度評価

© LayerX Inc. 12 Ai Workforceにおける精度評価の対象単純な値を取得するもの文章が生成されるもの

© LayerX Inc. 13 LLM生成文章の精度評価の難しさ • 評価の主観性 ◦ 人間による評価のばらつき ◦

© LayerX Inc. 14 一般的な精度評価手法評価メトリクスメトリクスの計測方法（出典）Jeffrey Ip. "LLM

© LayerX Inc. 15 間接的な精度評価直接的にメトリクスを計算しなくても、精度の上界・下界を抑える形で精度を評価できる例: RAG ・・・これまでの研究では、LLMの出力

© LayerX Inc. 16 LLM生成文章の精度評価まとめ • 単純な項目取得に対して、要約といった文章の精度評価は難しい • まずは一般的な精度評価手法を用いる •

プロンプトチューニングの効率化

© LayerX Inc. 18 プロンプトチューニングの戦略 • プロンプトエンジニアリングガイドにある基本的なテクニックに則る • ロールの指定、明確・具体的な指

© LayerX Inc. 19 自動評価とプロンプトチューニングの統合プロンプトチューニング精度評価 • 間接的でもいいので、