Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflections

Author: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh
Hajishirzi Presenter: Keisuke Fujimoto (Labs) Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflections

所属：ABEJA Labs テーマ：ビジョン、音声、NLP、ロボット趣味：株の分析botはじめました SNS X(Twitter)：@peisuke Github：https://github.com/peisuke note：https://note.com/peisuke （最近始めました）自己紹介
2

• 論文  ◦ Self-RAG: Learning to Retrieve, Generate and Critique
through Self-Reﬂections  ▪ preprint: arXiv:2310.11511    • 従来課題  ◦ RAGにおいて、Retrieveしたデータが無関係の場合に上手く回答できない    • 目的  ◦ Retrieveしたデータが適切かを判定し、生成文章を改善  論文の概要 3

• LLMが自身の出力を自己評価し、Retrieveプロセスを改善することで言語モデルの品質と正確性を向上させること Self-RAGのフレームワークの目的 4 クエリ読み込み外部情報に基づき文章生成
有用性を評価処理の流れ

• 既存のRAGプロセス ◦ クエリに関連するテキストを検索し、それを用いて回答を生成 RAGの説明 5 自社製品Aの昨年の出荷台数は？自社製品A 昨年
出荷台数 LLM1：自然言語を検索クエリに変換大量にある社内ドキュメント非LLM：検索ロジック LLM2：以下のコンテキストを前提として、質問に答えて下さい。 – [ドキュメントのテキスト文] – 自社製品Aの昨年の出荷台数は？ xx,xxx,xxx台検索でヒットした社内ドキュメント

ハルシネーション問題言語モデルの現状と問題点 6 RAGにおける関連文書の検索の困難性クエリ query = "カビゴンってどんなポケモンですか？ "
関連文書群より抜粋 '第五世代で登場した幻のポケモンである。通常であれば幻のポケモンはポケモン図鑑の終盤に番号が振られているが、ビクティニはくさタイプの御三家であるツタージャの前 (イッシュ図鑑でいえば No.000)に図鑑番号が振られている唯一のポケモンである。固定シンボルに話しかけたときの鳴き声は「きゅきゅわわ～んっ !」' ABEJA Tech blog: https://tech-blog.abeja.asia/entry/retrieval-and-llm-20230703

• Retrieveしたテキストセグメントが、どの程度役立つかを自己評価しながら、文章を逐次生成してく Self-RAGの全体のプロセス 7 クエリ外部情報を収集有用性を評価
作成中の回答続きの文章を生成続きの文章を生成作成中の回答に追加 Retrieveをする場合 Retrieveをしない場合

Self-RAGのプロセスの詳細 8

Self-RAGのプロセスの詳細 9 モデルの出力に、Retrieveのトークンが付与されていたら、外部情報の検索を行う

Self-RAGのプロセスの詳細 10 各検索結果を用いて、文章をそれぞれ生成する。生成した際に、検索結果がクエリに関連していたか、有用だったかをタグ付け

Self-RAGのプロセスの詳細 11 最も有用だった生成文を追加、このプロセスを繰り返す

• Retrieve機構 ◦ クエリに対して、関連性の高い外部情報を提供 • Self-Reflection機構 ◦ 生成されたテキストが、取得した外部情報とどのように関係しているかを判定 RetrieveとSelf-Reflectionメカニズムの役割
12 Retrieve機構 Self-Reflection機構クエリ文章群関連文クエリ関連文クエリ・関連文が関連しているかどうかのトークン生成文関連文が回答生成に役立ったかのトークン Reflection token

• 推論のステップ ◦ モデルは、ここまでの質問と生成中の回答から、外部情報の要否を判断し、必要に応じて外部情報を取得 ◦ 取得した情報と生成したテキストセグメントから、関連性を推論しReflection tokenとして付与推論アルゴリズムの説明:推論時の流れ 13

• Criticモデル ◦ 文章ペアの関連性に基づき、Reflectionトークンを予測 ◦ 生成モデルを学習するためのデータセットである拡張データセットの作成に利用される ◦ Self-RAGの推論時には利用しない •
生成モデル ◦ Reflectionトークン付きの文章を生成 ◦ Self-RAGでは、生成モデルの出力した文をユーザに出力学習するモデルの種類と役割 14

• 文章感の関係性から以下の4パターンのトークンを予測 ◦ Retrieve: Retrieveの判断を行う ◦ IsRel: Retrieveした文とクエリの関連性の判断を行う ◦ IsSup:
Retrieveした文が生成に役立っているかの判断を行う ◦ IsUse: 生成文の有用性の判断を行う Criticモデルの役割 15

• 人手のアノテーションは高コストなので、GPT-4を利用してデータセットを作成 • Retrieveのトークンを学習するための戦略 ◦ データ収集 ▪ 学習データからランダムに2つの文（クエリと生成済み文章）を収集 ◦
プロンプト ▪ Given an instruction, make a judgment on whether finding some external documents from the web helps to generate a better response. ▪ 訳：ウェブから外部の文書を探し出すことがより良い回答を生成するのに役立つかどうかを判断します。 Criticモデルを学習するためのデータの作成 16

• ランダムにサンプルしたテキストを入力、その関係からGPT-4で予測した Reflection tokenを出力として学習を行う ◦ 論文ではLlama 2-7Bのモデルを利用 Criticモデル: 学習プロセス 17

• 生成モデルの学習に用るための拡張データセットを作成 • これまでに使った文の組み合わせに対して、(1) Criticモデルを利用して tokenを追加、(2) Retrieverを使って検索文を追加生成モデル: 拡張データセットの作成 18

• 拡張データセットを利用して、トークンごと学習 ◦ 拡張データセットに含まれるRetrieveしたフレーズ（以下の<p></p>で囲まれた文面）はマスクして学習を行う生成モデル: 学習プロセス 19

• 通常のRAGは強制的に検索ロジックが動いてしまうのに対し、Self-RAG は生成文にRetriveが出現した時だけRAGを行うため、RAG以外にも利用可能 • 事実に基づくタスクでは頻繁に外部情報を取得するように動き、創造的なタスクでは、外部情報を利用しないように動く異なるタスク要件への適応 20 「夏休みのエッセイを書いてください」といったクエリの場合は、
RAGシステムでは強制的に検索した文が利用されるのに対し、 Self-RAGではRetrivalがNoになるためLLM 自身の出力が利用される

• Short-form generations tasks ◦ データセット: PopQA, TriviaQA-unfiltered ◦ Metric:
回答が生成に含まれているかを評価 • Closed-set tasks ◦ データセット: PubHealth, ARC-Challenge ◦ Metric: True/False、multiple-choice • Long-form generation tasks ◦ データセット: ALCE-ASQA ◦ Metric: FactScore、correctness、fluency、citation precision and recall 実験: タスクとデータセット 21

• Baselines without retrievals ◦ 商用利用/プライベートデータで学習されているモデル ▪ ChatGPTなど ◦ OSSとして利用されているモデル
▪ AlpacaやLlama2など • Baselines with retrievals ◦ AlpacaやLlama2などとRAGを組み合わせたモデル実験: ベースラインについて 22

• Trainingデータ ◦ Open-Instruct processed data、knowledge-intensive datasetsなどから150k 個のinstruction-output pairsを利用
• Model ◦ 生成モデル：Llama2 7B and 13B ◦ Criticモデル：Llama2 7B • Retriever ◦ Contriever-MS MARCO • 計算リソース ◦ A100 x 4 実験: セッティング詳細 23

• 多くのケースで良い精度を達成実験: RAG以外との比較 24

• RAGとの比較においても、殆のケースで従来モデルの性能を超えている ◦ 外部文章のコピで済まないデータ（PubHealthなど）では、既存モデルでは精度が出せていないのに対し、大幅に性能向上している実験: RAGとの比較 25

• 外部情報を利用した文を生成する際に、収集した外部情報との関連性をチェックすることで良い生成結果を提供 • 収集の要否や関連性などのトークンを推論することで実現 • RAG以外の通常の生成タスクにも直接利用可能 • 通常のInstruction Tuningを行ったGPTモデルよりも高い性能を発揮
まとめ 26

Self-RAG: Learning to Retrieve, Generate and Cr...

Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflections

peisuke

More Decks by peisuke

Other Decks in Technology

Featured

Transcript

Author: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh

所属：ABEJA Labs テーマ：ビジョン、音声、NLP、ロボット趣味：株の分析botはじめました SNS X(Twitter)：@peisuke Github：https://github.com/peisuke note：https://note.com/peisuke （最近始めました）自己紹介

• 論文  ◦ Self-RAG: Learning to Retrieve, Generate and Critique

• LLMが自身の出力を自己評価し、Retrieveプロセスを改善することで言語モデルの品質と正確性を向上させること Self-RAGのフレームワークの目的 4 クエリ読み込み外部情報に基づき文章生成

• 既存のRAGプロセス ◦ クエリに関連するテキストを検索し、それを用いて回答を生成 RAGの説明 5 自社製品Aの昨年の出荷台数は？自社製品A 昨年

ハルシネーション問題言語モデルの現状と問題点 6 RAGにおける関連文書の検索の困難性クエリ query = "カビゴンってどんなポケモンですか？ "

• Retrieveしたテキストセグメントが、どの程度役立つかを自己評価しながら、文章を逐次生成してく Self-RAGの全体のプロセス 7 クエリ外部情報を収集有用性を評価

Self-RAGのプロセスの詳細 8

Self-RAGのプロセスの詳細 9 モデルの出力に、Retrieveのトークンが付与されていたら、外部情報の検索を行う

Self-RAGのプロセスの詳細 10 各検索結果を用いて、文章をそれぞれ生成する。生成した際に、検索結果がクエリに関連していたか、有用だったかをタグ付け

Self-RAGのプロセスの詳細 11 最も有用だった生成文を追加、このプロセスを繰り返す

• Retrieve機構 ◦ クエリに対して、関連性の高い外部情報を提供 • Self-Reflection機構 ◦ 生成されたテキストが、取得した外部情報とどのように関係しているかを判定 RetrieveとSelf-Reflectionメカニズムの役割

• Criticモデル ◦ 文章ペアの関連性に基づき、Reflectionトークンを予測 ◦ 生成モデルを学習するためのデータセットである拡張データセットの作成に利用される ◦ Self-RAGの推論時には利用しない •

• 文章感の関係性から以下の4パターンのトークンを予測 ◦ Retrieve: Retrieveの判断を行う ◦ IsRel: Retrieveした文とクエリの関連性の判断を行う ◦ IsSup:

• 人手のアノテーションは高コストなので、GPT-4を利用してデータセットを作成 • Retrieveのトークンを学習するための戦略 ◦ データ収集 ▪ 学習データからランダムに2つの文（クエリと生成済み文章）を収集 ◦

• ランダムにサンプルしたテキストを入力、その関係からGPT-4で予測した Reflection tokenを出力として学習を行う ◦ 論文ではLlama 2-7Bのモデルを利用 Criticモデル: 学習プロセス 17

• 生成モデルの学習に用るための拡張データセットを作成 • これまでに使った文の組み合わせに対して、(1) Criticモデルを利用して tokenを追加、(2) Retrieverを使って検索文を追加生成モデル: 拡張データセットの作成 18

• 拡張データセットを利用して、トークンごと学習 ◦ 拡張データセットに含まれるRetrieveしたフレーズ（以下の<p></p>で囲まれた文面）はマスクして学習を行う生成モデル: 学習プロセス 19

• Short-form generations tasks ◦ データセット: PopQA, TriviaQA-unfiltered ◦ Metric:

• Baselines without retrievals ◦ 商用利用/プライベートデータで学習されているモデル ▪ ChatGPTなど ◦ OSSとして利用されているモデル

• Trainingデータ ◦ Open-Instruct processed data、knowledge-intensive datasetsなどから150k 個のinstruction-output pairsを利用

• 多くのケースで良い精度を達成実験: RAG以外との比較 24

• RAGとの比較においても、殆のケースで従来モデルの性能を超えている ◦ 外部文章のコピで済まないデータ（PubHealthなど）では、既存モデルでは精度が出せていないのに対し、大幅に性能向上している実験: RAGとの比較 25