効果的なLLM評価法 LangSmithの技術と実践

効果的なLLM評価法 LangSmithの技術と実践 2024/06/29 第36回勉強会

自己紹介 • 名前: 西岡賢一郎 ◦ Twitter: @ken_nishi ◦ note:
https://note.com/kenichiro ◦ YouTube: 【経営xデータサイエンスx開発】西岡賢一郎のチャンネル (https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg) • 経歴 ◦ 東京大学で位置予測アルゴリズムを研究し博士 (学術) を取得 ◦ 東京大学の博士課程在学中にデータサイエンスをもとにしたサービスを提供する株式会社トライディアを設立 ◦ トライディアを別のIT会社に売却し、CTOとして3年半務め、2021年10月末にCTOを退職 ◦ CDPのスタートアップ (Sr. CSM)・株式会社データインフォームド (CEO)・株式会社ディースタッツ (CTO) ◦ 自社よび他社のプロダクト開発チーム・データサイエンスチームの立ち上げ経験

今日のお話 • プレゼンの目的: ◦ LangSmithの機能とその利点を紹介し、LLMの評価プロセスの改善を図る。 • トピック ◦ LLMの評価 ◦
LangSmithを使った評価 + デモ

LLMの評価

LLMの主な評価方法 LLM（大規模言語モデル）アプリケーションを開発するとに評価必要となる背景 • 品質保証 ◦ 誤情報 (ハルシネーション)
を防、正確な応答を提供するための評価必要 ◦ 特に重要な分野では信頼性の確保不可欠 • ユーザーエクスペリエンス ◦ ユーザーの満足度を向上させるために応答の質を評価 ◦ 対話の質ユーザー体験に直結する • モデル改善 ◦ モデルの強みと弱みを把握し、次のアプリの改善に役立てる ◦ 評価を通じて性能を向上させ、より良い結果を目指す LLMの現場で見られる3つの評価 1. ユーザのフィードバック 2. プロダクトチームのフィードバック 3. 期待する出力を使った評価

ユーザのフィードバック • フィードバック収集 ◦ 親指マークやコメントでの評価 ◦ 簡便で直感的なインターフェース • 応答の質の分析 ◦
高評価と低評価の応答を比較 ◦ 改善点の特定 • ユーザー満足度の向上 ◦ フィードバックを基にアプリを改善 ◦ 継続的なユーザーエクスペリエンスの向上をめざす

プロダクトチームのフィードバック • 手動のチェック ◦ 開発中の応答を人力で確認 ◦ モデルの精度と一貫性の評価 • プロダクトログデータの活用 ◦
実際の使用データを分析 ◦ ユーザーの行動パターンや傾向を把握 • パフォーマンス指標のモニタリング ◦ 応答速度やエラーレートの監視 ◦ システムの信頼性と効率性の向上 • ダッシュボードの作成 ◦ リアルタイムのデータを可視化 ◦ 評価結果の一元管理と迅速な対応。

期待する出力を使った評価 • 特定のInputに対するOutputを準備 ◦ 具体的なInputと期待されるOutputを設定 ◦ 実際のLLMのOutputと比較して評価 • 曖昧性の考慮 ◦
LLMの生成するテキスト必ず同じになるわけではない ◦ 完全一致ではな、意味的な一致も考慮する • InputとOutputの管理は課題となる ◦ InputとOutputは追加・更新される可能性ある • 評価基準の設定 ◦ 実際のOutputを評価するための基準の設定必要 ◦ 一貫性、正確性、関連性の評価

LangSmithを使った評価

LangSmithの評価機能 LLMアプリケーション開発でよ使われるLangChainのサービスである「LangSmith」は、LLMを楽に評価でる機能を提供している。 • Evaluatorの設定 ◦ コードを書
ずにEvaluatorを設定し、データセットに紐づけられる • PlayGround ◦ プログラムを書ずにプロンプトやモデルの設定をテスト • 中間ステップの評価 ◦ RAGパイプラインなどの中間ステップを詳細に評価 • 標準Evaluatorの利用: ◦ カスタムコードを書ことな、標準の Evaluatorを使用 • Annotationの利用 ◦ 実行結果に注釈を追加し、詳細なフィードバックを提供

評価に使える2つの機能「Feedback」と「Evaluation」 • 評価文脈で使える機能は、FeedbackとEvaluationの 2種類 ◦ Feedback: ユーザやプロダクトチーム LLM の実行結果に対してAnnotate (注釈付け)
◦ Evaluation: 期待する出力を使ってLLMの出力を特定の基準をもとに評価 • FeedbackはRun (LLMの実行等) を絞り込むのに使い、実行のInputとOutputをDatasetに保存することでEvaluationに利用することでるようになる (Annotateした内容はDatasetには保存されない)

Feedback • Traceされた実行の中に含まれるRunに、自分で定義したTagやKeyをAnnotate ◦ trace_id1つに対して複数のrun_id 含まれる構造 ◦ 最初のrun_idはtrace_idと同一
• API経由のfeedbackではKey, 手動のfeedbackでは TagでAnnotateする仕組みとなっている、Tagも Keyとして保存されている • API経由のfeedbackはrecord 追加・上書でるのに対して、手動のfeedbackは上書のみという違いある • 数値データで同じキーのものは集計されて表示される • LLMアプリを使っているユーザらのフィードバックは、基本的にAPI経由の登録となる Runに対して定義したTagをAnnotateしてい

Evaluation • DatasetにあらじめInputとOutputの組み合わせらなるExampleを保存 • ExampleのInputを使ってLLMを実行し、出てた Outputを保存されているOutputを使って評価 •
評価にはLangSmith あらじめ用意している評価や、カスタム評価を利用することでる • 評価結果は、key (評価指標の名前), score (評価結果), commentとして残すこと可能

LangSmith導入の課題 • データの送信: ◦ LangSmithにInput、Output、Prompt などを送ることとなる ◦ 意図せずセキュアな情報を送らないように実装時に注意必要
• コスト: ◦ チームで使うと1ユーザあたり $39 (6000円強)/月で少し高め • アプリとLangSmithの密結合: ◦ ユーザらのフィードバックを保存する仕組みなどで、アプリとLangSmith 密結合してしまうことある

Appendix

自動Evaluatorの設定 • 手順: ◦ データセットで「Add Evaluator」ボタンをクリック ◦ Evaluatorに名前を付け、使用するプロンプトを設定
◦ 評価基準をスキーマフィールドに指定 ◦ Evaluatorを保存し、設定後の実験実行自動的に評価される • 利点: 評価プロセス簡素化され、一貫した評価基準適用される

PlayGround • 手順: ◦ プロンプトプレイグラウンドでプロンプトを選択または作成 ◦ データセットに切り替えて実験を開始 ◦ 結果を確認し、プロンプトを再調整して実験
を繰り返す • 利点: 効率的にプロンプトやモデルの設定をテストでる

中間ステップの評価 • 手順: ◦ パイプラインを定義。 ◦ データセットと評価例を作成。 ◦ カスタム評価者を定義。 ◦
パイプラインを評価。 • 利点: 各ステップのパフォーマンスを最適化でる

標準Evaluatorの利用 • 種類: ◦ QA Evaluator（qa、context_qa、cot_qa） ◦ 基準Evaluator（criteria） ◦ ラベル付
基準Evaluator（labeled_criteria） ◦ 文字列距離メトリックEvaluator（string_distance） ◦ 埋め込み距離メトリックEvaluator（embedding_distance） • 利点: 多様な評価基準をカバーし、迅速に評価でる

Annotationの利用 • 手順: ◦ 実行結果ページで「Add Annotation」ボタンをクリック。 ◦ 注釈内容を入力して保存 ◦ 注釈は実行結果ページで確認・編集可能
• 利点: ◦ 詳細なフィードバック: 各実行結果に具体的なフィードバックを追加。 ◦ エラーの特定: 特定のエラーや問題点を明確化。 ◦ チーム間の共有: チームメンバー間での情報共有容易。

LangSmithの高度な評価機能 • ペアワイズ評価の実行 • 評価者スコアの監査 • 実験のパフォーマンス指標の取得

効果的なLLM評価法 LangSmithの技術と実践

効果的なLLM評価法 LangSmithの技術と実践

西岡賢一郎 (Kenichiro Nishioka)

More Decks by 西岡賢一郎 (Kenichiro Nishioka)

Other Decks in Technology

Featured

Transcript