20240917_wandb_Monthly_meetup_TIS

© 2024 TIS Inc. 2 概要 TISでは昨年度から「TIS AIChatLab」という社内専用AIチャットを公開・運用しています。ここではTIS
AIChatLabのRAG（Retrieval-Augmented Generation）モデルの応答評価に焦点を当て、その技術的なアプローチと評価プロセス、Weights & Biasesの利用例を解説します。先だってオウンドメディアで公開した社内AIチャット「TIS AIChatLab」：RAG応答評価の仕組みとプロセスという記事をベースにしつつ、最新の状況を踏まえてお届けします。

© 2024 TIS Inc. 5 これまでの歩みを1ページで • 2023/07 社内専用AIチャット「TIS AIChatLab」初期バージョン公開
• GPT-3.5で一般的な内容をチャットするだけのもの • RAGは無し • React(TypeScript) + Spring Boot(Java) + Azure OpenAI Service • 2023/10 社内情報検索を行えるRAG構成へとバージョンアップ • RAGにはAzure AI Search On Your Dataを使用 • 課題：体感的に回答精度が低い、定量評価が行えていない • 2024/01 部門横断の専門チームを立ち上げ回答精度の改善に着手 • アーキテクチャの刷新 • AI Seach On Your Data → 自前のRAG(ブラックボックスをなくしてチューニングしやすく) • Spring Boot(Java) → Python(LangChain + FastAPI) • 2024/03 回答精度の改善を達成 • 継続したUX改善を実施

© 2024 TIS Inc. 9 評価方法概要 • 評価用のデータセットを準備 •
評価用のデータセットを用いて回答生成する • 生成された回答に対してRagasを用いて、以下のメトリクスで定量評価を実施 • Answer Correctness • Answer semantic similarity • 評価結果およびトレースをWeights & Biasesへ記録

© 2024 TIS Inc. 10 • 本番を想定した質問と期待する回答のセット • 業務の有識者(※)に作成してもらったり、LLMで生成したり •
※この例だと情シス評価用のデータセット例

© 2024 TIS Inc. 13 • Weights & Biasesのレポート機能で作成したレポートにダイアグラムを埋め込んでいる例
• ここではRagasで評価したスコアを可視化し、異なるバージョン間(v0, v1)を比較している記録されたテーブルをもとに作成したダイアグラムの例

© 2024 TIS Inc. 14 コード例：トレースの取得 ※注：今後はWeaveが主流になっていくため、あまり役に立たない知見かもしれません • AsyncClientのappパラメーターへFastAPIオブジェクトを渡すことでHTTP通信をバイパスし、同一プロセスでリクエストを処理している
• HTTP通信をバイパスしている理由は、アプリの作りの問題で、RAGのチェインが疎結合になっておらず、チェイン単独で呼び出すことができなかったため

© 2024 TIS Inc. 16 トレースに関して今後の展望プロダクション環境での内部状態を把握したいため、プロダクション環境でもトレースを記録したい。現状は OpenTelemetry
+ Application Insights で一応トレースを見ることができるが、 HTTP通信やAzure Cosmos DBとの通信など、一連のトレースが記録されているためノイズが多い。 Weaveへ移行したい。

© 2024 TIS Inc. 17 脇道）生成AIの確率的な性質に起因する課題評価やWeights & Biasesとは関連しない話題だが、、、みなさんがどうされているのかお聞きしたいです
• UIのE2Eテストを自動化しており、Visual Regression Testingを行っているが、生成されるテキストが毎回異なるため毎回差分が検出されてしまい、正直言ってテストが機能していない、、、 • UIのテストなので生成されるテキストの内容には関心がない • そのためE2Eテストの際は FakeMessagesListChatModel を用いて生成されるテキストに再現性を持たせたいと考えている生成AIの確率的な性質とテスト自動化について、みなさんどう向き合っていますか？

© 2024 TIS Inc. 19 今後の展望 • 運用まわりでまだまだ手作業も多い。自動化を進める • 評価用データセットを用いた定量評価も自動化し、リグレッションテストのよ
うに実施できる環境を整えたい • 回答精度向上の継続 • Azure AI Search単体のチューニング • インデックスのドメイン分割, クエリーの分類 • などなど

© 2024 TIS Inc. 20 参考 Fintan（オウンドメディア）へ投稿した生成AI関連の記事 • 社内AIチャット「TIS AIChatLab」：RAG応答評価の仕組みとプロセス
• 社内AIチャット「TIS AIChatLab」：RAGアーキテクチャの刷新とUX改善 • GitHub Copilotの導入状況と効果、導入に向けて実施した取り組み • 生成AIリテラシー向上研修：研修資料の公開サービス提供 • 生成AIビジネス活用研修サービス • AI搭載型チャットボット作成サービス：Dialog Play® • 生成AI導入支援サービス

ご清聴ありがとうございました

20240917_wandb_Monthly_meetup_TIS

20240917_wandb_Monthly_meetup_TIS

Keisuke Kamata

More Decks by Keisuke Kamata

Featured

Transcript

© 2024 TIS Inc. 社内AIチャット「TIS AIChatLab」 RAG応答評価の仕組みとプロセス 2024.09.17 テクノロジー＆イノベーション本部開発基盤センター

© 2024 TIS Inc. 2 概要 TISでは昨年度から「TIS AIChatLab」という社内専用AIチャットを公開・運用しています。ここではTIS

© 2024 TIS Inc. 3 概要

© 2024 TIS Inc. 4 AIチャットへの取り組み概要

© 2024 TIS Inc. 5 これまでの歩みを1ページで • 2023/07 社内専用AIチャット「TIS AIChatLab」初期バージョン公開

© 2024 TIS Inc. 6 TIS AIChatLabのアーキテクチャ

© 2024 TIS Inc. 7 TIS AIChatLabのアーキテクチャ

© 2024 TIS Inc. 8 性能評価の仕組み

© 2024 TIS Inc. 9 評価方法概要 • 評価用のデータセットを準備 •

© 2024 TIS Inc. 10 • 本番を想定した質問と期待する回答のセット • 業務の有識者(※)に作成してもらったり、LLMで生成したり •

© 2024 TIS Inc. 11 コード例：回答生成、評価、Weights & Biasesへの記録

© 2024 TIS Inc. 12 Weights & Biasesへ記録されたテーブルの例

© 2024 TIS Inc. 13 • Weights & Biasesのレポート機能で作成したレポートにダイアグラムを埋め込んでいる例

© 2024 TIS Inc. 15 コード例：トレースの取得(改善) • チェインを疎結合にして単独で呼び出せるように改善

© 2024 TIS Inc. 16 トレースに関して今後の展望プロダクション環境での内部状態を把握したいため、プロダクション環境でもトレースを記録したい。現状は OpenTelemetry

© 2024 TIS Inc. 17 脇道）生成AIの確率的な性質に起因する課題評価やWeights & Biasesとは関連しない話題だが、、、みなさんがどうされているのかお聞きしたいです

© 2024 TIS Inc. 18 今後の展望

© 2024 TIS Inc. 19 今後の展望 • 運用まわりでまだまだ手作業も多い。自動化を進める • 評価用データセットを用いた定量評価も自動化し、リグレッションテストのよ

© 2024 TIS Inc. 20 参考 Fintan（オウンドメディア）へ投稿した生成AI関連の記事 • 社内AIチャット「TIS AIChatLab」：RAG応答評価の仕組みとプロセス

ご清聴ありがとうございました