大幅アップデートされたRagas v0.2をキャッチアップ

2024/12/12 #StudyCo 大幅アップデートされた Ragas v0.2をキャッチアップ

自己紹介大嶋勇樹（おおしまゆうき） https://x.com/oshima_123 株式会社ジェネラティブエージェンツ取締役CTO/Co-founder 大規模言語モデルを組み込んだアプリケーションやAIエージェントの開発を実施個人ではエンジニア向けの勉強会開催やUdemy講座の作成など勉強会コミュニティStudyCo運営「ChatGPT/LangChainによるチャットシステム構築［実践］入門」（共著）「LangChainとLangGraphによるRAG・AIエージェント［実践］入門」（共著）

会社名株式会社ジェネラティブエージェンツ（英文：Generative Agents, Inc.）所在地東京都港区 ※ 全社員リモート勤務役員構成
CEO 西見公宏 COO 吉田真吾 CTO 大嶋勇樹設立年月 2024年3月14日事業内容 AIエージェント技術を軸とした生成 AIアプリケーション開発支援、コンサルティング、教育・研修サービスの提供生成AIアプリケーション開発支援「LangChain」の公式エキスパートとして、生成AIを活用したソフトウェア開発を支援します。生成AIを活用した課題解決、新規事業に向けたコンサルティングサービス、チームの開発力を上げる教育・研修サービスを提供します。ノーコードツール「 Dify」のプロサポート Difyとはチャットボット、文章要約やコンテンツ生成など、多彩なワークフローを現場の社員自ら構築できるツールです。当社はDifyを提供するLangGenius社の公式パートナーとして、自社内のDifyインフラ構築、導入支援・オンボーディング、活用定着支援、アプリ開発研修などニーズに応じたプロフェッショナルサポートを提供します。株式会社ジェネラティブエージェンツ - 会社概要 AIエージェントが「ハブ」となり人間とAIエージェントの協働が当たり前になる世界を実現する

代表取締役CEO / Founder 西見公宏 Masahiro Nishimi 事業会社の顧問CTOとして活動するソフトウェア開発のスペシャリスト。AIエージェントを経営に導入することにより、あらゆる業種業態の生産性を高めるための活動に尽力している。
「その仕事、AIエージェントがやっておきました。――ChatGPTの次に来る自律型AI革命」（技術評論社）単著、Software Design「実践LLMアプリケーション開発」（技術評論社）連載。主な著書『その仕事、AIエージェントがやっておきました』取締役COO / Co-founder 吉田真吾 Shingo Yoshida AWS Serverless Heroとして日本におけるサーバーレスの普及を促進。「ChatGPT/LangChainによるチャットシステム構築［実践］入門」（技術評論社）共著、「Azure OpenAI ServiceではじめるChatGPT/LLMシステム構築入門」（技術評論社）共著、「AWSによるサーバーレスアーキテクチャ」（翔泳社）監修、「サーバーレスシングルページアプリケーション」（オライリー）監訳、「AWSエキスパート養成読本」（技術評論社）共著。ChatGPT Community（JP）主催主な著書『ChatGPT/LangChainによるチャットシステム構築［実践］入門』『Azure OpenAI ServiceではじめるChatGPT/LLMシステム構築入門　エンジニア選書』取締役CTO / Co-founder 大嶋勇樹 Yuki Oshima 大規模言語モデルを組み込んだアプリケーションやAIエージェントの開発を実施。個人ではエンジニア向けの勉強会開催や教材作成など。オンラインコースUdemyではベストセラー講座多数。「ChatGPT/LangChainによるチャットシステム構築［実践］入門」（技術評論社）共著。勉強会コミュニティStudyCo運営。主な著書『ChatGPT/LangChainによるチャットシステム構築［実践］入門』運営メンバー

11/9に書籍を出しました！『LangChainとLangGraphによるRAG・AIエージェント［実践］入門』（技術評論社） LangChain公式エキスパート株式会社ジェネラティブエージェンツ西見公宏、吉田真吾、大嶋勇樹 [著] • OpenAIのチャットAPI　プロンプトエンジニアリング　LangChainの基礎 • 検索クエリの工夫　リランクモデル　ハイブリッド検索
• LangSmithを使ったRAGアプリケーション評価 • LLMを活用したAIエージェントの起源と変遷 • LangChain/LangGraphによるエージェントデザインパターンの実装 LLMを組み込んだアプリケーションの開発について、初心者の方も経験者の方もぜひ手に取ってください！

2024/12/12 #StudyCo 大幅アップデートされた Ragas 0.2をキャッチアップ

Ragasとは Ragasは、GitHubでOSSとして公開されているLLMアプリケーションの評価フレームワークです GitHub：https://github.com/explodinggradients/ragas 論文：https://arxiv.org/abs/2309.15217 Ragasはとても活発にアップデートされており、2024年10月にv0.2がリリースされましたもともとRAGの評価を扱うフレームワークでしたが、現在はRAG以外のLLMアプリにも適用可能です

RagasとLangSmithを活用して、たとえば以下の構成でRAGのオフライン評価を実施できます AIエージェント実践本より）LangSmithとRagasを使ったオフライン評価の構成例 Ragasによる合成テストデータの生成 Ragasによるオフライン評価の実行保存 LangSmith Dataset 評価結果
保存読み込み

Ragas v0.2のアップデート Ragas v0.2の大きなアップデートとして、以下の2つを紹介します 1. 多様なメトリクスのサポート 2. 合成テストデータ生成処理の刷新 ※v0.2.0より後のアップデートの内容を含みます

多様なメトリクスのサポート Ragas v0.2では、RAG以外のメトリクスも多数追加されています https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/ • AgentやTool useのメトリクス • 自然言語における、事実的な正確性、意味的類似性、その他のメトリクス •
表データの等価性、SQLの等価性 • カスタマイズして使用する汎用メトリクス • 要約のスコア

AgentやTool useのメトリクスの紹介 TopicAdherenceScore • AIシステムが想定するトピックのみに回答し、他のトピックに回答しないことの評価 ToolCallAccuracy • ツールの呼び出しが期待通りであることの評価 AgentGoalAccuracyWithReference •
期待されるユーザーの目標をエージェントが達成したかの評価これらのメトリクスはマルチターンの会話に対して使用できます参考：https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/agents/

合成テストデータ生成処理の刷新 Ragas v0.2の合成テストデータ生成機能では、RAGのデータソースのドキュメントからナレッジグラフを作成してRAGのテストデータを生成します https://docs.ragas.io/en/stable/concepts/test_data_generation/rag/#knowledge-graph-creation

合成テストデータ生成時のペルソナの生成ナレッジグラフを構築したあと合成テストデータ生成する際には、ペルソナを生成（or設定）し、そのペルソナを使ってRAGのテストデータを生成します https://docs.ragas.io/en/stable/concepts/test_data_generation/rag/#scenario-generation

LangChainのドキュメントから生成した合成テストデータの例（gpt-4o-miniを使用）

まとめ Ragas v0.2での大きなアップデートを紹介しました 1. 多様なメトリクスのサポート RAG以外にもTool useなどの多くのメトリクスが追加されました 2. 合成テストデータ生成処理の刷新内部でナレッジグラフの構築・ペルソナの生成といった処理が行われるようになりました

ご清聴ありがとうございました

大幅アップデートされたRagas v0.2をキャッチアップ

大幅アップデートされたRagas v0.2をキャッチアップ

os1ma

More Decks by os1ma

Other Decks in Technology

Featured

Transcript

2024/12/12 #StudyCo 大幅アップデートされた Ragas v0.2をキャッチアップ

会社名株式会社ジェネラティブエージェンツ（英文：Generative Agents, Inc.）所在地東京都港区 ※ 全社員リモート勤務役員構成

2024/12/12 #StudyCo 大幅アップデートされた Ragas 0.2をキャッチアップ

Ragas v0.2のアップデート Ragas v0.2の大きなアップデートとして、以下の2つを紹介します 1. 多様なメトリクスのサポート 2. 合成テストデータ生成処理の刷新 ※v0.2.0より後のアップデートの内容を含みます

LangChainのドキュメントから生成した合成テストデータの例（gpt-4o-miniを使用）

ご清聴ありがとうございました