Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RAGの簡易評価によるフィードバックサイクル実践 / Feedback cycle pract...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Takeshi Kondo
July 11, 2024
Technology
6k
2
Share
RAGの簡易評価によるフィードバックサイクル実践 / Feedback cycle practice through simplified assessment of RAGs
https://findy.connpass.com/event/323129/
Takeshi Kondo
July 11, 2024
More Decks by Takeshi Kondo
See All by Takeshi Kondo
SREの知識地図 - 第2章の紹介 - / Knowledge Map of SRE – Introduction to Chapter 2 –
chaspy
0
86
SRE NEXT CfP チームが語る 聞きたくなるプロポーザルとは / Proposals by the SRE NEXT CfP Team that are sure to be accepted
chaspy
2
1.7k
Slack Platform(Deno) での RAG 実装 - LangChain(js) を使ってみた / rag-implementation-on-slack-platform-deno-experimenting-with-langchain-js
chaspy
0
290
SRE の考えをマネジメントに活かす / applying SRE ideas to management
chaspy
7
8.3k
定量データと定性評価を用いた技術戦略の組織的実践 / Systematic implementation of technology strategies using quantitative data and qualitative evaluation
chaspy
9
2.3k
エンジニアブランディングチームの KPI / KPI's of engineer branding team
chaspy
2
2.5k
「SLO Review」今やるならこうする / If I had to do the "SLO Review" again
chaspy
3
2.4k
開発者とともに作る Site Reliability Engineering / SREing with Developers
chaspy
10
9k
自己診断能力の獲得を目指して / Toward the acquisition of self-diagnostic skills
chaspy
1
7.4k
Other Decks in Technology
See All in Technology
Platform Engineering as a Product: Criteria for Improvement and Multi-Tenant Design
kumorn5s
0
420
AI時代から振り返るTerraform drift運用の歴史 / AI Age Reflections on the History of Terraform Drift Operations
aeonpeople
0
610
Dynamic Workersについて
yusukebe
2
510
ポスター発表&デモと総括 / Poster Presentations & Demonstrations and Summary
ks91
PRO
0
180
Oracle Cloud Infrastructure:2026年5月度サービス・アップデート
oracle4engineer
PRO
1
270
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.8k
個人の発見を、組織の知恵に 〜生成AI活用を"探索"から"組織の仕組み"へ〜
kintotechdev
2
210
脅威をエンジニアリングの糧にして:恐怖を乗り越えた先にあったもの / Turn threats into fuel for engineering: what lay beyond overcoming fear
nrslib
1
360
ルールやカスタム機能、どう使う?理想の出力を引き出すために今知りたいIBM Bob 5つの機能
muehara
0
150
A Harness for Behaviour: how to get AI to generate code that does what we intend, or "TDD in the age of AI"
xpmatteo
1
520
エンジニアは生成AIと どのように向き合うべきか? ことばの意味という観点から
verypluming
3
300
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.7k
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
333
25k
We Are The Robots
honzajavorek
0
240
Evolving SEO for Evolving Search Engines
ryanjones
0
210
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
65
55k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Fireside Chat
paigeccino
42
3.9k
The browser strikes back
jonoalderson
0
1.1k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
Bash Introduction
62gerente
615
210k
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
Transcript
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 RAGの簡易評価によるフィードバックサ イクル実践 Takeshi Kondo
(@chaspy) 現場で実践!RAG活用術 Lunch LT ― 運用して 分かった"つらみ"とその対策
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 Takeshi Kondo (@chaspy) Director
of Engineering StudySapuri K12 at Recruit Co., Ltd. 観葉植物 クラフトビール が好き 今日は友達増やしにきました! chaspy chaspy_ https://chaspy.me
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 スタディサプリプロダクトについて 国内小中高と 海外を担当しています
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 Agenda | 01 02
03 背景 RAG のフィードバックを得る方法 課題(つらみ)
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 簡易フィードバックの お願い ソースドキュメント へのリンク
社内の Feature Toggles 基盤のこと こういうのを作りました
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 アーキテクチャ 素敵な図はチームメンバーの aoi さん作のものをお借りしました。詳細はブログ
RAGを使って社内のGitHubリポジトリに散ら ばっているドキュメントを自然言語で検索できるSlack botを作りました - スタディサプリ Product Team Blog もご覧くださ い!
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 RAG の評価をする上での前提となる考え ➔ 現状ベータ版であり、ユーザからフィードバックを
高速に得て、改善を繰り返すかが重要 ➔ やりたいことは検索であり、ソースドキュメントに たどり着くことをゴールとしているので、高度な評 価指標は必要ない ◆ ※ドキュメントは monorepo で markdown + docsify な どの SSG でビルド & Amazon S3 で配信しているものが 多い
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 簡易的に評価する手法 • (1)回答に満足したかどうかを リアクションで促す
◦ 生成 AI のアウトプットに固定文を追加しているだけ • (2)ローカルで同一の API を実行し、求める検索結 果が得られたかどうかを確認する ◦ E2E でのリグレッションテスト相当 ◦ テストケースと回答のセット(質問/url)を csv で持つ
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (1)回答に満足したかどうかを リアクションで促す これです!!!
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (1)回答に満足したかどうかを リアクションで促す • 意外と押してくれる
◦ 将来、満足度を計測するのにも使えそう ◦ インターフェースが Slack だったからこその利点 ◦ チャンネルはウォッチしてるので満足していなさそうだっ たら @chaspy が回答していますw ▪ このタイミングで、ソースドキュメントの追加・編集をやっている
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (1)回答に満足したかどうかを リアクションで促す 回答は得られなかったが... 人間が回答しつつ、
ドキュメント追加
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (1)回答に満足したかどうかを リアクションで促す • フィードバックはタイミングと簡単さが重要
◦ google map の経路案内後の UI にヒントを得た ◦ タスクを終えて一息ついたタイミングで、押すだけ ▪ 逆にタスク中で邪魔なタイミングだと反感を買う
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (2)ローカルで同一の API を実行し、求める検索結果が 得られたかどうかを確認する
• 質問と期待するソース url のセットを csv で持つ ◦ Qall-k8sって何?,https://docs.xxx.com/xxxx/yyy/qall- k8s • 1行ずつ呼んで、api を呼び出し、最終回答に url が 含まれるかを確認するだけ
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (2)ローカルで同一の API を実行し、求める検索結果が 得られたかどうかを確認する
• ドキュメントが増えていくにつれて検索精度が落ち ることが予想される ◦ それに管理者側で事前に気付けるようにする ◦ 検索システムと割り切ることで、高度な評価をしない
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 課題(つらみ) • (1)コスト高い問題 •
(2)ソース url の伝播難しい問題 • (3)index 再生成うまくいってない問題
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (1)コスト高い問題 • 最初に日本リージョンを選んでしまったため、最新 モデルが使えるまで時間がかかる
◦ gpt-4-32k をしばらく使っていたが、冷静に考えると高い ▪ input ¥9.637 / 1000 token (Azure OpenAI) ◦ 調べると Input token 数がかなり多い ▪ 1回の問い合わせで10000token使っていた、つまり1回あたり100円
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (1)コスト高い問題 - 解決策 •
まず計測 - 回答時に token を出力 • 採用する検索結果を5件から3件に • 米国 Region で作り直そうと思ってたら先週日本 Region でも gpt-4o 使えるように ◦ ¥0.8031 / 1000 input token, 1/10 以下に • 最初から最新モデルが使えるリージョンで作ろう
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (2)ソース url の伝播難しい問題 ①
Metadata に url を付 与 ② field mapping を設定 ③ URL も返却せよと指示 しかし回答結果は不安定...
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (2)ソース url の伝播難しい問題 ③
URL も返却せよと指示 ->なくせた ちゃんとAPI Response 見ましょう リクエストボディで指定しないとレスポンスボデ ィに url は含まれてなかった! {“parameters”: { "fieldsMapping": {"urlField": "customUrl"}, }
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 (3)index 再生成うまくいってない問題 (未解決) •
当時試行錯誤していた際、blob のメタデータに付与した url が 間違っていたり、null のままだったりした • その場合、indexing すると別の index が生成されてしまう • index の Reset で解決するはずだが、AI Search で検索すると 過去の誤ったチャンクが引っかかってしまう...(なんで?) ◦ とはいえ E2E で実行して問題ないので、問題ないのかも
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 まとめ ➔ Slack 上で問い合わせる
RAG を使った Bot を作った ◆ 実質ドキュメント検索システムとして作っている ➔ 回答に をつけてもらったり、E2E でリグレッションテスト を実施することで評価している ◆ 簡易な評価でもフィードバックサイクルを回すのに十分役立っている ➔ 課題としてコストや、特有のソース url の伝播や、index の reset に関するつまづきを紹介しました
#RAG_findy 現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策 Thank you for listening!
Takeshi Kondo (@chaspy) Director of Engineering StudySapuri K12 at Recruit Co., Ltd. 今日紹介した課題は LT 発表決まってか ら解決しました!LT 駆動進捗 chaspy chaspy_ https://chaspy.me