Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AzureのPrompt Flowを使ったRAG精度評価とつらみ
Search
id32h6kz
July 11, 2024
Technology
3
5.4k
AzureのPrompt Flowを使ったRAG精度評価とつらみ
現場で実践!RAG活用術 Lunch LT ― 運用して分かった"つらみ"とその対策
https://findy.connpass.com/event/323129/
id32h6kz
July 11, 2024
Tweet
Share
Other Decks in Technology
See All in Technology
re:Inventで気になったサービスを10分でいけるところまでお話しします
yama3133
1
120
re:Invent 2025 ~何をする者であり、どこへいくのか~
tetutetu214
0
220
re:Invent2025 コンテナ系アップデート振り返り(+CloudWatchログのアップデート紹介)
masukawa
0
370
regrowth_tokyo_2025_securityagent
hiashisan
0
250
RAG/Agent開発のアップデートまとめ
taka0709
0
180
AIプラットフォームにおけるMLflowの利用について
lycorptech_jp
PRO
1
160
AWS re:Invent 2025で見たGrafana最新機能の紹介
hamadakoji
0
390
チーリンについて
hirotomotaguchi
6
2k
WordPress は終わったのか ~今のWordPress の制作手法ってなにがあんねん?~ / Is WordPress Over? How We Build with WordPress Today
tbshiki
1
780
Reinforcement Fine-tuning 基礎〜実践まで
ch6noota
0
190
品質のための共通認識
kakehashi
PRO
3
260
コミューンのデータ分析AIエージェント「Community Sage」の紹介
fufufukakaka
0
500
Featured
See All Featured
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.3k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
390
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
GitHub's CSS Performance
jonrohan
1032
470k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
710
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Transcript
AzureͷPrompt FlowΛͬͨ RAGਫ਼ධՁͱͭΒΈ KDDI ΞδϟΠϧ։ൃηϯλʔ גࣜձࣾ 2024.07.11 Findy Lunch LT
ࣗݾհ • ͍ͰΈͭ • KDDI ΞδϟΠϧ։ൃηϯλʔ גࣜձࣾ • ۀɿੜAIΛར༻ͨ͠ΞϓϦέʔγϣϯ։ൃ •
͖ͳAzureαʔϏεɿDocument Intelligence
͓͠ͳ͕͖ • ͡Ίʹ • ΞʔΩςΫνϟհ • ࠓ͍͑ͨ͜ͱ • Prompt FlowͱRAGASͷհ
• ·ͱΊ
͡Ίʹ • ༷ʑͳυΩϡϝϯτΛRAGͱͯ͠ੜAIʹճͤ͞ΔαʔϏε • ·ͩ։ൃதͷͨΊɺϦϦʔε͍ͯ͠·ͤΜ • ਫ਼্ͦͷͷ·ͩ·ͩࡧத
ࠓճLTͷϕʔεͱͳΔγεςϜͷ ؆୯ͳΞʔΩςΫνϟհ ར༻ऀ υΩϡϝϯτ Azure App Service Document Intelligence AI
Search gpt-4o ᶃ ᶄ ᶅ ᶆ
ຊ͍͑ͨ͜ͱ
RAGͷਫ਼্ͬͯେมʂ
Ҋ͕݅ελʔτͨ͠λΠϛϯάͰPOͷํʹ ͜͏ݴΘΕ·ͨ͠
ࠓ·ͩճਫ਼͕͍
ճਫ਼80%Λࢦ͔͢Β
ࣗ༝ʹೖྗ͢Δ͜ͱͷͰ͖Δɺνϟοτ ϘοτͰճਫ਼80%ͬͯͲ͏͍͏͜ͱʁ
ͦͦճਫ਼͕ߴ͍/͍ͱײ͡Δͷ ײ֮ͳͷͰɺ࣮ࡍͲΕ͘Β͍ͳͷ͔ΛՄࢹ Խ͍ͨ͠
ͦ͜Ͱ·ͣਫ਼ධՁʹ͍ͭͯͲ͏͢Δ͖ ͔ݕ౼͠·ͨ͠
ਫ਼ධՁͷඞཁੑ • ճਫ਼ͷՄࢹԽ • ࠓޙͷվળͷࢦ • վળͷޮՌݕূ
ਫ਼ධՁͷओͳख๏ • खಈධՁ(ਓ͕ؒߦ͏ධՁ) • γεςϜʹରͯ͠QΛ͛ɺAͷྑ͠ѱ͠Λਓ͕ؒஅ͢Δ • ࣗಈධՁ(LLMͳͲ͕ߦ͏ධՁ) • γεςϜʹରͯ͠QΛ͛ɺAͷྑ͠ѱ͠ΛLLM͕அ͢Δ
ਫ਼ධՁͷओͳख๏ • खಈධՁ(ਓ͕ؒߦ͏ධՁ) • γεςϜʹରͯ͠QΛ͛ɺAͷྑ͠ѱ͠Λਓ͕ؒஅ͢Δ • ࣗಈධՁ(LLMͳͲ͕ߦ͏ධՁ) • γεςϜʹରͯ͠QΛ͛ɺAͷྑ͠ѱ͠ΛLLM͕அ͢Δ
ਫ਼ධՁʹ͑ͦ͏ͳαʔϏε • Prompt Flow • 🦜⚒LangSmith • LangFuse
ਫ਼ධՁʹ͑ͦ͏ͳαʔϏε • Prompt Flow • 🦜⚒LangSmith • LangFuse
Prompt Flowͷ֓ཁ • LLMΛ׆༻ͨ͠ΞϓϦέʔγϣϯͷ։ൃޮԽΛਤΔͨΊͷαʔ Ϗε • ࣭͔Βճ·ͰͷҰ࿈ͷFlowΛઃఆ࣮͠ߦ͢Δ͜ͱ͕Ͱ͖Δ • ֤FlowLLMΛͬͨςΩετੜϓϩϯϓτ࡞ɺPython ͷ࣮ߦ͕Մೳͱͳ͓ͬͯΓɺ͜ΕΒΛΈ߹Θͤͯશମͷϑϩʔ
Λ࡞͢Δ
Prompt FlowΛબΜͩཧ༝ • AzureΛར༻͍ͯͨͨ͠Ίɺಋೖϋʔυϧ͕͍ • RAGͷධՁ͚ͩͰͳ͘։ൃͷࣄલݕূʹར༻͢Δ͜ͱ͕Ͱ͖ Δ(promptΛमਖ਼͓ͯ͠ࢼ͠)
RAGASͱ • PythonͰ࡞ΒΕͨRAGධՁ༻ϑϨʔϜϫʔΫɺPrompt FlowʹΈࠐΉ͜ͱ͕Մೳ • 9ͭͷϝτϦΫεͰճΛධՁ͢Δ͜ͱ͕Մೳ • https://docs.ragas.io/en/stable/concepts/metrics/index.html
࣮ࡍʹPrompt FlowͱRAGASΛͬͯධ ՁΛͲͷΑ͏ʹߦ͏͔
Prompt FlowͱRAGASͷհ ඪ४ϑϩʔ(ΞϓϦέʔγϣϯΛ࠶ݱͨ͠ϑϩʔ)
Prompt FlowͱRAGASͷհ ධՁϑϩʔ(RAGASݺͿϑϩʔ)
Prompt FlowͱRAGASͷհ RAGASͷධՁ݁Ռ
Prompt FlowͱRAGASͷհ RAGASͷධՁ݁Ռ ճͷਖ਼֬͞ ίϯςΩετʹର͢Δճͷ࣮ ਖ਼ͱίϯςΩετͷؔ࿈ ࣭ٴͼਖ਼ʹର͢ΔίϯςΩετͷਫ਼
Prompt FlowͱRAGASΛ ͬͯྑ͔ͬͨ͜ͱ • ϒϥβ͔Β৮ΕΔͨΊɺΤϯδχΞ͚ͩͰͳ͘PO৮ΕΔ • ճਫ਼্ͷͨΊͷࢪࡦ͕ຊʹޮՌ͕͋ͬͨͷ͔Λ֬ೝ͢ Δ͜ͱ͕Ͱ͖Δ
Prompt Flow࠷ߴʂ
PO৮ͬͯ͘Εͯɺධ͍͍ʂ
Ͱʂ
Prompt Flowͷ͕ͭ͜͜Β͍ʂ • Prompt Flowͷιʔεߋ৽͕େม • ࣮ࡍͷΞϓϦέʔγϣϯͱPrompt Flowͷίʔυผ • ैྔ՝ۚͳͷͰɺىಈ͍͕ͨ͠VMͷىಈʹඇৗʹ͕࣌ؒ
͔͔Δ(5Ҏ্)
ͦΜͳதɺଟ͘ͷ՝
Visual Studio Codeͷ֦ுػೳPrompt Flow CLI toolΛ͏ͱղফͰ͖Δ
None
ͦͷଞͷ՝ • RAGASͰධՁ͢ΔͨΊͷQAσʔλͷ࡞͕͍͠ • ݱঢ়QAͷࣗಈੜ͋·Γਫ਼͕ग़ͳ͔ͬͨͨΊਓͷखͰ࡞ ͍ͯ͠Δɻ • େྔʹ࡞Δʹ͕͔͔࣌ؒΔͨΊɺܧଓతʹՃ͢Δӡ༻͕ ྑͦ͞͏
কདྷతʹࢦ͍ͨ͜͠ͱ • Prompt FlowͱGithub Actionsͷ࿈ܞ • LangFuseΛར༻ͨ͠feedbackऔಘ • ධՁ༻ͷQAσʔλΛ࡞͢Δͷݮ
·ͱΊ • RAGͷਫ਼্ʹධՁ͕ෆՄܽ • खಈͰͷධՁݱ࣮తͰͳ͘ɺͱͯେม • RAGճਫ਼ΛධՁ͢Δ͜ͱͰɺରࡦΛߟ͑Δ͜ͱ͕Ͱ͖Δ • ఆظతʹධՁΛ͢Δ͜ͱͰɺߦͳ͍ͬͯΔࢪࡦͷޮՌΛଌఆ͢Δ͜ͱ͕Ͱ͖ Δ
• QAϦετͷ࡞ʹ͕͔͔࣌ؒΔͷͰɺલͬͯ࣌ؒΛઃ͚࡞͢Δͷ͕ྑ͍
͋Γ͕ͱ͏͍͟͝·ͨ͠