Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI Foundry Evaluation & Control model-deployment

AI Foundry Evaluation & Control model-deployment

Presentation at Tokyo JAZUG Night #33 held on March 25, 2025.
https://jazug.connpass.com/event/346415/

More Decks by Yuji Masaoka | まっぴぃ

Other Decks in Technology

Transcript

  1. Evaluation type Azure OpenAI Evaluation • AOAI で提供される LLM の性能を

    評価 (要は Fine-Tuning) • 対象のモデルの精度、信頼性、パ フォーマンスを測定 • 入出力のペアをテストして、モデ ルが期待通りの結果を生成するか を確認 Azure AI Foundry Evaluation • LLM アプリケーション全体の開発 /テスト/デプロイ/運用を支援する プラットフォーム • モデル単体の評価だけでなく、プ ロンプトやシステムメッセージを 含むアプリ全体としての評価 • Quality や Safety といった指標を 使用してモデルの性能を多角的に 評価 今日の内容
  2. Before create AI app AI アプリの開発をする前に、認識しておくとよいこと 聞きたいことを返してくれない時 1. 違うモデルを試してみる 2.

    シンプルなプロンプトで試してみる 3. 要素を追加していく (RAG やプロンプト改良 etc.) Retrieval するときは、いきなり AI Search 使わない 以下の 2 点は観点が異なるので、一緒に考えない • 欲しい情報が取得できているかどうか • ユーザーへの理想的な回答ができているかどうか ex. PC での復旧方法を音声でユーザーに回答する場合 →欲しい回答を取得できても、一度に全部説明させるのは NG ユーザーへの回答はステップを踏んで行う方が better これを踏まえて開発や評価をしていくと better
  3. Before evaluate AI app AI アプリの評価をする際に、認識しておくとよいこと どういう風に評価をすれば良いかわからない 1. 正直、評価メトリックの基準は決め打ち 2.

    最初に決めた基準に沿って評価を行っていき、順次修正するならする (ただ、基準を安易には変えないこと) 3. 本来のアプリの目的を忘れない 評価のための Q と A はどうすればいい? 評価の軸は、答えて欲しい答えに答えてくれているか →本来期待する Q と A が絶対にあるはず →Q も A もわかっていないのになんかやってみたら出来てしまう=良くない 性能ってどう測ればいいの? AI アプリの性能は、「答えて欲しい内容に答えてくれているか」 →秒数とかではない (Wait の時間のハンドリングは如何様にもできる) PoC から本番展開するにあたっても重要なポイントでもある
  4. エ ン タ ー プ ラ イ ズ GenAIOps ラ

    イ フ サ イ ク ル の 図 、 モ デ ル 選 択 の 表 示 、 AI ア プ リ ケ ー シ ョ ン の 構 築 、 運 用 化 。
  5. Manual Evaluation • 生成 AI が生成した回答を サムズアップ/サムズダウン • プロンプトの内容を評価する •

    GPT 3.5 / GPT 4 / Davinci のいずれかのみ評価 • CSV または jsonl 形式のテストデータセット • 最大 50 個の入力内容のテストが可能 https://learn.microsoft.com/azure/ai-studio/how-to/evaluate-prompts- playground?source=recommendations
  6. Auto Evaluation • AI モデルやアプリケーションに実データセットを適用した際のパフォーマ ンスを評価するプロセス • 指定のデータセットでテストを行い、その結果 (パフォーマンス) について

    のメトリックを測定して性能を判断 • 自動評価は以下より作成可能、SDKを使うこともできる • 評価ページ • モデルカタログページ • プロンプトフローページ • 評価ページから評価を始める際は、最初に以下の評価対象を決定する必要 がある • モデルとプロンプト • データセット • プロンプトフロー • 評価のメトリックとしては、以下が存在 • AI 品質 (AI 支援) • AI 品質 (NLP) • リスクと安全性 https://learn.microsoft.com/azure/ai-studio/how-to/evaluate-generative-ai-app
  7. Local Evaluation • Azure AI Evaluation SDK https://learn.microsoft.com/en-us/azure/ai-foundry/how- to/develop/evaluate-sdk •

    利用したい評価メトリックを選択して、独自の評価ロジックを回すことも 可能(Apache Airflow とか) • チュートリアルとして MS の Ken さんが紹介をしてくれてます https://github.com/kenakamu/AOAI_Eval https://learn.microsoft.com/azure/ai-studio/how-to/evaluate-generative-ai-app
  8. Query Context Ground-Truth Generated Answer / response Quality Groundedness "根拠性"

    1-5 Retrieval "取得" 1-5 Relevance "関連性" 1-5 Groundedness Pro ”Groundedness Pro” False/True 省略可 必須 不要 必須 必須 必須 不要 必須 必須 必須 不要 不要 必須 必須 不要 不要 Evaluation & Metric & Input https://learn.microsoft.com/en-us/azure/ai- foundry/how-to/develop/evaluate-sdk#data- requirements-for-built-in-evaluators
  9. Query Context Ground-Truth Generated Answer / response Coherence "一貫性" 1-5

    Similarity "類似性" 1-5 F1 Score "F1 スコア" 浮動 [0-1] (高いほど高品質を意味) Fluency ”流暢性” 1-5 不要 必須 不要 必須 必須 必須 不要 必須 不要 不要 不要 不要 必須 必須 必須 不要 Quality Evaluation & Metric & Input https://learn.microsoft.com/en-us/azure/ai- foundry/how-to/develop/evaluate-sdk#data- requirements-for-built-in-evaluators
  10. Query Context Ground-Truth Generated Answer / response BLEU Score "BLEU

    スコア" 浮動 [0-1] (高いほど高品質を意味) GLEU Score "GLEU スコア" 浮動 [0-1] (高いほど高品質を意味) METEOR Score "METEOR スコア" 浮動 [0-1] (高いほど高品質を意味) ROUGE Score ”ROUGE スコア” 浮動 [0-1] (高いほど高品質を意味) 必須 不要 必須 不要 必須 不要 必須 不要 必須 不要 必須 不要 必須 不要 必須 不要 Quality Evaluation & Metric & Input https://learn.microsoft.com/en-us/azure/ai- foundry/how-to/develop/evaluate-sdk#data- requirements-for-built-in-evaluators
  11. Query Context Ground-Truth Generated Answer / response Risk & Safety

    Violence "暴力的" 0-7 SelfHarm "自傷行為" 0-7 HateUnfairness "ヘイトフルで不公平" 0-7 Sexual ”性的” 0-7 必須 不要 必須 不要 必須 不要 必須 不要 必須 不要 必須 不要 必須 不要 必須 不要 Evaluation & Metric & Input https://learn.microsoft.com/en-us/azure/ai- foundry/how-to/develop/evaluate-sdk#data- requirements-for-built-in-evaluators
  12. Query Context Ground-Truth Generated Answer / response Risk & Safety

    IndirectAttack "間接攻撃" False/True ContentSafety "脱獄の脆弱性の定義とラベル" False/True ProtectedMaterial ”保護されたマテリアル” False/True 必須 不要 必須 必須 不要 必須 必須 不要 必須 不要 必須 不要 必須 必須 必須 不要 QA "question-answer" Evaluation & Metric & Input https://learn.microsoft.com/en-us/azure/ai- foundry/how-to/develop/evaluate-sdk#data- requirements-for-built-in-evaluators
  13. Conclusion • 企業で AI モデルを利用する場合は、各種法令やコンプライアンス/ガバナ ンスに沿って許可したモデル利用を推進するのが望ましい • Azure Policy のイニシアチブ/ポリシーを使って、適切な基盤管理をする

    • AI アプリの評価には、組み込みの評価メトリックがある • 評価に際しては、いきなり始めない(QとAをしっかり考える) • Azure AI Evaluation SDK はさまざまなメトリックがあるので、しっかり評 価内容を決めた上で活用すると良い