Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIの活用パターンと継続的評価

 生成AIの活用パターンと継続的評価

生成AIの品質保証〜出力結果の信頼性を確保〜 での登壇資料です、LLM の活用パターンと継続的な評価を中心とした活用のためのプラクティスを述べています

https://findy.connpass.com/event/330983/

Asei Sugiyama

October 22, 2024
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. 自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google

    Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著 事例でわかる MLOps 共著 決闘者 @ マスターデュエル
  2. Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge

    Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904
  3. 特徴 GPU という確保が大変なリソース を大量に要求 クラウドで実施する場合の多額の コスト 大量のデータセットが必要 訓練に必要なノウハウが不明瞭 ハイパーパラメーターチューニン グ

    : LLM-jp の事例 LLM-jp-3 172B alpha1, alpha2 の公開 | 国立情報学研究所 大規模言語モデル研究開発セン ター https://llmc.nii.ac.jp/topics/llm-jp-3-172b-alpha1-alpha2/
  4. RAG (Retrieval-Augmented Generation) 検索と LLM を組み合わせ ることで、言語モデルの 持たない外部知識を利用 可能にする 最新知識や専門知識を後

    付で与える Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904
  5. Chain of Thought (CoT) "ステップバイステップで考え てみましょう。 " と付け加える テクニック 中間結果を意図的に出力させ

    ることで、推論性能が (なぜ か ) 上がる LLM が意図しない出力を行っ た場合に、デバッグするため の情報を与えてくれる Chain-of-Thoughtプロンプティング | Prompt Engineering Guide https://www.promptingguide.ai/jp/techniques/cot
  6. 既存の LLMOps は必ずしも 役に立たない LLMOps という名前のつい たドキュメントはさまざま に公開されている LLM を訓練する前提となっ

    ており、モデルを訓練しな い現在の主流とは異なって いる (右は数少ない例外 ) GenOps: マイクロサービスと従来の DevOps の世界から学ぶ | Google Cloud 公 式ブログ https://cloud.google.com/blog/ja/products/devops-sre/genops- learnings-from-microservices-and-traditional-devops
  7. ユーザーテスト VUI (Voice User Interface) のような対話に基づくア プリケーションではユー ザーテストが有名 LLM が対話を行う場合、

    ユーザーテストは非常に 有効 Cathy Pearl 著 川本 大功 監訳 高橋 信夫 訳 デザイニング・ボイスユーザー インターフェース―音声で対話するサービスのためのデザイン原則 オライ リージャパン 2018 年
  8. LLM-as-a-Judge (1/2) プロンプトを用いて LLM に出力の良さを評価させ る手法 新たな評価観点が得られ た場合、その評価観点に 基づく評価方法の手順書 を書くと、その観点に基

    づく評価が LLM で可能 LLMによる LLMの評価「 LLM-as-a-Judge」入門〜基礎から運用まで徹底解 説 https://zenn.dev/pharmax/articles/2d07bf0498e212
  9. LLM-as-a-Judge (2/2) 主要なケースやエッジケ ースを few-shot に用いる ことは有用 手順書自体を LLM 自体に

    生成させることも有用 LLMによる LLMの評価「 LLM-as-a-Judge」入門〜基礎から運用まで徹底解 説 https://zenn.dev/pharmax/articles/2d07bf0498e212
  10. Trace RAG や Agent は検索や LLM を組 み合わせて使うため、望ましくな い結果が得られたときにその原因 追及が困難

    最終結果を生成するまでの途中で 何が起きているのかを記録し、分 析できるようにする LangSmith や Langfuse は Trace の ための機能を実装している LangSmithによる LLMアプリケーションのトレーシング入門 https://zenn.dev/pharmax/articles/61edc477e4de17
  11. まとめ 生成 AI の活用パターンは 4通りにまとめられ、 API として利用する ことが一般的 生成 AI

    の活用においてプロンプトエンジニアリングは重要であ り、さまざまなテクニックが知られている 生成 AI の活用における課題が明らかになりつつあり、 LLMOps と 呼ぶべきノウハウが集まりつつある LLMOps においては評価が重要であり、継続的に評価を行うことで 満たすべき特性が徐々に明らかになる