生成AIの活用パターンと継続的評価

生成 AIの活用パターンと継続的評価 Asei Sugiyama

自己紹介杉山阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google
Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑共著事例でわかる MLOps 共著決闘者 @ マスターデュエル

生成 AI の活用パターン生成 AI の活用パターン <- 生成 AI を活用する技術
LLMOps Citadel AI の取り組み

生成 AI の利用方法 1. フルスクラッチ 2. ファインチューン 3. モデルのホスティング 4.
API 利用

API 利用 API やサービスとして公開されているものをそのまま用いる試み Azure OpenAI Gemini (Google)
Amazon Bedrock Overview - OpenAI API https://platform.openai.com/docs/overview

API 利用の特徴訓練に必要なインフラがすべて必要ない推論に必要なインフラを自分で管理しなくて良いとくに推論用のアクセラレーターモデル選択の自由度もある程度高い
Amazon Bedrock Overview 【 Amazon Bedrock Series #01】【 AWS Black Belt】 https://youtu.be/b8uReUdJBfM?si=CHV2B3d0gVJ0VYvb

モデルのホスティング公開されているモデルをホストして利用する試み特徴既存の ML で必須だった、訓練に必要なインフラがすべて必要ない推論に必要なインフラの整備を楽にできる場合があるモデル選択の自由度は高い

ユースケース高セキュリティの要求される環境での利用 API 利用コストの低減バッチ処理 toC サービスでの高頻度な利用ローカルでの利用
Swallow https://swallow-llm.github.io/swallow-llama.ja.html

ファインチューン既存の言語モデルをベースとして独自のモデルを構築する試み特徴モデル選択の自由度が高い高品質なデータセットが必要訓練および推論用の基盤が必要知識獲得には向かない可能性 (後述 )

ユースケース比較的軽量な生成モデルによる UXの確保ククリ様 by Spiral.AI 独特なキャラクター性の獲得低いレイテンシーの実現ククリさま｜ SpiralAI
https://kukuri-sama.com/

データの作成方法「オズの魔法使い」パターンで作成ククリさまとは？｜ SpiralAI https://kukuri-sama.com/about

Finetune で独自ドメインの知識を与えるのは困難元のモデルが知識として持たないデータセットを構築し、ファインチューニングで意図的にそのような知識を獲得させようと訓練知らない知識を与えれば与えるほどハルシネーションを引き起こしやすくなるという結果
Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge
Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

フルスクラッチゼロからオリジナルのモデルを構築する試み LLM-jp: Preferred Elements (Preferred Networks): PLaMo 富士通
: Takane

特徴 GPU という確保が大変なリソースを大量に要求クラウドで実施する場合の多額のコスト大量のデータセットが必要訓練に必要なノウハウが不明瞭ハイパーパラメーターチューニング
: LLM-jp の事例 LLM-jp-3 172B alpha1, alpha2 の公開｜国立情報学研究所大規模言語モデル研究開発センター https://llmc.nii.ac.jp/topics/llm-jp-3-172b-alpha1-alpha2/

ユースケース研究開発・技術検証 : とくに、大規模なモデルを訓練する技術やデータセットの開発技術力のアピール著作権など権利関係の問題の解決

市場動向基本的には API 利用「訓練せずに使える AI」は今までの機械学習に必要な手間を大幅に削減する機械学習モデルの訓練について一切質問されなくなった

生成 AI の活用パターン生成 AI の活用パターン生成 AI を活用する技術 <-
LLMOps Citadel AI の取り組み

生成 AI を活用する技術考慮すべき課題基礎となる考え方プロンプトエンジニアリング few-shot learning RAG Notebook
LM & Gemini Chain of Thought (CoT)

考慮すべき課題カットオフ : 最新の知識の不足ドメイン特有の知識の不足特有のタスクに関する知識の不足コンテキストウィンドウ

基礎となる考え方「要約」というタスクの特殊性に注目生成 AI は訓練データにないデータを用いて文章を生成可能入力を工夫することで、モデルにない知識を用い
た対話が可能

プロンプトエンジニアリング入力文章を調整して、言語モデルを効率的に使おうとする手法群指示文を人が見たときにわかりやすくなるよう、明確に記述することが基本 (Zero-shot
learning) Prompt Engineering Guide | Prompt Engineering Guide https://www.promptingguide.ai/jp

few-shot learning 入力に数例、サンプルの出力を与えて精度を上げる試み正例のみではなく、負例を加えることも効果的論理的な推論にはあまり効果的ではない Few-Shotプロンプティング
| Prompt Engineering Guide https://www.promptingguide.ai/jp/techniques/fewshot

RAG (Retrieval-Augmented Generation) 検索と LLM を組み合わせることで、言語モデルの持たない外部知識を利用可能にする最新知識や専門知識を後
付で与える Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904

RAG の問題点検索と LLM という意図しない出力が得られる可能性のあるものを組み合わせている検索結果が正しいかどうかユーザーが確認するすべがない LLM は一度に入力できるトークンの数が制限されているため、参照するドキュメントが長大な場合、入力できる単位に分割しなければ
いけないものの、どのように分割すべきか不明瞭

Notebook LM & Gemini 検索と生成の分離参照すべきドキュメント全体を入力可能な、とても長いコンテキストウィンドウ

Chain of Thought (CoT) "ステップバイステップで考えてみましょう。 " と付け加えるテクニック中間結果を意図的に出力させ
ることで、推論性能が (なぜか ) 上がる LLM が意図しない出力を行った場合に、デバッグするための情報を与えてくれる Chain-of-Thoughtプロンプティング | Prompt Engineering Guide https://www.promptingguide.ai/jp/techniques/cot

生成 AI の活用パターン生成 AI の活用パターン生成 AI を活用する技術 LLMOps
<- Citadel AI の取り組み

LLMOps LLM を用いたシステムの難しさ既存の LLMOps は必ずしも役に立たない LLMOps 再考ユーザーテスト継続的評価
LLM-as-a-Judge Trace

LLM を用いたシステムの難しさ過去の MLOps に関するノウハウが通じにくい

LLM の評価はかなり難しい LLM は翻訳・要約・コード生成などさまざまな用途に使えるため、評価すべき能力の列挙が困難自然言語の評価はそもそも難しい機械学習による言語パフォーマンスの評価
- Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

LLM の評価はかなり難しい要約ひとつをとっても「良い要約」は組織ごとに異なる出力結果に対する評価観点をあらかじめ取り揃えることは非常に困難機械学習による言語パフォーマンスの評価 -
Speaker Deck https://speakerdeck.com/langstat/ji-jie-xue-xi-niyoruyan-yu- pahuomansunoping-jia

既存の LLMOps は必ずしも役に立たない LLMOps という名前のついたドキュメントはさまざまに公開されている LLM を訓練する前提となっ
ており、モデルを訓練しない現在の主流とは異なっている (右は数少ない例外 ) GenOps: マイクロサービスと従来の DevOps の世界から学ぶ | Google Cloud 公式ブログ https://cloud.google.com/blog/ja/products/devops-sre/genops- learnings-from-microservices-and-traditional-devops

LLMOps 再考 LLM を活用している方々にインタビュー実際の現場の課題や、解決方法を収集中収集したものから主なものを紹介

ユーザーテスト VUI (Voice User Interface) のような対話に基づくアプリケーションではユーザーテストが有名 LLM が対話を行う場合、
ユーザーテストは非常に有効 Cathy Pearl 著川本大功監訳高橋信夫訳デザイニング・ボイスユーザーインターフェース―音声で対話するサービスのためのデザイン原則オライリージャパン 2018 年

継続的評価評価観点を最初から取り揃えるのではなく、評価観点を評価を通じて育てていくという考え方評価を通じて明らかになった評価観点を新たに加えて、イテレーティブに評価を行う

LLM-as-a-Judge (1/2) プロンプトを用いて LLM に出力の良さを評価させる手法新たな評価観点が得られた場合、その評価観点に基づく評価方法の手順書を書くと、その観点に基
づく評価が LLM で可能 LLMによる LLMの評価「 LLM-as-a-Judge」入門〜基礎から運用まで徹底解説 https://zenn.dev/pharmax/articles/2d07bf0498e212

LLM-as-a-Judge (2/2) 主要なケースやエッジケースを few-shot に用いることは有用手順書自体を LLM 自体に
生成させることも有用 LLMによる LLMの評価「 LLM-as-a-Judge」入門〜基礎から運用まで徹底解説 https://zenn.dev/pharmax/articles/2d07bf0498e212

Trace RAG や Agent は検索や LLM を組み合わせて使うため、望ましくない結果が得られたときにその原因追及が困難
最終結果を生成するまでの途中で何が起きているのかを記録し、分析できるようにする LangSmith や Langfuse は Trace のための機能を実装している LangSmithによる LLMアプリケーションのトレーシング入門 https://zenn.dev/pharmax/articles/61edc477e4de17

生成 AI の活用パターン生成 AI の活用パターン生成 AI を活用する技術 LLMOps
Citadel AI の取り組み <-

Lens for LLMs のレポートの例

Lens for LLMs 組み込みの評価指標

継続的評価のサポート評価用のプロンプトを組んで評価指標をカスタマイズ可能 (LLM-as-a-Judge) 人手による評価結果と比較することで、作成したプロンプトの精度の確認が可能評価 →評価観点の修正 →評価
というフィードバックループを実行可能

まとめ生成 AI の活用パターンは 4通りにまとめられ、 API として利用することが一般的生成 AI
の活用においてプロンプトエンジニアリングは重要であり、さまざまなテクニックが知られている生成 AI の活用における課題が明らかになりつつあり、 LLMOps と呼ぶべきノウハウが集まりつつある LLMOps においては評価が重要であり、継続的に評価を行うことで満たすべき特性が徐々に明らかになる

生成AIの活用パターンと継続的評価

生成AIの活用パターンと継続的評価

More Decks by Asei Sugiyama

Other Decks in Technology

Featured

Transcript