Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Rise of LLMOps

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.
Avatar for Asei Sugiyama Asei Sugiyama
November 20, 2024

The Rise of LLMOps

第11回 Data-Centric AI勉強会 ~MLOps勉強会コラボ回~ / 第46回 MLOps 勉強会 の登壇資料です

Avatar for Asei Sugiyama

Asei Sugiyama

November 20, 2024
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. 自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google

    Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG mlops community 運営 機械学習図鑑 事例でわかる MLOps 共著 決闘者 @ マスターデュエル
  2. 機械学習システムの開 発における課題 前処理が難しい モデルの更新などの運用 が煩雑 機械学習チームの悲劇 西田 佳史, 遠藤 侑介,

    有賀 康顕 著 「n 月刊ラムダノート Vol.1, No.1(2019)」 ラムダノート株式会社 2019年 https://eiyo21.com/book/9784789554596/
  3. MLOps のベストプラク ティス 事例でわかる MLOps 技術・プロセス・文化 活用フェーズごとに整理 杉山 阿聖, 太田

    満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html
  4. 既存の LLMOps LLM の出現時に LLMOps というドキュメントが出 現した 既存の MLOps のプラクテ

    ィスを LLM に適用するも の LLMOps: What it is and how it works | Google Cloud https://cloud.google.com/discover/what-is-llmops?hl=en
  5. MLOps をベースに定義してしまった弊害 MLOps は CT (継続的な訓練) を中心とした継続的な改善 LLM の活用においては CT

    を前提とできない LLM の活用において MLOps の数々の取り組みが必ずしも通用しな い
  6. 継続的な訓練を前提と しない運用 Google Cloud, Databricks などのクラウドベンダー から訓練を前提としない ドキュメントが発表され 始めた LLMOps

    を再考するタイ ミングが訪れている GenOps: マイクロサービスと従来の DevOps の世界から学ぶ | Google Cloud 公式ブログ https://cloud.google.com/blog/ja/products/devops- sre/genops-learnings-from-microservices-and-traditional-devops
  7. 参考: LLMOps : ΔMLOps 出色の出来 LLMOps : ΔMLOps - Speaker

    Deck https://speakerdeck.com/shuntaito/llmops-dmlops
  8. 継続的改善 LLMOps における 継続的改善を定義 したい Explore Continuous Improvement - Training

    | Microsoft Learn https://learn.microsoft.com/en- us/training/modules/characterize-devops- continous-collaboration-improvement/3-explore- continuous-improvement
  9. RAG (Retrieval-Augmented Generation) 検索と LLM を組み合わせ ることで、言語モデルの 持たない外部知識を利用 可能にする 最新知識や専門知識を後

    付で与える Gekhman, Zorik, et al. "Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?." arXiv preprint arXiv:2405.05904 (2024). https://arxiv.org/abs/2405.05904
  10. Notebook LM & Gemini 検索と生成の分離 参照すべきドキュメント 全体を入力可能な、とて も長いコンテキストウィ ンドウ Gemini

    1.5 のロングコンテキストを活かして AI を育てるアプローチ 〜 RAG の限界を軽やかに突破するために https://zenn.dev/google_cloud_jp/articles/598d52341cc56f
  11. プロンプトエンジニアリング 入力文章を調整して、言語モ デルを効率的に使おうとする 手法群 指示文を人が見たときにわか りやすくなるよう、明確に記 述することが基本 Gemini の記事が参考になる CoT

    (Chain of Thought) などの テクニックもある Gemini から欲しい回答を引き出すプロンプト術|Gemini - Google の AI https://note.com/google_gemini/n/n60a9c426694e
  12. LLM-as-a-Judge (1/2) プロンプトを用いて LLM に出力の良さを評価させ る手法 新たな評価観点が得られ た場合、その評価観点に 基づく評価方法の手順書 を書くと、その観点に基

    づく評価が LLM で可能 LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解 説 https://zenn.dev/pharmax/articles/2d07bf0498e212
  13. LLM-as-a-Judge (2/2) 主要なケースやエッジケ ースを few-shot に用いる ことは有用 手順書自体を LLM 自体に

    生成させることも有用 LLMによるLLMの評価「LLM-as-a-Judge」入門〜基礎から運用まで徹底解 説 https://zenn.dev/pharmax/articles/2d07bf0498e212
  14. ユーザーテスト VUI (Voice User Interface) のような 対話に基づくアプリケーションで はユーザーテストが有名 LLM が対話を行う場合、ユーザー

    テストは非常に有効 Cathy Pearl 著 川本 大功 監訳 高橋 信夫 訳 デザイニング・ボイスユーザーインターフェース ― 音声で対話するサービスのためのデザイン原則 オライリージャパン 2018 年
  15. トレース RAG や Agent は検索や LLM を組 み合わせて使うため、望ましくな い結果が得られたときにその原因 追及が困難

    最終結果を生成するまでの途中で 何が起きているのかを記録し、分 析できるようにする LangSmith や Langfuse は Trace の ための機能を実装している LangSmithによるLLMアプリケーションのトレーシング入門 https://zenn.dev/pharmax/articles/61edc477e4de17
  16. 事例共有会 新しい技術は導入しただ けでは広まらない 事例共有を行い、有効な 事例を展開するのが効果 的 杉山 阿聖, 太田 満久,

    久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html
  17. 学習する文化 新しい技術であり、革新 の早い技術なので、専門 的な知識を習得してから 活用するのは困難 利用を通じて技術につい て知識を得ていくほうが 現実的 「やってみなはれ」 杉山

    阿聖, 太田 満久, 久井 裕貴 編著 「事例でわかるMLOps 機械学習の成果 をスケールさせる処方箋」 講談社 2024年 https://www.kspub.co.jp/book/detail/5369562.html
  18. セキュリティ OWASP や公的な機関から LLM に関するセキュリテ ィについてのドキュメン トが公開されている 単に利用する場合はかな り考慮事項が減る OWASP

    Dramatically Expands GenAI Security Guidance with Guides for Handling DeepFakes, Building an Ai Security Center of Excellence, and a Gen AI Security Solutions Guide. - OWASP Top 10 for LLM & Generative AI Security https://genai.owasp.org/2024/10/28/owasp-dramatically-expands- genai-security-guidance-with-guides-for-handling-deepfakes-building-an- ai-security-center-of-excellence-and-a-gen-ai-security-solutions-guide/
  19. Red Teaming MLOps では「信頼できる人にシス テムを攻撃してもらえ」と言われ ていたプラクティス 複数の機関から Red Teaming のた

    めのドキュメントが公開されてい る AIセーフティに関するレッドチーミング手法ガイドの公開 - AISI Japan https://aisi.go.jp/effort/effort_information/240925/
  20. AI ガバナンス ステークホルダーに適切な情報を 適切に提供するための体制づくり 複数の機関からドキュメントが公 開されているものの、詳細は未定 義 利用を限定的に認めてから詳細を 検討する組織のほうが活用が進ん でいる

    (私見) 【AIガバナンス実装WG】 「AIガバナンスの実装状況に関するワーキングペーパー」を公表 | AI Governance Association https://www.ai-governance.jp/blog/implement-wp-240807
  21. まとめ LLM を実際に活用している現場では共通の課題・解決策が独立に発 見されており、初期に定義してしまった LLMOps を見直す段階に来 ている LLM の活用においては Eval-Centric

    (評価中心) の方法論が必要 応用上は評価が困難であり、継続的な評価を通じて必要な品質評価 の観点を徐々に明確化するのが現実的