Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Cloud Next '23 から考える LLMOps

Asei Sugiyama
November 09, 2023

Cloud Next '23 から考える LLMOps

Google Cloud Next '23 Recap - Warming up for Tokyo に登壇した際の資料です https://cyberagent.connpass.com/event/300976/

LLM を運用する上での課題と、Cloud Next '23 で確認してきた最新の取組状況について共有しています。

Asei Sugiyama

November 09, 2023
Tweet

More Decks by Asei Sugiyama

Other Decks in Technology

Transcript

  1. 自己紹介 杉山 阿聖 (@K_Ryuichirou) Software Engineer @ Citadel AI Google

    Cloud Innovators Champion @ Cloud AI/ML MLSE 機械学習オペレーション WG 機械学習図鑑 共著
  2. RAG (1/2) 検索と LLM を組み合わせるアプ リケーションのアーキテクチャ 検索結果をユーザーの問い合わ せに加えて LLM にわたす

    「学習せずに知識をモデルに与 える」という発明 Google Cloud で生成 AI アプリケーションを作ろう!パート 7 : 複数サービスの組み合わ せ技で実用的なアプリを作る https://zenn.dev/google_cloud_jp/articles/generative- retrieval-augmented-generation
  3. データの用意 データの用意が非常に大変 大規模な言語資源: 地球上のすべての 言語資源を集めている 高品質な対話データ: 基本的には Q&A で、数千対話程度が必要、一問 一答形式ではダメ

    高品質な評価用データ: 多様なタスク を評価するためのデータが必要 ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編 https://zenn.dev/elyza/articles/5e7d9373c32a98
  4. モデルのサービング 自分でモデルをサービング するのはとても大変 学習用の GPU と推論用の GPU は大きく特性が違う (VRAM の量やレイテンシ、

    価格) LLM は推論用の GPU に乗 らない GPU platforms | Compute Engine Documentation | Google Cloud https://cloud.google.com/compute/docs/gpus#general_comparison_chart
  5. モデルのサービング API の利用が第一選択 計算資源の利用量や内部の処理 時間は監視の対象外 応答時間やエラー、課金額を監 視することになりそう API や SDK

    は頻繁に更新されて おり、Stable とは言い難い v1.0.0 Beta · openai/openai-python · Discussion #631 · GitHub https://github.com/openai/openai-python/discussions/631#discussioncomment- 7191589
  6. 「LLM に対応している」 データベースであれば、ベクトルデータベースに対応していると誰もが 言う (e.g. PostgreSQL, MongoDB) モニタリング基盤であれば、LLM の API

    の監視に対応していると誰もが 言う 一般の SaaS ツールでも生成モデルに対応していると誰もが言う 評価について、ベストプラクティスやツールを提供しているところはほ ぼない