Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMOpsのためのCICD環境構築

Keisuke Kamata
September 01, 2023

 LLMOpsのためのCICD環境構築

2023/08/31に実施したwandb monthly webinar "LLMOpsのためのCI_CD環境構築"で使用した資料です

Keisuke Kamata

September 01, 2023
Tweet

More Decks by Keisuke Kamata

Other Decks in Technology

Transcript

  1. 1

  2. Team Background | チームの出身会社 Lukas Biewald, CEO Co-Founder & CEO

    Figure Eight, Powerset, OpenAI Chris Van Pelt, CISO Co-Founder & CISO Figure Eight, Powerset Shawn Lewis, CTO Co-Founder & CTO Beep, Google • OpenAI • Google • Waymo • Microsoft • DataRobot • Stanford • Harvard • Berkeley • Twitter • Databricks Figure Eight (acquired by Appen) • Meta • Github • Domino • JP Morgan • Alteryx $200m in Funding | $200Mを超える資金調達 Angels & Advisors | アドバイザー Richard Socher — Chief Scientist, Salesforce Greg Brockman — CTO, OpenAI Nat Friedman — CEO, GitHub Tom Preston-Werner — Founder, GitHub Anthony Goldbloom — Founder and CEO, Kaggle Vladlen Koltun — Chief Scientist, Intel W&Bは2017年にSFで創業
  3. TRIではコンピュータビジョンを使って 完全自動運転車の開発を進めてい ます 「W&Bは早いペースで最先端の開発 を大規模に行うチームにはなくては ならないインフラです。」 Adrien Gaidon Toyota Research

    Institute OpenAIは深層学習と自然言語処理を 使って、超高性能なチャットボットを開 発しています 「W&Bは、一人の研究者のインサイトを チームに波及させ、一台のマシンに閉 じ込めず、何千台にスケールさせること ができます。」 WOJCIECH ZAREMBA Co-founder of OpenAI Genentechは深層学習を使って感染 病に有効な新しい抗生物質を 探しています 「W&Bのおかげで、私たちは意味の ある科学研究により多くの時間を費 やすことができます。」 Stephen Ra Machine Learning Lead 世界をリードするMLチームが私たちのお客様です
  4. ハイテク HPC 最先端のAI開発企業 - 大規模言語モデル( LLM)・生成系AI ゲーム ヘルスケア・ライフサイエンス 金融 メディア

    小売・流通 製造・自動運転 Confidential あらゆるインダストリーのMLOps Best practice toolに
  5. データ収集 探索的解析 データ準備 モデリング・ チューニング 結果の共有と 評価 モデル・サービス 監視 異常・ドリフト

    検知 ビジネス評価 モニタリング データサイ エンティスト MLエンジニア プロダクト マネージャー プロダクト マネージャー データ エンジニア システム実装 結合テスト サービスイン システム エンジニア MLOps エンジニア 推論API実装 リスク評価 モデルリリース 評価・デプロイメント サーバー エンジニア プロダクト マネージャー 監査担当 モデル開発 監査担当 バージョン管理と継続開発 モデルライフサイクルを支えるWeights & Biases Tables Sweeps Artifacts Experiments Reports Prompt Launch Models Weave Monitoring Automation
  6. Wandb Report Challenge🏆!! 1 2 記事をFully ConnectedのReportで作成 #report-shareに作成したReportをshare! @hereとmentionをつけてください •

    素晴らしいreportはwandb fully connectedのオ フィシャルページにも投稿! • 素晴らしいreportを書かれた方を、年に1度(今年 は年末を予定) Fully Connected Report Championとして 表彰し、豪華なスワッグをプレゼントします ※ 投稿量だけではなく、中身も重視します 応募方法
  7. LLMアプリケーション開発フロー データ準備 アーキテクチャ構築 基盤モデルの構築 特定タスクへのファインチューニング LLMチェインの構築・プロンプトエンジニアリング • データ収集 • データクレンジング

    • トークン化 モデリング • モデルのアーキテクチャ 開発 • 少数パラメーターでの実 験 • 並列化処理 • ハイパーパラメータ探索 データ準備 基盤モデルの選択 • データ収集 • データクレンジング • トークン化 • 対象タスクで性能評価 • モデルのサイズ決定 • ライセンス・コスト確認 ファインチューニング • 並列化処理 • ハイパーパラメータ探索 • インストラクショチューニン グ • 報酬関数構築と強化学習 データ準備 デプロイ・とインテグ レーション • 独自データの集約 • データクレンジング • ベクトルDBの作成 • LLMチェインの構築 • プロンプトエンジニアリン グ • 品質・脆弱性評価 • 推論APIの実装 • リスク評価 • モデルリリース • システム・アプリケーショ ンの実装 • 結合テスト • サービスイン モニタリングと 継続的な開発 • モデル・サービス監視 • フィードバック収集 • データ解析・異常検知 • ビジネス評価 • 継続的なモデルの更新 アプリケーション構築 開発の方針決定 • コスト • 開発時間 • 計算リソース • 開発基盤 • 人的リソース・専門性 • ライセンス • リスク • 精度 • 再現可能性、など どこから開始するのかを決 定する LLMチェインの設計 • LLMチェインの設計 • モデルの選択 • 評価系の構築 プロダクション 1 2 3 1 2 3
  8. モデルの抽象度と評価方法 汎用的タスク ダウンストリーム タスク 基盤モデル • Val_Loss • 評価タスク •

    資格試験・入試 • Model Base • Human データ準備 アーキテクチャ構築 基盤モデルの構築 特定タスクへのファインチューニング 独自データからの知識統合 • データ収集 • データクレンジング • トークン化 モデリング • モデルのアーキテクチャ 開発 • 少数パラメーターでの実 験 • 並列化処理 • ハイパーパラメータ探索 データ準備 基盤モデルの選択 • データ収集 • データクレンジング • トークン化 • 対象タスクで性能評価 • モデルのサイズ決定 • ライセンス・コスト確認 ファインチューニング • 並列化処理 • ハイパーパラメータ探索 • インストラクショチューニン グ • 報酬関数構築と強化学習 データ準備 • 独自データの集約 • データクレンジング • ベクトルDBの作成 • LLMチェインの構築 • プロンプトエンジニアリン グ • 品質・脆弱性評価 アプリケーション構築 LLMチェインの設計 • LLMチェインの設計 • モデルの選択 • 評価系の構築 1 2 3
  9. PaLM 2 Technical Reportの評価データセット例 分類 (PaLM 2 TR*より) 評価データセット 言語能力テスト

    • Chinese: HSK • Japanese: J-Test • Common European Framework of Reference for Languages • … 分類 & QA • MMLU • DROP • TriviaQA • Natural Questions • Web Quesitons • LAMBADA • StoryCloze • Winograd • SQuAD v2 • RACE • PIQA • OpenBookQA • SuperGLUE • ANLI • TyDi QA 推論 • HellaSwag • AI2 Reasoning Challenge • WinoGrande • GSM-8K • StrategyQA • • CommonsenseQA • XCOPA • BIG-Bench Hard • MATH • MGSM コーディング • HumanEval • MBPP • ARCADE 翻訳 • WMT 2021 • FRMT 自然言語生成 • XLSum • WikiLingua • XSum • ParlAI Dialogue Safety • Multilingual Representational Bias • BBQ Bias Benchmark for QA • RealToxicityPrompts * PaLM 2 Technical Report, Google, 2023
  10. • 試行錯誤が伴う領域である が故に、チームとしてのア セット管理が重要 • 検討・実施するべき項目が 多く、毎回手動で実行してい ると時間がかかるため、自 動化できるところは自動化し て開発プロセスを短縮化す

    ることが求められる 開発に向けて必要なプラットフォーム 基盤モデルの構 築 特定タスクへの ファインチューニ ング データ収集 ・クレンジン グ データ収集 ・クレンジン グ プロダクション LLMチェインの 構築・プロンプト エンジニアリング モデル構築 モデル構築 評価 LLM チェイン 構築 評価 データ管理 が複雑! データ収集 ・クレンジン グ 過去の記録やコードの管理が煩雑! 過去のプロジェクトを再現できない モデル管理 が複雑! 評価に時間 がかかる! デプロイ テスト・評価 監視 データ収集 新しいバージョンの リリースに 時間がかかる! モニタリング ダッシュボードが 欲しい! 修正をするポイントが多すぎる! 開発が 複雑!
  11. リーダーボード (評価結果) Reports 評価データ / モデル管理 計算資源 データ管理 • Hugging

    Face • artifacts on W&B server Launch Artifacts 評価 / 実験管理 Experiments 実験管理 ジョブを作成 Report上でリーダー ボード運営 W&B Launchを用いた自動評価 Nejumi Leaderboard GPUで自動実行プロ セスを構築
  12. Question Embedding model Docs Document Store / Vector DB Similarity

    search K neighbors PROMPT Prompt template LLM Answer Sampling
  13. Weights & Biases CEO Lukas Biewald LangChain CEO Harrison Chase

    私が気になるのは、評価です。私がReplitのCEOであるAmjadと話をしていた ときに、彼らがProductionに入れた言語モデルは、Vibes(直感的な感覚)によ るテストしか行っていないということを聞きました。つまり、それが前のバージョ ンよりも良くなったか悪くなったかを見るだけだということです。実際、そうした やり方をあちこちで見かけますが、改善の方法はあると思っています。あなた はそれについてどのように考えていますか?また、その問題を解決するため にどのようしたいと考えていますか? "The Vibes"(直感的な感覚)はちょっと馬鹿げて聞こえるかもしれませんが、 全く馬鹿げたことではないということです。多くの人々から、アウトプットを実際 にみることで、何が良くて何が悪いのか、何がうまくいかない可能性があるの か、という直感を得ていると聞いています。 そのために、何が内部で行われているのかを可視化するのは非常に有益で、 Weights and Biasesは最近この領域でたくさんのことをやっていますね、本 当にそれは役に立つと思います
  14. Q&A