Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール

Keisuke Kamata
April 23, 2025
5

LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール

Keisuke Kamata

April 23, 2025
Tweet

More Decks by Keisuke Kamata

Transcript

  1. 2 • Deep Learning / 生成AI • ヘルスケア / タンパク質言語モデル

    • 動物実験 • 生体信号処理 • 因果推論 • オフラインABテスト Keisuke Kamata • 機械学習 • ヘルスケア/コロナ対策 @olachinkei 工学部・情報学研究科 Engagement Manager Lead Data Scientist Healthcare team lead Manager, AI Solution Engineer 最近の生成 AI周りの活動 • Nejumi Leaderboardの開発 • BioNeMo2 Contributor • 日本語wandbot開発 / 社内エージェント開発中 • … ブログ・ホワイトペーパーなど • W&B生成AIホワイトペーパー • AI Agent評価ブログ • 人手評価と自動評価の比較 with いちから • MCPブログ • GENIAC評価ガイド作成 • … 趣味: ワインソムリエエキスパート・ハーレーダビッドソン
  2. 6 実践的なプラクティス ドメインエキスパート と連携しながら、課題を解決 するソリューションを考える プロトタイプ開発 テストケース(数件) 参考: Algomatic, W&Bマンスリーミートアップ資料

    : AIエージェントが業務を代行するための計画と実行 • 最小限主要コンポーネント • システム全体 品質改善 プレリリースにて 取得した評価データ • 最小限主要コンポーネント • 最小限ツールの選択 • システム全体 デプロイに向けた 品質改善 • 摂動テスト • ガードレールテスト • 評価自動化 • … モニタリング • システム全体 Inner loop Middle loop Outer loop 品質改善を進める ドメインエキスパート と連携しながら、課題を解決 しているかどうかを評価
  3. 一流のエンジニアが世界中で使っている Weights & Biases シリコンバレーのAI起業家 W&Bの創業者は 2つのMLカテゴリーを創出 グローバル企業での利用 ~1000 を超えるエンタープライズ企業が利用

    最先端のAI開発企業 製造 金融 ヘルスケア Lukas Biewald CEO Chris Van Pelt CISO Shawn Lewis CTO 2万を超えるフレームワーク・リポジトリと統合 日本を代表するユーザー企業 ~70 を超えるエンタープライズ企業が利用 最先端のAI開発企業 製造 学術 ヘルスケア
  4. 反復 精度・遅延・コスト・安 全性を評価・最適化 ファインチューニ ング 社内データで モデルをカスタマ イズ プロトタイピング AIアプリの初期バー

    ジョンを試作する デプロイ デプロイ・ ガードレール W&Bまとめ: ファインチューニングから AIエージェントまで、 AI開発 を包括的に支援 オブザーブ 監視・フィードバック収 集 8 ガバナンス コンプライアンス、 コラボレーション、 セキュリティを支 援 Registry | Lineage | Reports Playground | Traces Guardrails Evaluations | Leaderboards Experiments User feedback Models Training, Fine-tuning, Deployment Weave GenAI Application Development 最適化 ハイパーパラメー タチューニング Sweeps Automations Table 分析 データとメトリクス の可視化と探索 事前学習 大規模 トレーニング AIモデル開発 AIアプリケーション開発 各分野ユースケースにおける生成 AI開発の高い要求レベルに対応
  5. 9 反復(品質向上) 精度・遅延・コスト・安全 性を評価・最適化  プロトタイプ AIアプリの初期バージョ ンを試作する デプロイ デプロイ・ ガードレール

    オブザーブ 監視・フィードバック収 集 Playground | Traces Guardrails Evaluations | Leaderboards User feedback Weave GenAI Application Development AIアプリケーション開発 ワークフロー
  6. Safer AI applications ガードレールと 履歴管理による コンプライアンス対応の AI 開発 Flexible AI

    applications クラウド・モデルに 依存しないプラットフォー ムで、あらゆるAIアプリを 構築 Faster AI application iteration プロトタイプ開発から プロダクション導入までのス ピード向上 本番環境で動く生成AIアプリケーション 開発のために.. W&B Weave 10