Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Keisuke Kamata
April 23, 2025
320
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
Keisuke Kamata
April 23, 2025
More Decks by Keisuke Kamata
See All by Keisuke Kamata
Physical AIを支えるWeights & Biases
olachinkei
1
370
W_Bハッカソン説明会202602.pdf
olachinkei
0
500
MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋 亮太)
olachinkei
1
520
W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)
olachinkei
0
350
WeaveでMCPを記録する & W&BのMCP
olachinkei
1
340
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
1.4k
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
olachinkei
2
620
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
630
Nejumi Leaderboard release 20240702
olachinkei
1
430
Featured
See All Featured
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
460
Amusing Abliteration
ianozsvald
1
200
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
230
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Facilitating Awesome Meetings
lara
57
7k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
840
Documentation Writing (for coders)
carmenintech
77
5.4k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.8k
Raft: Consensus for Rubyists
vanstee
141
7.5k
How to make the Groovebox
asonas
2
2.2k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
470
Transcript
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
2 • Deep Learning / 生成AI • ヘルスケア / タンパク質言語モデル
• 動物実験 • 生体信号処理 • 因果推論 • オフラインABテスト Keisuke Kamata • 機械学習 • ヘルスケア/コロナ対策 @olachinkei 工学部・情報学研究科 Engagement Manager Lead Data Scientist Healthcare team lead Manager, AI Solution Engineer 最近の生成 AI周りの活動 • Nejumi Leaderboardの開発 • BioNeMo2 Contributor • 日本語wandbot開発 / 社内エージェント開発中 • … ブログ・ホワイトペーパーなど • W&B生成AIホワイトペーパー • AI Agent評価ブログ • 人手評価と自動評価の比較 with いちから • MCPブログ • GENIAC評価ガイド作成 • … 趣味: ワインソムリエエキスパート・ハーレーダビッドソン
3 GenAI: easy to demo hard to productionize
4 LLMがタスクを理解し、 必要なツールを自律的に選択し、独自に計画を立案、 その計画に基づいて外部ツールを活用しながら目標達成を進 める AIのタスクに取り組む際に、複数の相互作用するコンポーネン ト(モデルへの複数回の呼び出し、リトリーバー、外部ツールな ど)を用いるシステムと定義します Compound AIシステム
AIエージェント AIエージェントとは?
5 システム全体の評価 各ステップ・サブモジュールごと の評価 ステップ・ツールの 選択・軌跡の評価 AIエージェントの評価観点
6 実践的なプラクティス ドメインエキスパート と連携しながら、課題を解決 するソリューションを考える プロトタイプ開発 テストケース(数件) 参考: Algomatic, W&Bマンスリーミートアップ資料
: AIエージェントが業務を代行するための計画と実行 • 最小限主要コンポーネント • システム全体 品質改善 プレリリースにて 取得した評価データ • 最小限主要コンポーネント • 最小限ツールの選択 • システム全体 デプロイに向けた 品質改善 • 摂動テスト • ガードレールテスト • 評価自動化 • … モニタリング • システム全体 Inner loop Middle loop Outer loop 品質改善を進める ドメインエキスパート と連携しながら、課題を解決 しているかどうかを評価
一流のエンジニアが世界中で使っている Weights & Biases シリコンバレーのAI起業家 W&Bの創業者は 2つのMLカテゴリーを創出 グローバル企業での利用 ~1000 を超えるエンタープライズ企業が利用
最先端のAI開発企業 製造 金融 ヘルスケア Lukas Biewald CEO Chris Van Pelt CISO Shawn Lewis CTO 2万を超えるフレームワーク・リポジトリと統合 日本を代表するユーザー企業 ~70 を超えるエンタープライズ企業が利用 最先端のAI開発企業 製造 学術 ヘルスケア
反復 精度・遅延・コスト・安 全性を評価・最適化 ファインチューニ ング 社内データで モデルをカスタマ イズ プロトタイピング AIアプリの初期バー
ジョンを試作する デプロイ デプロイ・ ガードレール W&Bまとめ: ファインチューニングから AIエージェントまで、 AI開発 を包括的に支援 オブザーブ 監視・フィードバック収 集 8 ガバナンス コンプライアンス、 コラボレーション、 セキュリティを支 援 Registry | Lineage | Reports Playground | Traces Guardrails Evaluations | Leaderboards Experiments User feedback Models Training, Fine-tuning, Deployment Weave GenAI Application Development 最適化 ハイパーパラメー タチューニング Sweeps Automations Table 分析 データとメトリクス の可視化と探索 事前学習 大規模 トレーニング AIモデル開発 AIアプリケーション開発 各分野ユースケースにおける生成 AI開発の高い要求レベルに対応
9 反復(品質向上) 精度・遅延・コスト・安全 性を評価・最適化 プロトタイプ AIアプリの初期バージョ ンを試作する デプロイ デプロイ・ ガードレール
オブザーブ 監視・フィードバック収 集 Playground | Traces Guardrails Evaluations | Leaderboards User feedback Weave GenAI Application Development AIアプリケーション開発 ワークフロー
Safer AI applications ガードレールと 履歴管理による コンプライアンス対応の AI 開発 Flexible AI
applications クラウド・モデルに 依存しないプラットフォー ムで、あらゆるAIアプリを 構築 Faster AI application iteration プロトタイプ開発から プロダクション導入までのス ピード向上 本番環境で動く生成AIアプリケーション 開発のために.. W&B Weave 10
🔍 W&B Weave エンタープライズでのご利用に ご関心のある方は
[email protected]
or Twitter(@olachinkei)でDMください
12 Recruiting: Customer Support Engineer 募集中 ご関心のある方は
[email protected]
or Twitter
(@olachinkei)でDMください