Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Keisuke Kamata
January 24, 2024
1.5k
1
Share
Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf
Keisuke Kamata
January 24, 2024
More Decks by Keisuke Kamata
See All by Keisuke Kamata
Physical AIを支えるWeights & Biases
olachinkei
1
340
W_Bハッカソン説明会202602.pdf
olachinkei
0
490
MCPサーバー連携をLLMに学ばせる強化学習フレームワークARTを使ってみる (CyberAgent 三橋 亮太)
olachinkei
1
500
W&Bが新しくリリースしたServerless RLの紹介 (W&B 鎌田啓輔)
olachinkei
0
350
WeaveでMCPを記録する & W&BのMCP
olachinkei
1
330
LLMアプリケーションの品質担保に向けた プラクティスと LLMオブザーバビリティツール
olachinkei
1
310
生成AI開発を加速するNVIDIA NIMとNVIDIA NeMo
olachinkei
2
1.4k
Weaveを用いた生成AIアプリケーションの評価_モニタリンングと実践例.pdf
olachinkei
2
610
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
630
Featured
See All Featured
Six Lessons from altMBA
skipperchong
29
4.2k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
190
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
150
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
240
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.5k
Avoiding the “Bad Training, Faster” Trap in the Age of AI
tmiket
0
160
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.1k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.4k
Into the Great Unknown - MozCon
thekraken
41
2.5k
Transcript
Japanese MT-Bench を使った LLM モデルの評価 Meng Lee, Stability AI @
W&B Webinar 2024/01/24
Agenda • 自己紹介 • Japanese Stable LM シリーズ • Japanese
MT-Bench
Meng Lee (メン・リ) 自己紹介 • Stability AI で機械学習エンジニア。日本語大規 模言語モデル(LLM)の研究開発を主導
• SmartNews 時期は会社初の BERT・DistilBert に基づく大規模ニュース分類システムを構築 • 台湾大学情報管理科で情報検索と自然言語処 理を専攻 • 台湾育ての多言語モデル。日本語、英語と中国 語。コードもそこそこ書けます
🦜 Japanese Stable LM シリーズ • モデルサイズ 3B から 70B
の日本語 LLM を公開 • ゼロから学習か、英語のベースモデルから継続学習 • 基盤言語モデルとチャットモデル • 日本語特化の lm-evaluation-harness を開発し、 JGLUE ベースで LLM の言語理解を評価
⚖ Japanese MT-Bench での日本語 LLM の言語生成評価 • Chatbot Arena で有名な
LLM-as-a-judge 論 文の手法に沿って作られた会話形式の日本 語特化の LLM 言語生成評価データセット (MT は Multi-Turn の省略) • 8つの応用領域の問題を含む。各問題に正確 に答えるために、LLMは以下の要求を同時に 満たす必要があります: • 流暢な日本語を生成する • 世界の知識を理解する • 日本文化、社会を理解する • 推論や数学の能力を持つ • 文脈を理解し、利用者と対話すること
⚖ Japanese MT-Bench での日本語 LLM の言語生成評価
⚖ Weights & Biases で Japanese MT-Bench を利用 • Japanese
MT-Bench は、GPT-4 のような強 力な LLM を使用して自動評価を行い、企業 や研究所のための迅速な LLM 開発を可能 にします。 • lm-evaluation-harness・Jaster と一緒に使 用することをお勧めします。これにより、これ らの日本語 LLM のパフォーマンスをより深く 理解することができます。 • Nejumiリーダーボードは日本語特化の LLM 評価を簡単にしてくれる
Stability AI 採用情報:https://ja.stability.ai/careers Japanese Stable LM: https://huggingface.co/stabilityai