Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Jasterデータセットを使ったLLMモデルの評価
Search
Keisuke Kamata
January 24, 2024
Technology
4
2.9k
Jasterデータセットを使ったLLMモデルの評価
Keisuke Kamata
January 24, 2024
Tweet
Share
More Decks by Keisuke Kamata
See All by Keisuke Kamata
20240917_wandb_Monthly_meetup_TIS
olachinkei
0
410
Nejumi Leaderboard release 20240702
olachinkei
1
180
LCTG Bench 日本語LLMの制御性ベンチマークの紹介
olachinkei
1
260
ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間とGPT-4による評価で観察されたもの
olachinkei
1
900
Japanese_MT-Bench_を使った_LLM_モデルの評価.pdf
olachinkei
1
1.1k
W&B webinar LLM leaderboard Neo
olachinkei
1
1.1k
llm-jp-eval 日本語大規模言語モデルの 自動評価ツールの開発に向けて
olachinkei
4
2.9k
JGLUEの構築そして 日本語LLM評価のこれから
olachinkei
8
4.4k
LLMOpsのためのCICD環境構築
olachinkei
3
450
Other Decks in Technology
See All in Technology
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
28
13k
Lambda10周年!Lambdaは何をもたらしたか
smt7174
2
110
サイバーセキュリティと認知バイアス:対策の隙を埋める心理学的アプローチ
shumei_ito
0
390
Terraform未経験の御様に対してどの ように導⼊を進めていったか
tkikuchi
2
450
BLADE: An Attempt to Automate Penetration Testing Using Autonomous AI Agents
bbrbbq
0
320
Platform Engineering for Software Developers and Architects
syntasso
1
520
【Startup CTO of the Year 2024 / Audience Award】アセンド取締役CTO 丹羽健
niwatakeru
0
1.3k
OS 標準のデザインシステムを超えて - より柔軟な Flutter テーマ管理 | FlutterKaigi 2024
ronnnnn
0
170
強いチームと開発生産性
onk
PRO
35
11k
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
170
Taming you application's environments
salaboy
0
190
iOSチームとAndroidチームでブランチ運用が違ったので整理してます
sansantech
PRO
0
150
Featured
See All Featured
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
840
Git: the NoSQL Database
bkeepers
PRO
427
64k
Being A Developer After 40
akosma
87
590k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
Designing for humans not robots
tammielis
250
25k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
The Pragmatic Product Professional
lauravandoore
31
6.3k
Designing the Hi-DPI Web
ddemaree
280
34k
Docker and Python
trallard
40
3.1k
Building Better People: How to give real-time feedback that sticks.
wjessup
364
19k
The Language of Interfaces
destraynor
154
24k
Transcript
Jasterデータセットを使った LLMモデルの評価 Namgi Han 東京大学 大学院 情報理工学係研究科 コンピューター学専攻 特任研究員 W&B
ウェビナー (2024/01/24)
2 目次 • はじめに • llm-jp-evalの紹介 • Jasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• おわりに
3 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
4 はじめに • 海外のLLM評価ベンチマークのリスト(Chang et al., 2023)
5 はじめに • 日本語のLLM評価ベンチマーク • JGLUE (Kurihara et al., 2022)が一般的
• 他は? • 日本語の評価データセットが存在しないわけではない • たくさんの評価データセットが提案されている • 海外の評価データセットを翻訳しているものも多い • それらをLLMの評価に使えないか?
6 はじめに • この発表の内容 • llm-jp-evalの紹介 • llm-jp-evalで使っているJasterの紹介 • llm-jp-eval+Jasterでの評価とその紹介
• 「llm-jp-eval: 日本語大規模言語モデルの自動評価ツール」 @ANLP2024でも話します
7 llm-jp-evalの紹介 • https://github.com/llm-jp/llm-jp-eval
8 llm-jp-evalの紹介 • LLM-JP(LLM 勉強会)で開発 • https://llm-jp.nii.ac.jp • オープンかつ日本語に強い大規模モデルを構築し、LLMの原理解明に 取り組む。また、モデル・データ・ツール・技術資料等を議論の過
程・失敗を含めすべて公開する • この趣旨に賛同すればだれでも参加可能 • 最初は日本語LLMの学習・開発のサポートのために作られた • lossの外にも、LLMの学習精度を測れるツールが欲しかった • 何らかの評価スコアが欲しい:どうやって?
9 llm-jp-evalの紹介 • どうやって評価する? • NLPのタスクは言語モデルを前提にしてない場合がある • 例えば分類タスクは決まったラベルの中の一つを予測する問題だが、 言語モデルは与えられたシーケンスの次に現れるべきトークンを予測 •
評価ツールによっては、言語モデルが次のトークンを予測する際、 ラベル候補のトークンの予測確率を調べ、生成結果でなくその確率で評価 • llm-jp-evalでは言語モデルの生成結果を直接使う評価を行う • 海外の評価ベンチマークのユースケースを参照 • 全ての評価タスクを一般的な方法で扱いたいというモチベーション • 分類タスクと他の生成タスクの評価手法を別々に実装したくない • 生成結果をExact Match、文字列ベースのF1などで自動評価
10 llm-jp-evalの紹介 • どうやって評価する?
11 llm-jp-evalの紹介
12 Jasterの紹介 • Jasterとは? • J * (ASTERisk) • LLM-JP内部でllm-jp-evalの対応データセットを、
「Jで始まる名前のデータセット多いから、J*。」 とまとめて呼んでいたことから由来 • Jasterの二つの意味 • 1)llm-jp-evalで対応している評価データセット全て • 2)2023.10.20のJaster:LLM-JPが発表している一部のモデルは当時 のJasterを使ってInstruction Tuningしたため
13 Jasterの紹介 • モチベ:日本語LLMの評価データセットを集める • まずNLPのタスクから始めることに • (自分含め)NLPのタスクに馴染みある人が多い • 既存研究がある:評価データが公開されて、(比較的)自動評価がやりやすい
• 現在対応している評価データセットのカテゴリー • MC (Multi-Choice QA)、NLI (Natural Language Inference)、QA (Question Answering)、RC (Reading Comprehension)、STS (Semantic Textual Similarity)、EL (Entity Linking)、FA (Fundamental Analysis)、MR (Mathematical Reasoning)
14 Jasterの紹介
15 Jasterの紹介 • NLI(自然言語推論)での例え
16 Jasterの紹介 • MC (Multi-Choice QA):JCommonsenseQA 質問と回答の選択肢を入力として受け取り、選択肢から回答を 選択してください。なお、回答は選択肢の番号(例:0)です るものとします。 回答となる数値をint型で返し、他には何も
含めないことを厳守してください。 質問:ワシントンが首都の国は? 選択肢:0.州,1.北海道,2.アメリカ,3.中部地方,4.ロシア
17 Jasterの紹介 • NLI (Natural Language Inference):Jamp、JaNLI、JNLI、JSeM、JSICK 前提と仮説の関係をentailment、contradiction、neutralの中から回答してください。そ れ以外には何も含めないことを厳守してください。 制約:
-前提から仮説が、論理的知識や常識的知識を用いて導出可能である場合はentailment と出力 - 前提と仮説が両立しえない場合はcontradictionと出力 - そのいずれでもない場合はneutralと出力 前提:テーブルにワイングラスがいくつも並んでいます。 仮説:テーブルには何も置かれていません。
18 Jasterの紹介 • QA (Question Answering):JEMHopQA、NIILC 質問を入力とし、回答を出力してください。回答の他には何も 含めないことを厳守してください。 質問:中野区と板橋区はどちらの人口が多いですか?
19 Jasterの紹介 • RC (Reading Comprehension):JSQuAD 質問に対する回答を文章から一言で抽出してください。回答は名詞 で答えてください。 それ以外には何も含めないことを厳守してくだ さい。
文章:シアトル [SEP] 2000年現在の国勢調査で、この都市は人口 563,374人である。この都市の人種的な構成は白人73.40%、アフリ カン・アメリカン8.44%、インディアン1.10%、アジア13.71%、太 平洋諸島系0.50%、その他の人種6.84%および混血4.70%である。 質問:シアトルの人口は?
20 Jasterの紹介 • STS (Semantic Textual Similarity) :JSTS 日本語の文ペアの意味がどのくらい近いかを判定し、類似度を 0〜5までの間の値で付与してください。0に近いほど文ペアの
意味が異なり、5に近いほど文ペアの意味が似ていることを表 しています。整数値のみを返し、それ以外には何も含めないこ とを厳守してください。 文1:波に向かってサーフィンをしている人が2人います。 文2:二人のサーファーが波に乗っています。
21 Jasterの紹介 • EL (Entity Linking) :chABSA 与えられた文章から固有表現で書かれたターゲットの名前を抽出し、それに対す る極性をpositive、neutral、negativeの中から選択して下さい。固有表現で書か れたターゲットの名前と、それに対する極性(positive、neutral、negativeのい
ずれか)のペアをスペース( )で区切って出力し、それ以外には何も含めない ことを厳守してください。答えが複数の場合、改行で繋げてください。ただし、 ターゲットは固有表現である市場、市況、会社/法人、グループ、会社内の部門、 事業部、事業領域、製品、サービスの名称などを指すこととします。 文章:その結果、売上高は132億7千2百万円(前年度比19.8%減)となりまし た
22 Jasterの紹介 • FA (Fundamental Analysis):Wikipedia Annotated Corpus • Reading
prediction, Named entity recognition, Dependency parsing, Predicate-argument structure analysis, Coreference resolution 与えられたテキストを全てひらがなに変換してください。 戦死とは、軍人が戦争、戦闘、武力紛争により死亡すること。その定義 や範囲は複数存在するが、通常は戦争による民間人の死亡は含まれない。
23 Jasterの紹介 • MR (Mathematical Reasoning):MAWPS 与えられた計算問題に対する答えを整数または小数で出力して ください。数値のみを出力し、それ以外には何も含めないこと を厳守してください。 問題:佐藤は16個の青い風船、鈴木は11個の青い風船、高橋は
99個の青い風船を持っています。彼らは全部でいくつの青い風 船を持っているのでしょう?
24 Jasterの紹介 • 評価データセットの選定条件 • 公開されている • ライセンスが商用利用まで許容している(CC-BY-SAなど) • 自動評価が出来る
• 海外のベンチマークと参考し、 出来るだけ多くのタスクを網羅するように選ぶ • 問題の数が一定数以上 • llm-jp-evalのバージョンアップにつき、 Jasterもまた増えている:chABSA, Wikipedia Annotated Corpus, MAWPS, ...
25 llm-jp-eval+Jasterでの評価とその紹介 • 評価のやり方 • 出来るだけ自動化 • ログはW&Bで同期可能 • デフォルト設定
• 4-shots • alpaca式プロンプト • Greedy生成など、 ハイパラはほぼデフォ
26 llm-jp-eval+Jasterでの評価とその紹介
27 llm-jp-eval+Jasterでの評価とその紹介 • llm-jp-eval+Jasterの限界:評価対象が足りなく、偏っている • Chang et al.(2023):社会バイアスや毒性表現などに関わる倫理・ 信頼性,医療や応用タスクに関わるドメイン特化能力,理工学・社会 科学のように実世界を理解する能力などを評価する必要がある
• コード生成、翻訳、対話などの生成タスクへの対応も足りない: MT-Bench-JP、Rakuda、Vicuna、… • 海外の評価データの取り込みなどを目指したい:MMLUなど
28 おわりに • この発表の振り返り • 日本語LLMを評価するツール、llm-jp-evalの紹介 • 日本語LLMを評価 • 日本語LLMを何で評価するのか?:公開された評価データセット
• 日本語LLMをどうやって評価するのか?:LLMの生成結果を自動評価 • llm-jp-evalで対応する評価データセット、Jasterの紹介 • 8つのカテゴリー、12個のデータセット • 利用が自由なライセンスを持つ、公開済みの評価データセットに対応 • llm-jp-eval+Jasterでの評価とその紹介 • 自動で簡単にできます • まだデータセットの数が全然足りないので、頑張って増やせます
ご清聴ありがとうございました