Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM評価ライブラリ Lang de chat (ラング・ド・シャ)
Search
Elith
July 21, 2023
Technology
1
84
LLM評価ライブラリ Lang de chat (ラング・ド・シャ)
LLMによるプロダクトリリースの際にLLM自体の評価やタスクに依存したプロンプトの評価を簡単に行いたいと思い、日本語対応のLang de chat (ラング・ド・シャ)というライブラリを作成
Elith
July 21, 2023
Tweet
Share
More Decks by Elith
See All by Elith
今、知っておきたい! 生成AIエージェントの世界
elith
3
430
マルチモーダルLLMがもたらすビジネス革新と技術解説
elith
1
320
LLMに医療知識をつけるには
elith
4
900
放射線分野の問題をLLMに解かせてみた
elith
1
490
Data Is All You Need
elith
0
130
[CVPR 2023 論文紹介]Bidirectional Copy-Paste for Semi-Supervised Medical Image Segmentation
elith
0
280
画像を用いた論文解説の可能性
elith
1
1k
Other Decks in Technology
See All in Technology
OPENLOGI Company Profile
hr01
0
45k
本当のガバクラ基礎
toru_kubota
0
300
社内での継続的な機械学習勉強会の開催のコツ
yudai00
2
370
SWC Transformerから見るTypeScript関数記述ベストプラクティス
fujiyamaorange
1
160
RailsConf 2024 Keynote "Startups on Rails in 2024"
irinanazarova
0
690
試作とデモンストレーション / Prototyping and Demonstrations
ks91
PRO
0
150
サイボウズ 開発本部採用ピッチ / Cybozu Engineer Recruit
cybozuinsideout
PRO
9
37k
Deno で作る快適な “as Code” プラットフォーム – TSKaigi 2024
pizzacat83
4
280
認知症フレンドリーテックとスタックチャン
naokiuc
0
400
データ分析力を高めるSQL研修サービス『SQL Everyone』
hikarut
1
360
QAエンジニアが伝えたい品質保証の羅針盤 / Compass for Quality Assurance
mii3king
1
310
生成AIと産業向けソフトウェアの自動生成 〜 ハノーバーメッセ2024より〜
kioto
2
410
Featured
See All Featured
Into the Great Unknown - MozCon
thekraken
15
1.1k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
660
120k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
228
16k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
34
6.1k
Fireside Chat
paigeccino
22
2.7k
Raft: Consensus for Rubyists
vanstee
133
6.3k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
323
20k
Done Done
chrislema
178
15k
The Invisible Side of Design
smashingmag
294
49k
Faster Mobile Websites
deanohume
300
30k
What's in a price? How to price your products and services
michaelherold
238
11k
Transcript
LLM評価ライブラリ Lang de chat (ラング・ド・シャ) 株式会社Elith CEO & CTO Koki
Inoue
自己紹介 2 2 井上 顧基(こうき) Elith CEO&CTO @Beluuuuuuga
自己紹介 3 3 ▪ 学歴 • 北陸先端科学技術大学院大学修了し量子コンピュータの材料探索研究 • 東北大学医学系研究科博士後期課程在学し 放射線画像に対する自動輪郭のためのセグメンテーション研究
▪ 職歴 • AIベンダーの画像分野でのリードとしてAI開発に従事 • AIの受託開発・自社サービスを提供する株式会社Elith(エリス)を創業 ▪ 職業 • Elith(エリス)のCTO ▪ 書籍 • Git入門コマンドライン演習80(秀和システム) • LLMの記事で日経Linux2023年9月号(日経BP)で寄稿
自己紹介 4 4 ▪ 過去に担当した案件 • 画像・動画・点群(3D) • 競馬パドック馬姿勢推定AI: 動画/姿勢推定
• イヤホン感情評価AI: 点群/回帰 • 内視鏡AI: 画像/分類 • 放射線画像自動輪郭AI: 画像/セグメンテーション • 自然言語・LLM • LLM研究コンサルティング: LLM/コンサルティング • LLM炎上検知: 自然言語・LLM/炎上検知 ▪ 研究実績 • 2023年7月 医学物理の国際学会AAPMに採択されアメリカヒューストンで発表
会社のサービス紹介 5
1. 全体概要 ・英語に加え日本語に対応した LLMモデル評価とLLMプロンプト評価ライブラリ ・タスク特化の少量データを用意し、 v0.1.1ではLLMが苦手な日付計算データを用意 ・プレフィックスサフィックスのプロンプトを追加できる ・精度向上のためプレフィックスには Few-shot、プレフィックスにはCoT(Chain of
thoughts)などを想定 6 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成
1. 全体概要 7 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成 質問文 プレフィックスプロンプト サフィックスプロンプト
回答 出力 期待される回答 評価 プロンプト
1. 全体概要 8 LLM評価ライブラリ Lang de chat(ラングドシャ)を作成 質問:もし今日が2021年1月1日だとしたら、365日後は何日になるか?、回答: 質問:もし今日が月曜だとしたら、 4日後は何日になるか?、回答:金曜
ステップバイステップで考えてください。 回答 出力 期待される回答 評価 プロンプト
1. 全体概要 9 v0.1.1で用意したデータは難易度の高い日付計算で6件
2. 背景 • 日本語プロンプトの評価が難しい • 日本語LLMの評価が難しい • 評価ができてもデータ量が大きい • OpenAIの日本語の場合、英語と比較してAPI料金が高い
• タスクが難しい場合の評価できない • 論文で有効とされるプロンプトが本当にそのタスクで有効かわからない • プロダクトレベルのプロンプトエンジニアリングに時間がかかる ➡日本語に対応したタスク特化の LLM評価ライブラリを作成 10 日本語で簡単にプロンプトの評価を行いたい
2. 背景 11 フェーズによって評価方法が異なる LLMモデル学習 プロンプト調整 ファインチューニング • 評価方法を考える •
タスクに特化した評価 • プロンプトエンジニアリング • インストラクションチューニング • RLHF • PEFTによる学習 • 事前学習 • クロールしたデータで学習 • 日本語だとWikipediaなど こちらを評価
2. 背景 12 既存データやツールで評価できないか? 論文などの評価 ・評価方法自体はMMLUなどが存在 ・評価データが英語であり、日本語で評価しにくい ・プロンプトについては記載のない論文もある LangchainDataset ・タスクの種類11個で少ない
・データ量がバラバラでライセンス的にも怪しい
2. 背景 13 日本語評価データ JGLUE ・複数タスクで評価できる ・データ量が多い API料金が気になる ・大量のデータの場合だとAPI料金が高くなる ・少量データでタスク特化で確認したい
3. デモの紹介 14 ChatGPTによる評価 以下のような日付の計算など難しいタスクの場合に間違うため CoTなどのプロンプトを試す必要がある
3. デモの紹介 15 ライブラリによる評価 以下はライブラリで評価した場合
4. プロンプト評価ライブラリ 16 全体構成 Task1 TaskN Prompt1 PromptN ・・・ ・・・
Model1 ModelN ・・・ センチメント予測タスク Few-shotプロンプト + CoTプロンプト GPT-3.5モデル ライブラリでタスク・プロンプト・モデルを選択し評価することができる
5. 今後の動き • データセット(タスク)の追加 ◦ JGLUEデータセットの追加 ◦ 英語データセットの日本語翻訳 ◦ 新規のデータセットを手動で作成
◦ HuggingFaceのデータセットで対応できるようにする 17 • プロンプト追加 ◦ Tree-of-Thoughts (ToT) など有効とされるプロンプトの追加 ◦ 論文サーベイしプロンプト追加 • OSS活動 ◦ ウェビナーや有志の勉強会などで OSS活動支援 ◦ ドキュメントなど充実 • LLMモデル自体の評価 ◦ 現在はLangChainで対応済みのLLM評価のみなので HuggingFaceのLLMの推論に対応する