Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM評価ライブラリ Lang de chat (ラング・ド・シャ)

Elith
July 21, 2023

LLM評価ライブラリ Lang de chat (ラング・ド・シャ)

LLMによるプロダクトリリースの際にLLM自体の評価やタスクに依存したプロンプトの評価を簡単に行いたいと思い、日本語対応のLang de chat (ラング・ド・シャ)というライブラリを作成

Elith

July 21, 2023
Tweet

More Decks by Elith

Other Decks in Technology

Transcript

  1. 自己紹介 3 3 ▪ 学歴
 • 北陸先端科学技術大学院大学修了し量子コンピュータの材料探索研究
 • 東北大学医学系研究科博士後期課程在学し
 放射線画像に対する自動輪郭のためのセグメンテーション研究


    ▪ 職歴
 • AIベンダーの画像分野でのリードとしてAI開発に従事
 • AIの受託開発・自社サービスを提供する株式会社Elith(エリス)を創業
 ▪ 職業
 • Elith(エリス)のCTO
 ▪ 書籍
 • Git入門コマンドライン演習80(秀和システム)
 • LLMの記事で日経Linux2023年9月号(日経BP)で寄稿
 

  2. 自己紹介 4 4 ▪ 過去に担当した案件
 • 画像・動画・点群(3D)
 • 競馬パドック馬姿勢推定AI: 動画/姿勢推定

    
 • イヤホン感情評価AI: 点群/回帰 
 • 内視鏡AI: 画像/分類 
 • 放射線画像自動輪郭AI: 画像/セグメンテーション 
 • 自然言語・LLM
 • LLM研究コンサルティング: LLM/コンサルティング 
 • LLM炎上検知: 自然言語・LLM/炎上検知 
 ▪ 研究実績
 • 2023年7月 医学物理の国際学会AAPMに採択されアメリカヒューストンで発表 
 

  3. 2. 背景 • 日本語プロンプトの評価が難しい • 日本語LLMの評価が難しい • 評価ができてもデータ量が大きい • OpenAIの日本語の場合、英語と比較してAPI料金が高い

    • タスクが難しい場合の評価できない • 論文で有効とされるプロンプトが本当にそのタスクで有効かわからない • プロダクトレベルのプロンプトエンジニアリングに時間がかかる ➡日本語に対応したタスク特化の  LLM評価ライブラリを作成 10 日本語で簡単にプロンプトの評価を行いたい
  4. 2. 背景 11 フェーズによって評価方法が異なる LLMモデル学習 プロンプト調整 ファインチューニング • 評価方法を考える •

    タスクに特化した評価 • プロンプトエンジニアリング • インストラクションチューニング • RLHF • PEFTによる学習 • 事前学習 • クロールしたデータで学習 • 日本語だとWikipediaなど こちらを評価
  5. 4. プロンプト評価ライブラリ 16 全体構成 Task1 TaskN Prompt1 PromptN ・・・ ・・・

    Model1 ModelN ・・・ センチメント予測タスク Few-shotプロンプト + CoTプロンプト GPT-3.5モデル ライブラリでタスク・プロンプト・モデルを選択し評価することができる
  6. 5. 今後の動き • データセット(タスク)の追加 ◦ JGLUEデータセットの追加 ◦ 英語データセットの日本語翻訳 ◦ 新規のデータセットを手動で作成

    ◦ HuggingFaceのデータセットで対応できるようにする 17 • プロンプト追加 ◦ Tree-of-Thoughts (ToT) など有効とされるプロンプトの追加 ◦ 論文サーベイしプロンプト追加 • OSS活動 ◦ ウェビナーや有志の勉強会などで OSS活動支援 ◦ ドキュメントなど充実 • LLMモデル自体の評価 ◦ 現在はLangChainで対応済みのLLM評価のみなので HuggingFaceのLLMの推論に対応する