LLMアプリケーションの安定性を高めるための精度評価・改善

© 2023 LayerX Inc. 2 中村龍矢 (Twitter: @nrryuya_jp) 機械学習エンジニア
東京大工学部 • データサイエンスと出会う Gunosy データ分析部 • 推薦システム開発等セキュリティ研究者（現在）事業責任者 LayerX 創業時からR&D • プログラムの形式検証 • ブロックチェーン ◦ Ethereumへのコントリビューション • LayerX 事業部執行役員 • IPA 未踏スーパークリエータ • 2020年度電子情報通信学会インターネットアーキテクチャ研究賞最優秀賞 (共著) • Forbes JAPAN 30 UNDER 30 2023 LayerXの新規事業 • プライバシーテック • 大規模言語モデル自己紹介

目次 Agenda • LayerXの紹介 • “Beyond PoC” させるLLM活用 • 精度評価と改善

LayerXの紹介

© 2023 LayerX Inc. 5 LayerXの事業概要 LayerX LLM Labsの紹介 *
資本準備金含む会社名　　　　代表取締役　創業　　　　　資本金* 関連会社株主一覧　取得認証｜株式会社LayerX（レイヤーエックス）｜　代表取締役CEO 福島良典　　代表取締役CTO 松本勇気｜　2018年｜　112.６億円｜　バクラク事業、Fintech事業、Privacy Tech事業｜　三井物産デジタル・アセットマネジメント　　三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社｜　｜　情報セキュリティマネジメントシステム、　　　　 JIIMA認証次世代のプライバシー保護秘匿化技術バクラク事業企業活動のインフラとなる法人支出管理（BSM）SaaSを開発・提供 Fintech事業ソフトウェアを駆使したアセットマネジメント証券事業を合弁会社にて展開 Privacy Tech事業 IS 747702 / ISO 27001

© 2023 LayerX Inc. 6 法人支出管理SaaS　『バクラク』 LayerX LLM Labsの紹介 toCレベルの使いやすさを追求
AI-OCRの精度にこだわり

© 2023 LayerX Inc. 8 AI・データ活用支援の実績 LayerX LLM Labsの紹介 •
決済データの更なる活用に関する協業 • 複数企業間の取引記録インフラの事業検討・技術検証 • 自動車走行データの分析サービスを共同で開発 • LayerXのデータ分析基盤を活用 • テキストデータの活用に関する共同研究 • 医療データ流通における安心・安全なデータ加工に関する共同研究 • LayerXのデータ集計基盤が住民意見収集システムとして採用（秘匿化技術国内初の実用化事例）国土交通省様リクルート様 • 不動産情報の更なる利活用に向けた調査・検証業務においてLayerX のデータ活用基盤が採用 JCB様つくば市様 JMDC様あいおいニッセイ同和損保様

© 2023 LayerX Inc. 10 （手前味噌ながら、、、） LayerXの強み LayerX LLM Labsの紹介
「バズワード」的な技術を現実的に評価・改善し、お客様の「ペイン」に集中する 1 BtoC出身者で構成される、「使いやすい」サービスへのこだわり 2

© 2023 LayerX Inc. 11 余談: LLMによる文章データの標準化 LayerX LLM Labsの紹介
従来のDXの難しさ: データのフォーマットが、人・会社によってバラバラで、自動連携できない LLMによって「本当は中身が同じなのに、見た目が違う」データを標準化エンタープライズ向けブロックチェーンが実現したかったことに近づく（？）

“Beyond PoC” させる LLM活用

© 2023 LayerX Inc. 13 LayerXにおける、ブロックチェーンやプライバシーテックなどの「新技術」活用の苦い経験から得られたもの新技術の活用をPoC・実験で終わらせないために “Beyond PoC” させるLLM活用
技術だけではなく、問題設定も新しい既存の業務の明確な課題（ペイン） PoCで終わりやすいもの本番業務に載せやすいもの技術の新しさにつられないように PoCと受託開発を重ねゼロから作っていく（機動力がなくなる）汎用的なプロダクトに落とし込むサンクコストにより誰も欲しくないものに固執しないように

© 2023 LayerX Inc. 14 チューニングにより切り拓けるユースケース “Beyond PoC” させるLLM活用 ChatGPT・APIをそのまま使うだけでは、精度が安定せず、本番業務に耐えられることは少ない
https://thebridge.jp/2023/07/chatgpt-sees-10-percent-mom-decline https://business.nikkei.com/atcl/gen/19/00466/070400013/ 既存ツールで十分なユースケース粘り強い精度改善により実現できるユースケース

© 2023 LayerX Inc. 15 ② 正解に至るプロセスが　　明確な業務か Beyond PoCしやすいユースケース選定の観点
“Beyond PoC” させるLLM活用 ① 正解が明確な業務か • LLMに期待する正しいアウトプットが明確に定義できるか • 答えが定まらないと、精度評価できない • LLMに人間の手順・思考回路を再現させる方が簡単 • 「職人芸」「第六感」的な業務は難しい業務効率化系においては、改善サイクルを回すための「精度評価のやりやすさ」が重要

精度評価と改善

© 2023 LayerX Inc. 17 単語の部分一致（ROUGE等）評価指標精度評価と改善完全一致
• シンプルだが、ちょっとした表記揺れも×になってしまう • 比較的直感的に部分正解を評価できるが、類義語などが×に出力が正しいかどうかの採点は、方法もツールも既に色々ある（自作も簡単） LLMによる比較 Embedding （ベクトルの類似度） • 柔軟な評価ルールを定義できるが、ここ自体のチューニングが面倒 • 単語の違いなどがあっても意味が近ければ評価できる参考: https://speakerdeck.com/nohanaga/azure-machine-learning-prompt-flow-ping-jia-metorikusujie-shuo

© 2023 LayerX Inc. 18 精度が出ない原因の分析精度評価と改善採点までは簡単なので、その後にうまくいかない箇所の原因を突き止める方が重要一般的なLLMのユースケースにおける、原因箇所のパターンインプット
データ（ファイル） LLMの処理アウトプットプロンプト生成 ①前処理での欠損・毀損 ②検索での欠損 ③結果をまとめる際の欠損・毀損 ④LLM処理での誤り ④のLLM部分（特にプロンプト）に目が行きがちだが、実は他に問題があるかも

© 2023 LayerX Inc. 19 原因①: 前処理での欠損・毀損精度評価と改善 PDFやdocxからテキストを抜き出す際に、重要な情報が抜けたり単語・文章が崩れたりする人間が読む順番と異なる
例: 段落の順番が崩れている（縦割りの学術論文等） ① ② ③ ④ ① ② ③ ④

© 2023 LayerX Inc. 20 原因②: 検索での欠損精度評価と改善 PDFやdocxからテキストを抜き出す際に、重要な情報が抜けたり単語・文章が崩れたりする間違ったチャンクが取得されている
例: インプットのテキストを分割したチャンクの検索で、必要なチャンクが選ばれていない Query 正解に必要なチャンク

© 2023 LayerX Inc. 21 原因③: 結果をまとめる際の欠損・毀損精度評価と改善例えばLangchainのmap_reduceやrefineで、チャンクごとの結果を合体する過程で欠損したりする例:
map_reduceでmapでは取れた正解がreduceで欠損する出典: https://python.langchain.com/docs/modules/chains/document/map_reduce reduceで欠損！ mapでは取れている途中の結果を確認すると良い

© 2023 LayerX Inc. 22 LLMに限らない、アルゴリズム改善の一般的な話 1. パラメタ・アルゴリズムを変えるときは一箇所だけ • 一度に色々変えると、どれの影響なのかわかりづらい
2. 問題を切り分ける • 例: LLMに「AとBをせよ」と指示してうまくいかない場合、Aだけの処理、Bだけの処理に分ける 3. 対象データ・処理内容を段階的に難しくする • “toy example” を作るチューニングにおける一般的な心がけ精度評価と改善

LLMアプリケーションの安定性を高めるための精度評価・改善

LLMアプリケーションの安定性を高めるための精度評価・改善

Ryuya Nakamura

More Decks by Ryuya Nakamura

Other Decks in Technology

Featured

Transcript

Confidential © 2023 LayerX Inc. LLMアプリケーションの安定性を高めるための精度評価・改善 2023/9/26 中村龍矢 (LayerX 事業部執行役員)

© 2023 LayerX Inc. 2 中村龍矢 (Twitter: @nrryuya_jp) 機械学習エンジニア

目次 Agenda • LayerXの紹介 • “Beyond PoC” させるLLM活用 • 精度評価と改善

LayerXの紹介

© 2023 LayerX Inc. 5 LayerXの事業概要 LayerX LLM Labsの紹介 *

© 2023 LayerX Inc. 6 法人支出管理SaaS　『バクラク』 LayerX LLM Labsの紹介 toCレベルの使いやすさを追求

© 2023 LayerX Inc. 7 MDM（三井物産デジタル・アセットマネジメント） LayerX LLM Labsの紹介

© 2023 LayerX Inc. 8 AI・データ活用支援の実績 LayerX LLM Labsの紹介 •

© 2023 LayerX Inc. 9 大規模言語モデル（LLM）のチームを設置 LayerX LLM Labsの紹介

© 2023 LayerX Inc. 10 （手前味噌ながら、、、） LayerXの強み LayerX LLM Labsの紹介

© 2023 LayerX Inc. 11 余談: LLMによる文章データの標準化 LayerX LLM Labsの紹介

“Beyond PoC” させる LLM活用

© 2023 LayerX Inc. 13 LayerXにおける、ブロックチェーンやプライバシーテックなどの「新技術」活用の苦い経験から得られたもの新技術の活用をPoC・実験で終わらせないために “Beyond PoC” させるLLM活用

© 2023 LayerX Inc. 14 チューニングにより切り拓けるユースケース “Beyond PoC” させるLLM活用 ChatGPT・APIをそのまま使うだけでは、精度が安定せず、本番業務に耐えられることは少ない

© 2023 LayerX Inc. 15 ② 正解に至るプロセスが　　明確な業務か Beyond PoCしやすいユースケース選定の観点

精度評価と改善

© 2023 LayerX Inc. 17 単語の部分一致（ROUGE等）評価指標精度評価と改善完全一致

© 2023 LayerX Inc. 18 精度が出ない原因の分析精度評価と改善採点までは簡単なので、その後にうまくいかない箇所の原因を突き止める方が重要一般的なLLMのユースケースにおける、原因箇所のパターンインプット

© 2023 LayerX Inc. 19 原因①: 前処理での欠損・毀損精度評価と改善 PDFやdocxからテキストを抜き出す際に、重要な情報が抜けたり単語・文章が崩れたりする人間が読む順番と異なる

© 2023 LayerX Inc. 20 原因②: 検索での欠損精度評価と改善 PDFやdocxからテキストを抜き出す際に、重要な情報が抜けたり単語・文章が崩れたりする間違ったチャンクが取得されている

© 2023 LayerX Inc. 21 原因③: 結果をまとめる際の欠損・毀損精度評価と改善例えばLangchainのmap_reduceやrefineで、チャンクごとの結果を合体する過程で欠損したりする例:

© 2023 LayerX Inc. 22 LLMに限らない、アルゴリズム改善の一般的な話 1. パラメタ・アルゴリズムを変えるときは一箇所だけ • 一度に色々変えると、どれの影響なのかわかりづらい