JMED-LLM: 日本語医療LLM評価データセットの公開

JMED-LLM: ⽇本語医療LLM評価データセットの公開 https://github.com/sociocom/JMED-LLM 奈良先端科学技術⼤学院⼤学ソーシャル・コンピューティング研究室福島拓也、久⽥祥平、⽮⽥竣太郎、若宮翔⼦、荒牧英治 2024/07/25 LLM-jp

2 ⽇本語医療⾔語処理で適切なLLMを選択可能に本研究室において複数の医療⾔語処理研究があるが，次々と新しいLLMが登場する中で適切なLLMの判断が困難 l LLMの⽇本語医療能⼒を評価するデータセットの不⾜ l 医療評価が⾏われてないLLMを利⽤することも多い l 医療データの機密性からGPT4oなどAPI経由のLLMを利⽤できない
l 病院内や研究室内でローカルLLMを利⽤する場合は，計算資源の都合から量⼦化などして利⽤することが多い（LLMによって量⼦化による性能低下がバラバラ）⽬的

3 ⽇本語の医療LLMと評価⽅法 l JMedLoRA1 l 作成者：東京⼤学医学部附属病院循環器内科 AIグループ l 評価データ：IgakuQA,
JJSIMQA l Llama3-Preferred-MedSwallow-70B2 l 作成者：株式会社Preferred Networks l 評価データ：IgakuQA 関連研究 [1] https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P9-4.pdf [2] https://tech.preferred.jp/ja/blog/llama3-preferred-medswallow-70b/

4 評価データセットの内容 l IgakuQA1 l 2018-2022年の国内の医師国家試験過去問 l 問題点メディックメディア社の過去問解説本を転載した⿊よりのグレーなデータ（ライセンス明記なし）
=> 問題視されており，クリーンなデータを作成する取り組みが⾏われている（東京⼤学医学部附属病院放射線科画像情報処理・解析研究室） l JJSIMQA2 l ⽇本内科学会雑誌107-111巻に記載されている5択問題関連研究 [1] https://github.com/jungokasai/IgakuQA [2] https://huggingface.co/datasets/AIgroup-CVM-utokyohospital/JJSIMQA

5 英語の代表的な評価データセット l Med-PaLM1，MedPrompt2，BioMistral3 MedQA， MedMCQA， PubMedQA， MMLU（医療分野） l 内容
l MedQA4：医師国家試験 l MedMCQA5：医学部⼊学試験 l PubMedQA6：PubMedのアブストから作成（yes, no, maybeの3択） l MMLU7：マルチタスク⾔語理解ベンチマーク関連研究 [1] https://www.nature.com/articles/s41586-023-06291-2 [2] https://arxiv.org/pdf/2311.16452 [3] https://arxiv.org/abs/2402.10373 [4] https://www.mdpi.com/2076-3417/11/14/6421 [5] https://aclanthology.org/D19-1259.pdf [6] https://proceedings.mlr.press/v174/pal22a/pal22a.pdf [7] https://openreview.net/pdf?id=d7KBjmI3GmQ

6 他にも英語では多くの医療⾔語処理タスクが存在 l Question Answering（前ページのタスクは全てこれ） l Entity Extraction l Relation
Extraction l Text Classification l Natural Language Inference l Semantic Textual Similarity l Information Retrieval l Text Summarization/Generation l Text Simplification 関連研究 https://arxiv.org/pdf/2311.05112

7 ⽇本語の医療⾔語処理タスク本研究室では継続的にシェアードタスク（MedNLP）を開催（他にも多数の医療データセットを作成し公開1） l すぐに再配布可能なデータを使⽤ l NTCIR-13 MedWeb2 l
NTCIR-16 Real-MedNLP3 l NTCIR-17 MedNLP-SC (RR Subtask)4 l NursingRecord NERdataset5 l Japanese-Clinical-STS6 使⽤データ [1] https://sociocom.naist.jp/resources-software/ [2] https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings13/pdf/ntcir/01-NTCIR13-OV-MEDWEB-WakamiyaS.pdf [3] https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings16/pdf/ntcir/01-NTCIR16-OV-MEDNLP-YadaS.pdf [4] https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings17/pdf/ntcir/02-NTCIR17-OV-MEDNLP-NakamuraY.pdf [5] https://www.jstage.jst.go.jp/article/pjsai/JSAI2022/0/JSAI2022_1J4OS13a01/_pdf/-char/ja [6] https://www.thieme-connect.com/products/ejournals/html/10.1055/s-0041-1731390

8 Japanese Medical Evaluation Dataset for Large Language Models l
各Datasetは100件ずつ（全件のデータも公開） l 形式はtag, question, option, answerを含むcsv l 正解ラベル分布は均衡に l ライセンスは元データに従うデータセットの概要（JMED-LLM） https://github.com/sociocom/JMED-LLM

9 薬品・症状から薬物有害事象 (ADE) の可能性を分類 l Medicine (52件) 症例報告において薬品が ADEを引き起こしている可能性 l
Disease (48件) 症例報告において病名が ADEである可能性タスク1: CRADE (Case Report Adverse Drug Event)

10 読影レポートから癌のTNMステージング分類 l T: Tumor（15件）原発腫瘍があるか l N: Nodes（40件）所属リンパ節転移があるか
l M: Metastasis（45件）遠隔転移があるかタスク2: RRTNM (Radiology Report Tumor Nodes Metastasis)

11 模擬Tweetから病気や症状があるか分類 SNSの投稿⽂から本⼈または周囲の⼈間に 1⽇以内に病気や症状があったか l インフルエンザ（13件） l 下痢（13件） l
花粉症（13件） l 咳・たん（13件） l 頭痛（12件） l 熱（12件） l ⿐⽔・⿐づまり（12件） l ⾵邪（12件）タスク3: SMDIS (Social Media Disease)

12 JMMLUのタスクのうち医療ドメイン l 専⾨医学（20件） l 医学遺伝学（20件） l 臨床知識（20件） l 解剖学（20件）
l ⼤学医学（20件）タスク4: JMMLU-Med

13 医療⽂書から症状や薬品に関する情報を抽出 l 対象医療⽂書 l 読影レポート l 症例報告 l 模擬看護記録
l タスク l MRNER (disease, medicine) l Disease: 患者に認められた症状 l Medicine: 薬品、薬品に関わる値 l NRNER タスク5, 6, 7（固有表現抽出）

14 固有表現抽出タスクの内訳 l MRNER l 5: MRNER-disease (Medical Report Positive
Disease Recognition) 症例報告（50件），読影レポート（50件） l 6: MRNER-medicine (Medical Report Medicine Recognition) 症例報告のみ（読影レポートに該当エンティティが存在しないため） l m-key（薬品名）：66件 l m-val（薬品に関わる値）：34件 l 7: NRNER (Nursing Report Named Entity Recognition) 模擬看護記録のみ（ライセンス異なるためMRNERと別タスクに） l d（患者に認められた症状）：50件 l m-key（薬品名）：25件 l m-val（薬品に関わる値）：25件タスク5, 6, 7（固有表現抽出）

15 症例報告から抽出された⽂の意味的類似度を分類タスク8: JCSTS (Japanese Clinical Semantic Textual Similarity)

16 多肢選択式問題（出⼒がアルファベット⼀つ）評価指標 l Accuracy（括弧外） l Cohenʼs Kappa（括弧内）選択肢が順序変数であるCRADEとJCSTSは線形重み付き評価結果
CRADE RRTNM SMDIS JMMLU-Med JCSTS Ave. GPT-4o-2024-05-13 0.43 (0.39) 0.91 (0.87) 0.88 (0.76) 0.75 (0.67) 0.38 (0.47) 0.67 (0.63) GPT-3.5-turbo-0125 0.26 (0.05) 0.44 (0.21) 0.68 (0.36) 0.41 (0.21) 0.27 (0.35) 0.41 (0.24) Command-r-plus (4bit) 0.30 (0.17) 0.54 (0.32) 0.77 (0.54) 0.45 (0.27) 0.24 (0.33) 0.46 (0.33) Llama3-Swallow-70B- Instruct-v0.1 (4bit) 0.25 (-0.05) 0.57 (0.36) 0.74 (0.48) 0.52 (0.36) 0.37 (0.52) 0.49 (0.34) Llama3-Elyza-JP-8B 0.25 (0.01) 0.37 (0.02) 0.53 (0.06) 0.31 (0.08) 0.22 (0.04) 0.34 (0.04) Mmed-Llama-3-8B 0.29 (0.09) 0.23 (-0.10) 0.49 (-0.02) 0.33 (0.11) 0.17 (0.00) 0.30 (0.02)

17 固有表現抽出（出⼒が複数⽂字列）評価指標 l ⽂字列部分⼀致のF1 （括弧外）「肝腫瘍」が正解の時，「肝腫瘍」, 「腫瘍」, 「転移性肝腫瘍」を全て正解とする l
⽂字列完全⼀致のF1（括弧内）「肝腫瘍」が正解の時，「肝腫瘍」のみを正解とする評価結果 MRNER-disease MRNER-medicine NRNER Ave. GPT-4o-2024-05-13 0.47 (0.15) 0.46 (0.29) 0.36 (0.20) 0.43 (0.21) GPT-3.5-turbo-0125 0.56 (0.16) 0.44 (0.24) 0.47 (0.24) 0.49 (0.21) Command-r-plus (4bit) 0.52 (0.13) 0.41 (0.23) 0.46 (0.26) 0.47 (0.20) Llama3-Swallow-70B-Instruct-v0.1 (4bit) 0.49 (0.14) 0.37 (0.22) 0.43 (0.23) 0.43 (0.20) Llama3-Elyza-JP-8B 0.60 (0.28) 0.51 (0.32) 0.40 (0.22) 0.50 (0.27) Mmed-Llama-3-8B 0.00 (0.00) 0.00 (0.00) 0.08 (0.04) 0.03 (0.01)

18 データセットの拡充と周辺環境の整備今後もデータセットを継続的に追加予定 l 現状で追加が検討されているタスク例 l 疾患名からICD10コード（疾患の分類コード）を⽣成 l クリーンな医師国家試験の過去問データセット l
LLM応答の医療安全性評価（医療，法律，倫理など様々な観点） l 医療⽂書（症例報告，読影レポート，看護記録など）における関係抽出 l その他評価スクリプト整備，各タスクのプロンプト⾒直し，引⽤論⽂の公開（YANSとNL研で発表予定）など今後の展望

JMED-LLM: 日本語医療LLM評価データセットの公開

JMED-LLM: 日本語医療LLM評価データセットの公開

Takuya Fukushima

More Decks by Takuya Fukushima

Other Decks in Research

Featured

Transcript

JMED-LLM: ⽇本語医療LLM評価データセットの公開 https://github.com/sociocom/JMED-LLM 奈良先端科学技術⼤学院⼤学ソーシャル・コンピューティング研究室福島拓也、久⽥祥平、⽮⽥竣太郎、若宮翔⼦、荒牧英治 2024/07/25 LLM-jp

3 ⽇本語の医療LLMと評価⽅法 l JMedLoRA1 l 作成者：東京⼤学医学部附属病院循環器内科 AIグループ l 評価データ：IgakuQA,

4 評価データセットの内容 l IgakuQA1 l 2018-2022年の国内の医師国家試験過去問 l 問題点メディックメディア社の過去問解説本を転載した⿊よりのグレーなデータ（ライセンス明記なし）

5 英語の代表的な評価データセット l Med-PaLM1，MedPrompt2，BioMistral3 MedQA， MedMCQA， PubMedQA， MMLU（医療分野） l 内容

6 他にも英語では多くの医療⾔語処理タスクが存在 l Question Answering（前ページのタスクは全てこれ） l Entity Extraction l Relation

7 ⽇本語の医療⾔語処理タスク本研究室では継続的にシェアードタスク（MedNLP）を開催（他にも多数の医療データセットを作成し公開1） l すぐに再配布可能なデータを使⽤ l NTCIR-13 MedWeb2 l

8 Japanese Medical Evaluation Dataset for Large Language Models l

9 薬品・症状から薬物有害事象 (ADE) の可能性を分類 l Medicine (52件) 症例報告において薬品が ADEを引き起こしている可能性 l

10 読影レポートから癌のTNMステージング分類 l T: Tumor（15件）原発腫瘍があるか l N: Nodes（40件）所属リンパ節転移があるか

11 模擬Tweetから病気や症状があるか分類 SNSの投稿⽂から本⼈または周囲の⼈間に 1⽇以内に病気や症状があったか l インフルエンザ（13件） l 下痢（13件） l

12 JMMLUのタスクのうち医療ドメイン l 専⾨医学（20件） l 医学遺伝学（20件） l 臨床知識（20件） l 解剖学（20件）

13 医療⽂書から症状や薬品に関する情報を抽出 l 対象医療⽂書 l 読影レポート l 症例報告 l 模擬看護記録

14 固有表現抽出タスクの内訳 l MRNER l 5: MRNER-disease (Medical Report Positive

15 症例報告から抽出された⽂の意味的類似度を分類タスク8: JCSTS (Japanese Clinical Semantic Textual Similarity)

16 多肢選択式問題（出⼒がアルファベット⼀つ）評価指標 l Accuracy（括弧外） l Cohenʼs Kappa（括弧内）選択肢が順序変数であるCRADEとJCSTSは線形重み付き評価結果

17 固有表現抽出（出⼒が複数⽂字列）評価指標 l ⽂字列部分⼀致のF1 （括弧外）「肝腫瘍」が正解の時，「肝腫瘍」, 「腫瘍」, 「転移性肝腫瘍」を全て正解とする l