Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JMED-LLM: 日本語医療LLM評価データセットの公開

JMED-LLM: 日本語医療LLM評価データセットの公開

Takuya Fukushima

July 24, 2024
Tweet

More Decks by Takuya Fukushima

Other Decks in Research

Transcript

  1. 3 ⽇本語の医療LLMと評価⽅法 l JMedLoRA1 l 作成者:東京⼤学医学部附属病院 循環器内科 AIグループ l 評価データ:IgakuQA,

    JJSIMQA l Llama3-Preferred-MedSwallow-70B2 l 作成者:株式会社Preferred Networks l 評価データ:IgakuQA 関連研究 [1] https://www.anlp.jp/proceedings/annual_meeting/2024/pdf_dir/P9-4.pdf [2] https://tech.preferred.jp/ja/blog/llama3-preferred-medswallow-70b/
  2. 4 評価データセットの内容 l IgakuQA1 l 2018-2022年の国内の医師国家試験過去問 l 問題点 メディックメディア社の過去問解説本を転載した⿊よりのグレーなデータ(ライセンス 明記なし)

    => 問題視されており,クリーンなデータを作成する取り組みが⾏われている (東京⼤学医学部附属病院 放射線科 画像情報処理・解析研究室) l JJSIMQA2 l ⽇本内科学会雑誌107-111巻に記載されている5択問題 関連研究 [1] https://github.com/jungokasai/IgakuQA [2] https://huggingface.co/datasets/AIgroup-CVM-utokyohospital/JJSIMQA
  3. 5 英語の代表的な評価データセット l Med-PaLM1,MedPrompt2,BioMistral3 MedQA, MedMCQA, PubMedQA, MMLU(医療分野) l 内容

    l MedQA4:医師国家試験 l MedMCQA5:医学部⼊学試験 l PubMedQA6:PubMedのアブストから作成(yes, no, maybeの3択) l MMLU7:マルチタスク⾔語理解ベンチマーク 関連研究 [1] https://www.nature.com/articles/s41586-023-06291-2 [2] https://arxiv.org/pdf/2311.16452 [3] https://arxiv.org/abs/2402.10373 [4] https://www.mdpi.com/2076-3417/11/14/6421 [5] https://aclanthology.org/D19-1259.pdf [6] https://proceedings.mlr.press/v174/pal22a/pal22a.pdf [7] https://openreview.net/pdf?id=d7KBjmI3GmQ
  4. 6 他にも英語では多くの医療⾔語処理タスクが存在 l Question Answering(前ページのタスクは全てこれ) l Entity Extraction l Relation

    Extraction l Text Classification l Natural Language Inference l Semantic Textual Similarity l Information Retrieval l Text Summarization/Generation l Text Simplification 関連研究 https://arxiv.org/pdf/2311.05112
  5. 7 ⽇本語の医療⾔語処理タスク 本研究室では継続的にシェアードタスク(MedNLP)を開催 (他にも多数の医療データセットを作成し公開1) l すぐに再配布可能なデータを使⽤ l NTCIR-13 MedWeb2 l

    NTCIR-16 Real-MedNLP3 l NTCIR-17 MedNLP-SC (RR Subtask)4 l NursingRecord NERdataset5 l Japanese-Clinical-STS6 使⽤データ [1] https://sociocom.naist.jp/resources-software/ [2] https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings13/pdf/ntcir/01-NTCIR13-OV-MEDWEB-WakamiyaS.pdf [3] https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings16/pdf/ntcir/01-NTCIR16-OV-MEDNLP-YadaS.pdf [4] https://research.nii.ac.jp/ntcir/workshop/OnlineProceedings17/pdf/ntcir/02-NTCIR17-OV-MEDNLP-NakamuraY.pdf [5] https://www.jstage.jst.go.jp/article/pjsai/JSAI2022/0/JSAI2022_1J4OS13a01/_pdf/-char/ja [6] https://www.thieme-connect.com/products/ejournals/html/10.1055/s-0041-1731390
  6. 8 Japanese Medical Evaluation Dataset for Large Language Models l

    各Datasetは100件ずつ (全件のデータも公開) l 形式はtag, question, option, answerを含むcsv l 正解ラベル分布は均衡に l ライセンスは元データに従う データセットの概要(JMED-LLM) https://github.com/sociocom/JMED-LLM
  7. 9 薬品・症状から薬物有害事象 (ADE) の可能性を分類 l Medicine (52件) 症例報告において薬品が ADEを引き起こしている可能性 l

    Disease (48件) 症例報告において病名が ADEである可能性 タスク1: CRADE (Case Report Adverse Drug Event)
  8. 10 読影レポートから癌のTNMステージング分類 l T: Tumor(15件) 原発腫瘍があるか l N: Nodes(40件) 所属リンパ節転移があるか

    l M: Metastasis(45件) 遠隔転移があるか タスク2: RRTNM (Radiology Report Tumor Nodes Metastasis)
  9. 11 模擬Tweetから病気や症状があるか分類 SNSの投稿⽂から 本⼈または周囲の⼈間に 1⽇以内に病気や症状があったか l インフルエンザ(13件) l 下痢(13件) l

    花粉症(13件) l 咳・たん(13件) l 頭痛(12件) l 熱(12件) l ⿐⽔・⿐づまり(12件) l ⾵邪(12件) タスク3: SMDIS (Social Media Disease)
  10. 13 医療⽂書から症状や薬品に関する情報を抽出 l 対象医療⽂書 l 読影レポート l 症例報告 l 模擬看護記録

    l タスク l MRNER (disease, medicine) l Disease: 患者に認められた症状 l Medicine: 薬品、薬品に関わる値 l NRNER タスク5, 6, 7(固有表現抽出)
  11. 14 固有表現抽出タスクの内訳 l MRNER l 5: MRNER-disease (Medical Report Positive

    Disease Recognition) 症例報告(50件),読影レポート(50件) l 6: MRNER-medicine (Medical Report Medicine Recognition) 症例報告のみ(読影レポートに該当エンティティが存在しないため) l m-key(薬品名):66件 l m-val(薬品に関わる値):34件 l 7: NRNER (Nursing Report Named Entity Recognition) 模擬看護記録のみ(ライセンス異なるためMRNERと別タスクに) l d(患者に認められた症状):50件 l m-key(薬品名):25件 l m-val(薬品に関わる値):25件 タスク5, 6, 7(固有表現抽出)
  12. 16 多肢選択式問題(出⼒がアルファベット⼀つ) 評価指標 l Accuracy(括弧外) l Cohenʼs Kappa(括弧内) 選択肢が順序変数であるCRADEとJCSTSは線形重み付き 評価結果

    CRADE RRTNM SMDIS JMMLU-Med JCSTS Ave. GPT-4o-2024-05-13 0.43 (0.39) 0.91 (0.87) 0.88 (0.76) 0.75 (0.67) 0.38 (0.47) 0.67 (0.63) GPT-3.5-turbo-0125 0.26 (0.05) 0.44 (0.21) 0.68 (0.36) 0.41 (0.21) 0.27 (0.35) 0.41 (0.24) Command-r-plus (4bit) 0.30 (0.17) 0.54 (0.32) 0.77 (0.54) 0.45 (0.27) 0.24 (0.33) 0.46 (0.33) Llama3-Swallow-70B- Instruct-v0.1 (4bit) 0.25 (-0.05) 0.57 (0.36) 0.74 (0.48) 0.52 (0.36) 0.37 (0.52) 0.49 (0.34) Llama3-Elyza-JP-8B 0.25 (0.01) 0.37 (0.02) 0.53 (0.06) 0.31 (0.08) 0.22 (0.04) 0.34 (0.04) Mmed-Llama-3-8B 0.29 (0.09) 0.23 (-0.10) 0.49 (-0.02) 0.33 (0.11) 0.17 (0.00) 0.30 (0.02)
  13. 17 固有表現抽出(出⼒が複数⽂字列) 評価指標 l ⽂字列部分⼀致のF1 (括弧外) 「肝腫瘍」が正解の時,「肝腫瘍」, 「腫瘍」, 「転移性肝腫瘍」を全て正解とする l

    ⽂字列完全⼀致のF1(括弧内) 「肝腫瘍」が正解の時,「肝腫瘍」のみを正解とする 評価結果 MRNER-disease MRNER-medicine NRNER Ave. GPT-4o-2024-05-13 0.47 (0.15) 0.46 (0.29) 0.36 (0.20) 0.43 (0.21) GPT-3.5-turbo-0125 0.56 (0.16) 0.44 (0.24) 0.47 (0.24) 0.49 (0.21) Command-r-plus (4bit) 0.52 (0.13) 0.41 (0.23) 0.46 (0.26) 0.47 (0.20) Llama3-Swallow-70B-Instruct-v0.1 (4bit) 0.49 (0.14) 0.37 (0.22) 0.43 (0.23) 0.43 (0.20) Llama3-Elyza-JP-8B 0.60 (0.28) 0.51 (0.32) 0.40 (0.22) 0.50 (0.27) Mmed-Llama-3-8B 0.00 (0.00) 0.00 (0.00) 0.08 (0.04) 0.03 (0.01)
  14. 18 データセットの拡充と周辺環境の整備 今後もデータセットを継続的に追加予定 l 現状で追加が検討されているタスク例 l 疾患名からICD10コード(疾患の分類コード)を⽣成 l クリーンな医師国家試験の過去問データセット l

    LLM応答の医療安全性評価(医療,法律,倫理など様々な観点) l 医療⽂書(症例報告,読影レポート,看護記録など)における関係抽出 l その他 評価スクリプト整備,各タスクのプロンプト⾒直し, 引⽤論⽂の公開(YANSとNL研で発表予定)など 今後の展望