Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【2024年4月~7月】 医療分野に特化したLLM紹介

Stardust
July 23, 2024
48

【2024年4月~7月】 医療分野に特化したLLM紹介

Stardust

July 23, 2024
Tweet

Transcript

  1. • Geminiベース • 25タスク, 14ベンチマークでの評価 • 数々のベンチでSoTA • マルチモーダルも5/7タスクでSoTA ◦

    心電図含む • long-context reasoningの高い能力 • 実用的なタスク(【容易】要約、推薦書生成、【困難】 EHR質問応用など)の性能 Med-Gemini(Google) https://arxiv.org/pdf/2404.18416 GPT-4 90.2 Med-Gemini 91.1 Web検索を利用し 自力で学習する 回答に自信がない時も Web検索で情報収集 Med-Gemini-M 1.0 Gemini 1.0 Pro (600B) summarizing medical notes, creating referral letters Med-Gemini-L 1.0 Gemini 1.0 Ultra (?) advanced reasoning Med-Gemini-M 1.5 Gemini 1.5 Pro (?,128k token) Multimodal understanding long-context processing(EHR) Med-Gemini-S 1.0 Gemini 1.0 Nano (1.8B) ECG ※ Gemini 1.5 Ultraは1.56T
  2. • Llama3-8Bベース, MMedCデータ(25.5B token)で継続学習 • multilingualモデル(en ,zh, ja, fr, es,

    ruの6つ) • MMedBenchというmultilingual評価ベンチマークも併せて公開 MMedLlama3-8B(上海交通大学) https://github.com/MAGIC-AI4Med/MMedLM 8BモデルでGPT-4と7ポイント差に IgakuQAの正答率 61.8% は相当優秀(ただし Split して8割をtrain, 1割をvalidとし, 残り1割で評価している 点に注意)
  3. MedSwallow-70B(東大病院) https://huggingface.co/AIgroup-CVM-utokyohospital/MedSwallow-70b https://arxiv.org/pdf/2406.14882 • Swallow-Instruct-70Bベース、70Bサイズでの医療モデルは日本では初の試み • モデル公開済, 学習データ非公開 • USMLE(米国医師国家試験)の和訳データで

    QLoRAチューニングを実施 • Gestalt Accuracyという甘めの評価指標で、 IgakuQA(日本医師国家試験)正答率で 50%超を達成 ベースモデルでは英語モデルで あるXwinのほうが性能が高かっ たが、日本語医療チューニング による改善幅はSwallowが大き く逆転 promptは2種類を検討 この3種類を比 較
  4. Llama3-Preferred-MedSwallow-70B(PFN) https://huggingface.co/pfnet/Llama3-Preferred-MedSwallow-70B https://tech.preferred.jp/ja/blog/llama3-preferred-medswallow-70b/ • Llama3-Swallow-70Bベース、QLoRAでの継続事前学習(?)← Instruction-tuningではなさそう • モデル公開済、学習データ非公開 (2017年以前の医師国家試験の解説を含んだ PFN

    独自の医療データセット) • 合計4つの禁忌選択肢を選択 改善幅が大きく GPT-4を超えた! IgakuQA(Kasai et al., 2023)で評価, text_only=Falseは除外していない. おそらくプロンプトは元実装そのままと記載があるので 3-shot. 満点:499 496 496 500 494 80%前後の正答率 ベースモデルも相当スコアが良い。医療特化モデルではないはず。 さらにEnglish-centricなMeta-Llama-3-70Bもそれなりに精度が高い。一方で、 日本語がより得意とされている Qwen2-72BよりもMeta Llama3のほうが若干スコアが良い。 個人的に知りたいこと 継続事前学習+QLoRAというのは、非Instruction型の データでnext word predictionのことか。ドメイン知識の獲 得が目的だと思うが、 QLoRAで十分なのか。