Upgrade to Pro — share decks privately, control downloads, hide ads and more …

医療LLMの現在地〜最新研究から社会実装までを考える〜

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 医療LLMの現在地〜最新研究から社会実装までを考える〜

大規模言語モデル(LLM)をはじめとする医療AIは、この数年で急速に進化しています。本スライドでは、医療情報・医療AIに携わる立場から、言語モデルの基礎から最新の動向、そして医療現場への社会実装と普及の課題までを整理しました。

Avatar for kento sugimoto

kento sugimoto

July 02, 2026

More Decks by kento sugimoto

Other Decks in Research

Transcript

  1. Self-supervised learning 8 • これまでは、専門家がラベル付け作業を行い、学習データを準備するのが一 般的だったが、人手によるものなので、データ量に限界があった • 自己教師あり学習は、人手でラベル付け作業を行うのではなく、データ自身 の情報だけでモデルの学習(データの一部をマスクして予測を行うなど)を 行い、データの分布や特徴などを獲得する

    • 自己教師あり学習の成功により、Web上の大量データだけを使って、汎用的 な言語モデルを構築することが可能となった “Self-supervised learning could lead to the creation of AI that’s more humanlike in its reasoning” (Yoshua Bengio and Yann LeCun) https://venturebeat.com/ai/yann-lecun-and-yoshua-bengio-self-supervised-learning-is-the-key-to-human-level-intelligence/
  2. Med-PaLM 2 (Singhal et al. 2025) 13 • Googleが発表した医療特化LLM(PaLM2を基盤としたドメイン適応モデル) •

    医療データを用いた指示チューニングを実施し、医療知識と推論能力を最適化 • 医学的質問の回答について、多くの評価軸で医師を上回る品質の回答を得た
  3. Medprompt (Nori et al. 2023) 14 • 医療分野におけるGPT-4の能力を引き出すた め、Medpromptと呼ばれるプロンプトエンジニ アリング戦略を開発し、

    MedQAで90.2%超えを 達成 • 汎用モデルに対し、高度なプロンプト戦略を適 用することで、ドメイン特化型のモデルの性能 を上回る可能性を示した
  4. Nori et al. 2024 15 • OpenAIが推論モデルの先駆けとしてリ リースした「o1-preview」を用いた医療 ベンチマークの評価結果 •

    MedQAで96.0%というスコアを記録し、 既存のタスクのほぼ上限を達成 • 難易度の高い問題に対して、多くの推論 時間をかけるほど、正答率が高かったこ とを報告した
  5. Kawakami et al. 2025 16 • Qwen2.5をベースとした医療特化LLMで日本語のIgakuQAにおいて、 GPT-4oを 上回る正答率を達成 •

    継続事前学習で医療ドメイン知識を注入し、また、強化学習で推論能力を向上さ せることで、高い精度と回答までの推論過程の安定化を実現
  6. Meerkat (Kim et al. 2025) 17 • LLMでは「知識量≒モデルサイズ」とされる が、軽量モデルでも高い医学知識を獲得可能 であることを示した

    • 医学書から複雑な推論プロセスを抽出し、合 成データを作成し、モデルを微調整 • 高品質なデータによる推論能力の強化によ り、10B以下の軽量モデルでも高度な知識を 有するモデルが蒸留できることを報告した
  7. 推論能力を引き出す技術 19 Test-Time Compute(推論時スケーリング) • OpenAI o1に代表される推論モデルでは、回答前に 内部的な「思考の連鎖」を生成し、時間をかけて考 えるように設計・訓練されている •

    複雑な論理的思考を要する課題において、推論時に より多くの計算資源や時間を割くことで性能が向上 することが示された https://openai.com/index/learning-to-reason- with-llms/
  8. 推論能力を引き出す技術 20 Reasoning Preference Optimization (Pang et al. 2024) •

    選好最適化と呼ばれるモデルが「より望ましい出力」を選びやすくする手法 • 推論タスク向けの選好最適化手法であり、正解した「推論過程+最終回答」を選 好例、不正解例を非選好例として学習する • 模範の推論例も一緒に学習させることで、より妥当な推論過程を出しやすくする
  9. Small et al. 2025 22 • 入院経過(Hospital Course: HC)の要約作 成において、医師とLLMの品質を検証

    • 医師が作成したHCよりも、LLMが生成のHC のほうが、編集した割合が統計的に有意に少 なかった(平均44.8% vs 平均31.5%) • ただし、Confabulation-Free(空想がないこ と)の項目の評価においては、医師のほうが 優れており、いわゆる「ハルシネーション」 の課題があったことを報告した
  10. Rotenstein et al. 2026 23 • AI scribe(AIを用いて、診察中の会話からカルテ記事を生成すること)の導入に よる医師の作業時間や診察数への影響に関する調査 •

    AI scribeが8時間の診療枠あたり13.4分(3.0%)の減少に貢献することを示した • 文書業務の時間短縮に伴い、訪問件数が増加し、医療提供のキャパシティ向上に も寄与
  11. Williams et al. 2025 24 • 医師とLLMの退院サマリの品質について評価し、5段階評価で医師とLLMの間に 有意な差は認められかった(平均3.77 vs 平均3.67)ことを報告

    • LLMが「簡潔さ」と「一貫性」で医師を上回る一方、「包括性」で下回る結果と なり、LLMの「簡潔さ」と「情報の欠落」のトレードオフの難しさが示唆された
  12. Hu et al. 2026 30 • 医療テキストの情報抽出タスクにおいて、従来のBERT ベースとLLMについて有用性を比較 • LLM(LLaMA2・3)モデルは、すべてのデータセットに

    おいてBERTの抽出精度を上回ったことを報告 • 学習データが十分に存在する場合の性能差は小さいが、学 習データが少ない状況ではその差がより大きくなるとした • サイズが大きいモデル(LLaMA-3 70B)が最も高い性能 を示したが、性能と処理速度(計算コスト)のバランスで は、8Bの小型モデルが実用的であることを示した
  13. Guevara et al. 2024 31 • 電子カルテのテキスト情報から健康の社会的決定 要因(SDoH)に関する臨床情報を抽出する研究 • アノテーションデータを使って、訓練されたモデ

    ル(Flan-T5)が、ChatGPT 4などの汎用LLMよ りも良い性能であることを示した • ChatGPTで生成した合成データを追加することで さらに性能が改善することを報告
  14. Luo et al. 2025 32 • 電子カルテの構造化データのみでは、詳細な喫煙歴(喫煙指数、禁煙年数など) が欠落していることが多く、自由記述の経過記録からの情報抽出が不可欠 • LLM

    (Gemini 1.5 FlashやGPT-4など)により、96%以上の高い抽出精度を達成 • この手法を実データに適用し、二次原発性肺癌のリスク予測モデル(SPLC- RAT)に組み込むことで、従来のガイドラインよりも優れた精度で高リスク患者 を特定できることを示した
  15. Ishida et al. 2025 33 • LLMを用いて婦人科腫瘍のレポートから TNM病期分類を自動抽出する研究 • 現状の人手でのレジストリ入力では、5.5%

    から17.0%の登録エラーが確認された • クラウド型LLM(Gemini 1.5)とローカル LLM( Qwen2.5 72B )による情報抽出を 評価したところ、いずれも人手よりも正確 に入力できることを示した
  16. LLaVA (Liu et al. 2023) 39 • VLMの代表的なアーキテクチャの一つで、画像特徴をLLMへと統合する方式 • Projectorという変換器を用いて、Vision

    Encoderで抽出された画像特徴を、テキ スト埋め込み表現へ変換し、画像情報をLLMに入力できるようにするのが特徴
  17. RadFM (Wu et al. 2025) 40 • 1,600万件以上の2D・3D医療スキャンを含むデータセットで学習された、放射線 科向けの汎用基盤モデル •

    2D画像や3D CTなどの医用画像をVisual Encoderで特徴量に変換し、画像特徴と テキストを交差させた入力系列を用意する
  18. PrIME-LLM (Rao et al. 2026) 45 • 従来の多肢選択式問題による評価のみでは、LLMの複雑な臨床推論能力を十分に 測定できないという課題があった •

    LLMの臨床推論能力を多角的に評価(最終診断のみではなく、鑑別診断、診断検 査、その他の臨床推論など)する指標「PrIME-LLM」を開発 • 最先端のフロンティアLLMでは、最終診断においていずれも高い精度を達成した ものの、鑑別診断、最終診断に至る過程などの判断がいずれも十分でないことを 報告した
  19. MedThink-Bench (Zhou et al. 2025) 46 • 先のPrIME-LLMと同様に最終回答だけではなく、推論過程や論理構造を評価す るためのベンチマークを作成 •

    中間推論プロセスを明らかにする根拠を専門家がアノテーションし、これをリ ファレンスとしたLLM-as-a-Judgeの評価フレームワークを構築 • PrIME-LLMと同様、最終的回答が合っていても推論プロセスが誤っているケー スがあり、LLMの推論過程のブラックボックスの課題を明らかにした
  20. AgentClinic (Schmidgall et al. 2026) 47 • 実臨床では不完全な情報の元で、患者との対話、追加情報の収集、検査選択など 逐次的な意思決定が求められる •

    AgentClinicは、医師・患者・検査担当・判定者の異なるエージェントで模擬診 療を行い、診断結果など評価する • 従来の医学QAベンチマークで高性能なLLMでも、実際の診療に近い「対話的・ 逐次的な意思決定」環境では性能が大きく低下することを報告
  21. HealthAdminBench (Bedi et al. 2026) 48 • これまで医療LLMの評価では医療事務タスクの評価はほとんど行われていない • 専門家が設計した135の事務タスクからなるベンチマークを作成し、LLMエー

    ジェント(画面を操作するcomputer-use型のエージェント)の信頼性を評価 • ChatGPTやClaudeなどのフロンティアモデルでも、個別のタスクの性能は高い ものの、一連のワークフローを完遂させることが難しかったことが示された
  22. コンテキストの重要性 62 • EpicのようなEHRベンダーは、患者データ、 UI、ワークフローに近く、コンテキストへの アクセス性で大きな優位を持つ • 外部のサードパーティは優れたLLMを持って いても、EHR内のコンテキストにアクセスで きなければ利活用は限定される

    • MCP(Model Context Protocol)の概念は、 コンテキストを、外部LLMに対して標準化し た形で提供するためのインターフェースとなり 得る https://www.ultralytics.com/ja/blog/the-next-step-in-ai- automation-model-context-protocol-mcp
  23. Context engineering 65 • LLMへ与える文脈情報(参照情報・検索結 果・ツール出力など)を設計・管理するため のプロセス • 単にプロンプトを書くのではなく、限られた コンテキストウィンドウにどの情報を入れる

    かが重要 • そのため、検索・ツール利用・会話履歴・外 部データを整理し、必要な文脈を動的に与え る設計が重要とされている https://www.philschmid.de/context-engineering
  24. SELF-RAG (Asai et al. 2023) 67 • 従来のRAGでは、検索した文書を一括 でLLMに与えるため、関係のない文脈 が混入したり、ソースに根拠のない内

    容を生成したりする可能性があった • Self-RAGは、検索するかどうか、検索 結果が役立つか、生成文が根拠に支え られているかを、モデル自身が評価しな がら回答を生成する枠組み • 文脈を動的に取得・選択することで、回 答の事実性・検証可能性を高めた
  25. Agentic RAG 68 • 従来のRAGでは、検索した文書を一括で LLMに与えるため、関係のない文脈が混入 したり、ソースに根拠のない内容を生成し たりする可能性があった • Agentic

    RAGでは、LLMエージェントが質 問を分解し、情報源の選択、検索クエリ作 成、再検索などを能動的に行う • これにより、必要な情報を選択・圧縮・統 合し、限られたコンテキストウィンドウを 有効に使うことが可能となる https://www.geeksforgeeks.org/artificial- intelligence/what-is-agentic-rag/
  26. まとめ 70 • 医療AI・LLMは医学QAで急速に性能が向上し、さらに診断支援や臨床推論な ど、より臨床に近い課題へ応用が広がっている • AIスクライブ(診療記録の自動生成)など、実際の医療現場での社会実装が進み つつある • フリーテキストの構造化によるリアルワールドデータ(RWD)の活用により、

    研究・臨床での新たな価値創出が期待される • 性能だけでは社会実装は普及しない。コンテキストへのアクセスと統合が、品質 と実装を大きく左右する • API連携・相互運用性の障壁を下げることが健全なエコシステムにつながる