医療LLMの現在地〜最新研究から社会実装までを考える〜

大阪大学大学院医学系研究科医療情報学特任助教杉本賢人医療LLMの現在地〜最新研究から社会実装までを考える〜

Stanford HAI AI Index Report https://hai.stanford.edu/ai-index/2025-ai-index-report AIの進歩が人間水準を超えつつある

Stanford HAI AI Index Report https://hai.stanford.edu/ai-index/2025-ai-index-report 医療AIは研究段階から実装段階へ

4 医学QAでも LLMの性能が急速に向上

5 言語モデルに関する簡単なおさらい

言語モデル（Language Model; LM） 6 • 言語モデル（Language Model）とは、ある単語系列を入力として、その系列の尤もらしさ（Likelihood）を出力する確率分布モデルとして定義される • 近年は「言語理解・言語知識を持った機械学習のアーキテクチャ」という意味で
使用されることも多く、LLMの文脈でもこの意味で理解するほうが自然雨今日はが降るので日本傘 Likelihood = 0.2 Likelihood = 0.01 言語モデルの直感的な説明

言語モデルの発展 7 • 自然言語処理の分野でも大きなパラダイムシフトが起きている • 教師あり学習・ファインチューニングからプロンプト調整の世界に • 解けるタスクの自由度についても、格段に広がってきている Zhao et
al. 2023

Self-supervised learning 8 • これまでは、専門家がラベル付け作業を行い、学習データを準備するのが一般的だったが、人手によるものなので、データ量に限界があった • 自己教師あり学習は、人手でラベル付け作業を行うのではなく、データ自身の情報だけでモデルの学習（データの一部をマスクして予測を行うなど）を行い、データの分布や特徴などを獲得する
• 自己教師あり学習の成功により、Web上の大量データだけを使って、汎用的な言語モデルを構築することが可能となった “Self-supervised learning could lead to the creation of AI that’s more humanlike in its reasoning” (Yoshua Bengio and Yann LeCun) https://venturebeat.com/ai/yann-lecun-and-yoshua-bengio-self-supervised-learning-is-the-key-to-human-level-intelligence/

大規模言語モデルの発展 9 Zhao et al. 2023

医療LLMの現在地：6つの論点 10 1. LLMの医学知識・能力 2. 医療文書生成・要約 3. 情報抽出・RWD 4. マルチモーダル化
5. 評価・ベンチマーク上の課題 6. EHR統合・実装上の課題

パターン認識を超えた発展 12 • 従来のAIはパターン認識に強い一方、知識を問うようなQAタスクは苦手としていた • LLMの発展により、従来よりも自然言語の理解・生成能力が大きく向上している • QAタスクなどのベンチマークでは、人間
に匹敵・上回る報告も多く、正答率のみでの評価は限界に近づきつつある (Nori et al., 2024)

Med-PaLM 2 (Singhal et al. 2025) 13 • Googleが発表した医療特化LLM（PaLM2を基盤としたドメイン適応モデル） •
医療データを用いた指示チューニングを実施し、医療知識と推論能力を最適化 • 医学的質問の回答について、多くの評価軸で医師を上回る品質の回答を得た

Medprompt (Nori et al. 2023) 14 • 医療分野におけるGPT-4の能力を引き出すため、Medpromptと呼ばれるプロンプトエンジニアリング戦略を開発し、
MedQAで90.2%超えを達成 • 汎用モデルに対し、高度なプロンプト戦略を適用することで、ドメイン特化型のモデルの性能を上回る可能性を示した

Nori et al. 2024 15 • OpenAIが推論モデルの先駆けとしてリリースした「o1-preview」を用いた医療ベンチマークの評価結果 •
MedQAで96.0%というスコアを記録し、既存のタスクのほぼ上限を達成 • 難易度の高い問題に対して、多くの推論時間をかけるほど、正答率が高かったことを報告した

Kawakami et al. 2025 16 • Qwen2.5をベースとした医療特化LLMで日本語のIgakuQAにおいて、 GPT-4oを上回る正答率を達成 •
継続事前学習で医療ドメイン知識を注入し、また、強化学習で推論能力を向上させることで、高い精度と回答までの推論過程の安定化を実現

Meerkat (Kim et al. 2025) 17 • LLMでは「知識量≒モデルサイズ」とされるが、軽量モデルでも高い医学知識を獲得可能であることを示した
• 医学書から複雑な推論プロセスを抽出し、合成データを作成し、モデルを微調整 • 高品質なデータによる推論能力の強化により、10B以下の軽量モデルでも高度な知識を有するモデルが蒸留できることを報告した

推論能力を引き出す技術 18 Chain-of-Thought (Wei et al. 2022) • 暗黙の推論プロセスを、「思考の連鎖（Chain-of-Thought：CoT）」と呼ばれる一連の中間推論ステップとして明示化することで、LLMの複雑な推論能力を引
き出せることを示した

推論能力を引き出す技術 19 Test-Time Compute（推論時スケーリング） • OpenAI o1に代表される推論モデルでは、回答前に内部的な「思考の連鎖」を生成し、時間をかけて考えるように設計・訓練されている •
複雑な論理的思考を要する課題において、推論時により多くの計算資源や時間を割くことで性能が向上することが示された https://openai.com/index/learning-to-reason- with-llms/

推論能力を引き出す技術 20 Reasoning Preference Optimization (Pang et al. 2024) •
選好最適化と呼ばれるモデルが「より望ましい出力」を選びやすくする手法 • 推論タスク向けの選好最適化手法であり、正解した「推論過程＋最終回答」を選好例、不正解例を非選好例として学習する • 模範の推論例も一緒に学習させることで、より妥当な推論過程を出しやすくする

Small et al. 2025 22 • 入院経過（Hospital Course: HC）の要約作成において、医師とLLMの品質を検証
• 医師が作成したHCよりも、LLMが生成のHC のほうが、編集した割合が統計的に有意に少なかった（平均44.8% vs 平均31.5%） • ただし、Confabulation-Free（空想がないこと）の項目の評価においては、医師のほうが優れており、いわゆる「ハルシネーション」の課題があったことを報告した

Rotenstein et al. 2026 23 • AI scribe（AIを用いて、診察中の会話からカルテ記事を生成すること）の導入による医師の作業時間や診察数への影響に関する調査 •
AI scribeが8時間の診療枠あたり13.4分（3.0%）の減少に貢献することを示した • 文書業務の時間短縮に伴い、訪問件数が増加し、医療提供のキャパシティ向上にも寄与

Williams et al. 2025 24 • 医師とLLMの退院サマリの品質について評価し、5段階評価で医師とLLMの間に有意な差は認められかった（平均3.77 vs 平均3.67）ことを報告
• LLMが「簡潔さ」と「一貫性」で医師を上回る一方、「包括性」で下回る結果となり、LLMの「簡潔さ」と「情報の欠落」のトレードオフの難しさが示唆された

Swiss cheese model 25 「Clinician-in-the-loop」による品質の保証 • LLMが診療記録から草案を作成し、医師がレビューと編集することで効率的に最終的な品質と安全性を確保する（多層防御の考え方） https://www.aisafetybook.com/textbook/component-failure-accident-models

情報抽出・RWD 27 • RWD発展の鍵は、構造化データだけではなく、フリーテキストの非構造データを合わせて日常診療データから臨床的に価値のある情報を抽出し、解析可能な形に変換すること (Adamson et al. 2023)

従来の手法：パイプライン型の情報抽出 28 • 前処理、特徴量設計、固有表現抽出、構文解析、後処理を組み合わせ、タスクごとに辞書・ルール・アノテーションを設計 (Perera et al. 2020)

LLM：生成型の構造化アプローチ 29 • デコーダーベースの生成型モデルにより、NER、関係抽出、イベント抽出などを一度に構造化して出力 • タスクごとの個別モデル設計から、基盤モデルを用いた柔軟な情報抽出へ移行しつつある
(Xu et al. 2023)

Hu et al. 2026 30 • 医療テキストの情報抽出タスクにおいて、従来のBERT ベースとLLMについて有用性を比較 • LLM（LLaMA2・3）モデルは、すべてのデータセットに
おいてBERTの抽出精度を上回ったことを報告 • 学習データが十分に存在する場合の性能差は小さいが、学習データが少ない状況ではその差がより大きくなるとした • サイズが大きいモデル（LLaMA-3 70B）が最も高い性能を示したが、性能と処理速度（計算コスト）のバランスでは、8Bの小型モデルが実用的であることを示した

Guevara et al. 2024 31 • 電子カルテのテキスト情報から健康の社会的決定要因（SDoH）に関する臨床情報を抽出する研究 • アノテーションデータを使って、訓練されたモデ
ル（Flan-T5）が、ChatGPT 4などの汎用LLMよりも良い性能であることを示した • ChatGPTで生成した合成データを追加することでさらに性能が改善することを報告

Luo et al. 2025 32 • 電子カルテの構造化データのみでは、詳細な喫煙歴（喫煙指数、禁煙年数など）が欠落していることが多く、自由記述の経過記録からの情報抽出が不可欠 • LLM
（Gemini 1.5 FlashやGPT-4など）により、96%以上の高い抽出精度を達成 • この手法を実データに適用し、二次原発性肺癌のリスク予測モデル（SPLC- RAT）に組み込むことで、従来のガイドラインよりも優れた精度で高リスク患者を特定できることを示した

Ishida et al. 2025 33 • LLMを用いて婦人科腫瘍のレポートから TNM病期分類を自動抽出する研究 • 現状の人手でのレジストリ入力では、5.5%
から17.0%の登録エラーが確認された • クラウド型LLM（Gemini 1.5）とローカル LLM（ Qwen2.5 72B ）による情報抽出を評価したところ、いずれも人手よりも正確に入力できることを示した

LLMからマルチモーダルAIへ 35 • 従来のLLMは主にテキストを入力とし、医学知識や臨床文書を扱うモデルとして発展してきた • 一方、医療データはテキストだけでなく、画像・波形・動画・検査値など多様なモダリティから構成
される AlSaad et al. 2024

VLM（Vision Language Model） 36 • 画像の視覚情報と言語情報を統合的に理解・処理するモデル • 画像の特徴を、言語と対応可能な「意味（ベクトル）空間」で表現する Li et
al. 2025

医療VLMの応用 37 • 医療VLMは、画像を読むだけではなく、画像と言語情報を橋渡しする • 画像とテキストを同時に扱うことで、VQA、レポート生成、疾患診断、病変検出などへの応用が可能となる Zhang et al.
2024

CLIP (Zhou et al. 2021) 38 • 画像とテキストを同じ意味空間で対応づけることを可能とするVLM • アラインメント（画像と言葉の意味的な対応づけ）により、対応する画像とテキ
ストを近づけ、関係のない対応の組み合わせを遠ざけるように埋め込み空間を学習する

LLaVA (Liu et al. 2023) 39 • VLMの代表的なアーキテクチャの一つで、画像特徴をLLMへと統合する方式 • Projectorという変換器を用いて、Vision
Encoderで抽出された画像特徴を、テキスト埋め込み表現へ変換し、画像情報をLLMに入力できるようにするのが特徴

RadFM (Wu et al. 2025) 40 • 1,600万件以上の2D・3D医療スキャンを含むデータセットで学習された、放射線科向けの汎用基盤モデル •
2D画像や3D CTなどの医用画像をVisual Encoderで特徴量に変換し、画像特徴とテキストを交差させた入力系列を用意する

MoMA (Gao et al. 2025) 41 • MoMA（Mixture-of-Multimodal-Agents）を連携させ、異なるデータ形式を統合 • スペシャリスト・エージェントが、画像や数値データなどの非テキストデータ
を、テキスト形式のサマリーに変換し、臨床予測タスクに入力する

医療VLM・マルチモーダルAIの課題 42 課題説明データ大規模で高品質な画像・テキストペアが限られ、施設差やモダリティ差も大きい評価 VQA、レポート生成などで評価指標が統一されておらず、臨床的妥当性を測りにくい
安全性幻覚、見落とし、過剰診断、ブラックボックス問題実装計算コスト、ワークフロー統合の障壁

評価・ベンチマーク上の課題 44 • 医師国家試験・MedQAのような静的QA評価では、OpenAI o1が満点に近いような高い性能を示し、単純な正答率比較は差が見えにくくなりつつある • 一方で、多肢選択式・試験問題ベースの評価は、実臨床で必要な問診、鑑別診断、不確実性の扱い、検査選択、患者説明を十分には評価できない •
医療LLMの評価では、「医学知識を持っているか」から「不完全情報のもとで安全に臨床判断を支援できるか」へ移りつつある

PrIME-LLM (Rao et al. 2026) 45 • 従来の多肢選択式問題による評価のみでは、LLMの複雑な臨床推論能力を十分に測定できないという課題があった •
LLMの臨床推論能力を多角的に評価（最終診断のみではなく、鑑別診断、診断検査、その他の臨床推論など）する指標「PrIME-LLM」を開発 • 最先端のフロンティアLLMでは、最終診断においていずれも高い精度を達成したものの、鑑別診断、最終診断に至る過程などの判断がいずれも十分でないことを報告した

MedThink-Bench (Zhou et al. 2025) 46 • 先のPrIME-LLMと同様に最終回答だけではなく、推論過程や論理構造を評価するためのベンチマークを作成 •
中間推論プロセスを明らかにする根拠を専門家がアノテーションし、これをリファレンスとしたLLM-as-a-Judgeの評価フレームワークを構築 • PrIME-LLMと同様、最終的回答が合っていても推論プロセスが誤っているケースがあり、LLMの推論過程のブラックボックスの課題を明らかにした

AgentClinic (Schmidgall et al. 2026) 47 • 実臨床では不完全な情報の元で、患者との対話、追加情報の収集、検査選択など逐次的な意思決定が求められる •
AgentClinicは、医師・患者・検査担当・判定者の異なるエージェントで模擬診療を行い、診断結果など評価する • 従来の医学QAベンチマークで高性能なLLMでも、実際の診療に近い「対話的・逐次的な意思決定」環境では性能が大きく低下することを報告

HealthAdminBench (Bedi et al. 2026) 48 • これまで医療LLMの評価では医療事務タスクの評価はほとんど行われていない • 専門家が設計した135の事務タスクからなるベンチマークを作成し、LLMエー
ジェント（画面を操作するcomputer-use型のエージェント）の信頼性を評価 • ChatGPTやClaudeなどのフロンティアモデルでも、個別のタスクの性能は高いものの、一連のワークフローを完遂させることが難しかったことが示された

McCoy et al. 2025 49 • 臨床推論スキルを評価するため、スクリプト一致試験（不確実な状況下で、新しい情報に基づいて判断をいかに更新できるか）におけるLLMの性能を評価 • LLMの試験結果が上級研修医や指導医のレベルには達していないことを報告
• 思考の連鎖や推論モデルにより、深く推論することで極端な評価を出力する「過剰な自信（overconfidence）」を示す傾向があることを明らかにした

まとめ 50 • 医師国家試験や医療QAでは、専門家レベルに近い高い医学知識・推論能力が示されつつある • LLMによる研究の領域を超えて、医療文書作成支援はすでに臨床現場で実装・活用が進んでいる • 画像、テキスト、検査値などを統合し、患者状態を多面的（マルチモーダル）に
理解するAIへ発展しつつある • 高いベンチマークスコアだけでなく、実際の臨床プロセスで安全に役立つかが今後の鍵となる

52 • 米国の病院を対象とした調査において、2024年時点で31.5%の病院がEHR統合型の生成AIを導入済みであり、24.7%が1年以内に導入予定であることを報告 • Epic社のEHRを使用している病院で導入・導入予定の割合が大幅に高かった

53 https://www.healthcaredive.com/news/epic-rolls-out-ai- charting-art-notetaking-documentation-scribe/811462/ https://www.epic.com/epic/post/microsoft-and-epic-expand- strategic-collaboration-with-integration-of-azure-openai-service/ Epicが進める生成AI戦略

国内事例 54 • NEC、富士通、IBMなど主要な電子カルテベンダーが開発・実装を進めている開発中の「MegaOak/iS AIメディカルアシスト」の画面 https://jpn.nec.com/press/202403/20240318_01.html

国内事例 55 • スタートアップを中心に業務支援AI・音声入力支援AIなどの実装が進んでいる https://medimo.ai/ https://txpmedical.jp/service/speecher/ https://intro.dr-ubie.com/hospitals/generativeai_lp

56 生成AIは、性能だけでは医療現場に価値を産まない環境および技術的な論点 • EHRや患者ポータルに統合され、日常業務の中で自然に使える • 既存ワークフローを妨げず、医療者の負担を増やさないUI・運用設計 • 導入効果を出すための業務再編、現場教育、組織的なリーダーシップ •
AIの出力に誰がどう責任を持つかという人間との役割分担

57 • 医療技術の導入では、チャンピオンと呼ばれる現場での採用・定着を支える推進者が重要とされる • 導入効果の最大化には、個人の主体性に加えて、役割の明確化、活動時間の確保、教育機会、組織的支援が不可欠である

58 • インフラやワークフロー統合などの面から、電子カルテ（EHR）ベンダーがサードパーティのAI開発企業に対して圧倒的な競争優位性を持っていることを指摘 • 優れたサードパーティ製品をもつスタートアップの参入が困難となり、公平な競争が欠如し、エコシステム全体の健全性が失われるとの懸念を示している • EHRとシームレスに連携するためのAPI連携の普及、サンドボックスの提供などを通じて、効果的なソリューションがより普及することが望ましいとしている

優れた流通は優れた製品に勝る 59 • 有名病院が採用したからといって、他が追随するという「halo effect（ハロー効果）」は生まれない • 電子カルテ（Epic）との連携のしやすさが大きな競争力になる https://x.com/joshuapliu/status/2063774750615199949
“病院が王様だと思っていた。でも、本当のキングメーカーはEpicだった。” Joshua Liu (SeamlessMD共同創業者・CEO) の投稿

独自仕様から標準APIへ 60 サードパーティAIが医療現場に入るために • 独自仕様や個別実装に依存した連携では、外部ベンダーやサードパーティAIが参入しにくい • 柔軟なEHR連携には、システム間の依存を減らし、疎結合な構成を保つことが重要 •
そのための共通言語として、例えばFHIRのような標準規格が考えられる https://aigilxhealth.com/providers

コンテキストの重要性 61 「何を見て答えるか」が出力を左右する • LLMは与えられた情報の範囲でしか答えられない（プロンプトの指示だけでは限界がある）≒ 優秀な人材でも、院内ルール・業務フローを知らず、診療情報など必要な情報にアクセスできなければ現場では活躍できない • 多くのタスクでは、プロンプトの指示の書き方だけでなく、院内ルールや患者情
報など、目的に応じた情報へのアクセスが前提になるタスクに応じて情報を整理し、適切なコンテキストとしてLLMに渡すことが重要

コンテキストの重要性 62 • EpicのようなEHRベンダーは、患者データ、 UI、ワークフローに近く、コンテキストへのアクセス性で大きな優位を持つ • 外部のサードパーティは優れたLLMを持っていても、EHR内のコンテキストにアクセスできなければ利活用は限定される
• MCP（Model Context Protocol）の概念は、コンテキストを、外部LLMに対して標準化した形で提供するためのインターフェースとなり得る https://www.ultralytics.com/ja/blog/the-next-step-in-ai- automation-model-context-protocol-mcp

LLMの出力の品質の決定要因 63 入力情報（≒プロンプト）指示コンテキスト例示モデルパラメータアーキテクチャ
学習データ

Prompt Engineering 64 • LLMを効果的に用いるために指示・質問・出力形式などのプロンプトを設計するためのプロセス • 医学研究でも、同じLLMでもプロンプトの設計によって回答の品質が大きく影響することなることがしばしば報告されている(Li et
al. 2026) https://www.astera.com/type/blog/prompt-engineering-best-practices

Context engineering 65 • LLMへ与える文脈情報（参照情報・検索結果・ツール出力など）を設計・管理するためのプロセス • 単にプロンプトを書くのではなく、限られたコンテキストウィンドウにどの情報を入れる
かが重要 • そのため、検索・ツール利用・会話履歴・外部データを整理し、必要な文脈を動的に与える設計が重要とされている https://www.philschmid.de/context-engineering

Retrieval-Augmented Generation (RAG) 66 • LLMが持つ知識にすべて任せるのではなく、タスクに即して外部の知識を参照することで、タスクの性能改善（検索など）を目指す • ユーザーのプロンプトから、外部の知識を参照し、
適切な情報を取り出した後、その情報をプロンプトに注入し、LLMに応答を生成させる (Asai et al. 2023)

SELF-RAG (Asai et al. 2023) 67 • 従来のRAGでは、検索した文書を一括でLLMに与えるため、関係のない文脈が混入したり、ソースに根拠のない内
容を生成したりする可能性があった • Self-RAGは、検索するかどうか、検索結果が役立つか、生成文が根拠に支えられているかを、モデル自身が評価しながら回答を生成する枠組み • 文脈を動的に取得・選択することで、回答の事実性・検証可能性を高めた

Agentic RAG 68 • 従来のRAGでは、検索した文書を一括で LLMに与えるため、関係のない文脈が混入したり、ソースに根拠のない内容を生成したりする可能性があった • Agentic
RAGでは、LLMエージェントが質問を分解し、情報源の選択、検索クエリ作成、再検索などを能動的に行う • これにより、必要な情報を選択・圧縮・統合し、限られたコンテキストウィンドウを有効に使うことが可能となる https://www.geeksforgeeks.org/artificial- intelligence/what-is-agentic-rag/

コンテキストが品質を決める 69 • 病院業務では、教科書的な医学知識だけでなく、患者の検査値、処方歴、経過記録、さらに法規制、院内ルールなどの情報（コンテキスト）が必要になる • プロンプトやモデル性能に加えて、コンテキストへの適切なアクセス、必要なツールの利用が品質に大きく影響する • Epicのように電子カルテベンダーがコンテキストへのアクセス容易性で圧倒的に
優位であり、これを共有し、相互運用性を高めるのは容易ではない • 今後はLLMのモデル性能の良し悪しだけではなく、情報のアクセス性の障壁を下げることで、優れたソリューションが普及し、より効果的なエコシステムの構築が出来る可能性がある

まとめ 70 • 医療AI・LLMは医学QAで急速に性能が向上し、さらに診断支援や臨床推論など、より臨床に近い課題へ応用が広がっている • AIスクライブ（診療記録の自動生成）など、実際の医療現場での社会実装が進みつつある • フリーテキストの構造化によるリアルワールドデータ（RWD）の活用により、
研究・臨床での新たな価値創出が期待される • 性能だけでは社会実装は普及しない。コンテキストへのアクセスと統合が、品質と実装を大きく左右する • API連携・相互運用性の障壁を下げることが健全なエコシステムにつながる

医療LLMの現在地〜最新研究から社会実装までを考える〜

医療LLMの現在地〜最新研究から社会実装までを考える〜

More Decks by kento sugimoto

Other Decks in Research

Featured

Transcript