医療分野におけるLLMの現状と応用可能性について

医療分野におけるLLMの現状と応⽤可能性について〜アカデミア∕病院の⽴場からのLLMへの期待と課題〜

第４次AIブームの到来第１次第２次第３次第４次推論‧探索エキスパートシステム深層学習⽣成AI

https://www.nikkei.com/article/DGXZQOUC317WP0R30C23A5000000/ https://www.asahi.com/articles/ASR6H3Q13R6GUTFL00H.html https://www.itmedia.co.jp/news/articles/2401/18/news090.html 第４次AIブームの到来⽣成AIとは何か、どこまで進んでいるのか、医療領域でも使えるのか、どんな課題はあるのか

本⽇の内容話すこと • LLMの概要 • 医療分野におけるLLMの研究紹介 • 医療応⽤に向けたLLMへの期待と課題話さないこと •
⾃然⾔語処理全般の説明 • LLMのアーキテクチャや数式的な説明

⽬次 • LLMの概要 • 医療分野におけるLLMの研究紹介 • 医療応⽤に向けたLLMへの期待と課題

⾔語モデル（Language Model; LM） • ⾔語モデル（Language Model）とは、ある単語系列を⼊⼒として、その系列の尤もらしさ（Likelihood）を出⼒する確率分布モデルとして定義される • 近年は「⾔語理解‧⾔語知識を持った機械学習モデル」という意味で使⽤されることも多く、LLMの⽂脈でもこの意味で理解するほうが⾃然
⾬今⽇はが降るので⽇本傘 Likelihood = 0.2 Likelihood = 0.01 ⾔語モデルの直感的な説明

⾔語モデルの発展 • ⾃然⾔語処理の分野でも⼤きなパラダイムシフトが起きている • 教師あり学習‧ファインチューニングからプロンプト調整の世界に • 解けるタスクの⾃由度についても、格段に広がってきている Zhao et al.
2023

⼤規模⾔語モデルの発展 Zhao et al. 2023

Self-supervised learning（⾃⼰教師あり学習） • これまでは、専⾨家がラベル付け作業を⾏い、学習データを準備するのが⼀般的だったが、⼈⼿によるものなので、データ量に限界があった • ⾃⼰教師あり学習は、⼈⼿でラベル付け作業を⾏うのではなく、データ⾃⾝の情報だけでモデルの学習（データの⼀部をマスクして予測を⾏うなど）を⾏い、データの分布や特徴などを獲得する •
⾃⼰教師あり学習の成功により、Web上の⼤量データだけを使って、汎⽤的な⾔語モデルを構築することが可能となった “Self-supervised learning could lead to the creation of AI that’s more humanlike in its reasoning” (Yoshua Bengio and Yann LeCun) https://venturebeat.com/ai/yann-lecun-and-yoshua-bengio-self-supervised-learning-is-the-key-to-human-level-intelligence/

ChatGPT • ⾔語モデルは単語系列の尤もらしさを最⼤化するモデルに過ぎず、⾃然な会話などを⾏うのは難しいとされており、また、出⼒結果に有害な情報、役に⽴たない情報を含むことがしばしばあった • Instruction tuning（Ouyang
et al. 2022）と呼ばれる⼿法を取り⼊れ、ユーザーの欲しい情報に応じて適切な出⼒を調整（アラインメント）することで、ユーザーとの⾃然な会話‧リクエストに応じた出⼒が可能となった https://openai.com/chatgpt

Reinforcement Learning from Human Feedback (RLHF) • ユーザーのリクエストにアラインメントさせる⽅法として⾏ったのがRLHFと呼ばれる強化学習の⼿法の⼀つ
• 学習の流れとしては 1. プロンプトを与え、⼈間のラベラーの出⼒を使⽤してLLMを教師あり学習 2. プロンプトに対するLLMの出⼒を複数集め、⼈間がその出⼒をランク付けする。このランク付きデータを⽤いて、報酬モデルを学習させる（どの出⼒が望ましいのかを学習する） 3. プロンプトの出⼒から報酬を⽣成し、報酬を最⼤化するよう強化学習を⾏う Zhao et al. 2023

まとめ • 教師あり学習はタスクに応じて専⾨家がラベル付け作業を⾏い、学習データを準備するのが⼀般的だったが、⼈⼿による作業を伴うものなので、データ量の準備に限界があった • ⾃⼰教師あり学習により、汎⽤的な⾔語知識を持つ⾔語モデルの構築され、タスク毎に少量のデータでファインチューニングする⼿法が確⽴された • ⾔語モデル、学習データの⼤規模化により、ファインチューニングを⾏わず
、プロンプトの⼊⼒だけで期待する出⼒を得ることが可能となってきている • モデルのアライメントにより、⾔語モデルの限界を超えたユーザーとの⾃然な会話、有害な出⼒の制御などの実⽤⾯での課題が改善された

医学領域におけるLLMの応⽤ 1. Education 2. Patient Care 3. Research Clusmann et
al. 2023

Kung et al. 2023 • ChatGPTに⽶国の医師資格試験 United States Medical Licensing
Exam (USMLE) を解かせた論⽂ • Step毎の試験を解かせ、いずれの試験でも合格⽔準の60%に近い⽔準を達成 • Step 1（主に基礎科学・薬学・病態⽣理学などを2年専攻した医学⽣が受ける試験） • Step 2CK（さらに研修を通じて臨床推論・臨床医学を専攻した4年次の医学⽣が受ける試験） • Step 3（さらに卒後教育を終えた後の医師が受ける試験）

Kung et al. 2023 • ChatGPTは⽣物学医学の分野に特化したPubMedGPTよりも⾼い性能であった • Step 1の精度は最も低く、Step
3が最も⾼いという結果は実際の受験者の感覚に沿うものであった • ChatGPTは多くの問題で有⽤な洞察‧論理的な説明（例：副腎⽪質機能亢進症により⾻破⾻細胞の活動が増加した結果、カルシウム吸収が減少し、⾻密度が減少して⾻折リスクが増加する）を出⼒できており、将来の医学教育の有効性を⽰唆している

Tanaka et al. 2024 • ChatGPTに⽇本の医師国家試験を解かせて、合格ラインを達成 • ⽇本語を英語に翻訳し、簡単な要約などを⾏うようプロンプトをチューニング
• GPT-4の訓練終了後の試験（117回；2023年 2⽉）を⽤いて性能を評価 • 医学知識の不⾜だけではなく、⽇本の医療制度の問題、数学的な計算問題などのエラーがあった • 不適切な回答の根拠では、もっともらしい医学知識に基づく説明（ハルシネーション）もあった

Suchman et al. 2023 • ChatGPTを使⽤して、⽶国消化器病学会の多肢選択式の⾃⼰評価テストに取り組んだ論⽂ • 合格基準70%に対し、GPT-3.5で65.1%、GPT-4で62.4%の正答率で、いずれも不合格の判定であり、これまでの肯定的な報告とは異なり、消化器学の医
学教育において慎重な議論が必要であることを報告した • 原因として、ChatGPTが最新のガイドラインによって訓練されていないこと、有料の雑誌へのアクセスが制限されていたことにより、消化器学の領域の最新の知識を⼗分に獲得できていないとしている

Ayers et al. 2023 • ChatGPTを⽤いて⼀般の患者への回答の品質‧内容について評価 • ソーシャルメディアに投稿された質問を⽤いて､医師による回答と⽐較 • 評価者は78.6%の指標においてChatGPTの回答のほうが適切と評価した
• 回答が共感的な内容の評価ついても、有意にChatGPTの回答のほうが共感的であるという結果であった

Jeblick et al. 2023 • ChatGPTを⽤いて、画像診断レポートの平易化の有⽤性を検証 • 放射線科医が品質‧完全性‧事実性‧⼀貫性などのいくつかの観点で ChatGPTの⽣成結果を評価したところ、ほとんどの⽣成結果が完全であり、患者に害を及ぼす可能性はないと判断していた

Sarraju et al. 2023 • ChatGPTが⽣成する⼼⾎管疾患（cardiovascular disease; CVD）の予防のためのアドバイスの有⽤性‧妥当性について評価 •
ガイドラインに基づく予防のトピック、臨床経験に基づいて、危険因⼦のカウンセリング、検査結果、投薬情報などの基本的な予防の概念を扱う25の質問を作成した • 医師らが作成したCVDに関する25の質問の回答結果を評価した結果、21の回答は適切であるという結果であった • 回答結果への課題はあるものの、⼀般的なCVD予防に関する質問に対する患者教育や患者と医師のコミュニケーションを⽀援するワークフローへの有⽤性が⽰唆されたとしている

Wang et al. 2023 • ChatGPTと画像AIを組み合わせて、胸部単純レントゲン画像の診断⽀援（ CAD）を⾏った研究 • マルチモーダル（画像‧テキスト）を⽤いた実臨床への有⽤性を⽰している

まとめ • 専⾨知識を必要としないタスク（administrative task）や、ユーザープロンプトで情報が提供されるタスクにおいては、優れたパフォーマンスを⽰すことが多くの研究で⽰されている（Thirunavukarasu et al. 2023） •
例えば、退院サマリのような要約‧⾔い換えがメインのタスクでは医療従事者の負担を軽減できる可能性が⾼いとしている（Patel and Lam 2023） • その他、ユーザープロンプトで提供できるタスクとして、情報抽出‧構造化などが考えられ、例えばフリーテキストの画像診断レポートからの情報抽出などのタスクへの有⽤性も⽰されている（Adams et al. 2023）

（参考）電⼦カルテからの医療⽂書作成の検証 • NECと東北⼤学病院でのLLMを⽤いた医療⽂書の⾃動作成に関する実証実験 • 紹介状などの⽂章の作成時間が平均47%削減できたとしている https://jpn.nec.com/press/202312/20231213_01.html

• Ubieと恵寿総合病院でのLLMを⽤いた医療⽂書の⾃動作成に関する実証実験 • 医師の退院時サマリー作成業務を最⼤1/3にまで短縮できたとしている（参考）電⼦カルテからの医療⽂書作成の検証 https://prtimes.jp/main/html/rd/p/000000066.000048083.html

LLM limitations(Thirunavukarasu et al. 2023) 課題内容 Recency LLMで使⽤する訓練データは特定時点までの情報しか含めることができず、新しい臨床概念‧研究の知⾒などを得ることができない。
Accuracy ⾃⼰教師学習は、訓練データの内容を理解しているのではなく、単語間の確率的な関連付けを訓練しているに過ぎない。また、訓練データに使⽤されるウェブサイトや書籍などの情報の信頼性は保証できない。 Coherence モデルは与えられた⼊⼒をもとに、学習された単語間の関連付けに基づいてテキストを出⼒しているに過ぎず、存在しない情報もあたかも真実であるかのように出⼒し得る（ハルシネーション）。 Transparency and interpretability モデルがどのように回答を⽣成するのかのプロセスが不明である。また、⽣成された回答は訓練セットのどの部分に関連しているかは不明である。 Ethical concerns 出⼒が有害、差別的、攻撃的である可能性があり、また、プライバシーやセキュリティ侵害のリスクなどの懸念もある。

Hallucination • Factuality Hallucination • Faithfulness Hallucination Huang et al.
2023

Fine-tuning • 臨床テキスト（診療記録‧検査レポートなど）や医療情報⽂書（ガイドラインや論⽂など）を使⽤したドメイン適応 • ただし、多⼤なリソースとコストを要すること、臨床テキストを含める場合、個⼈情報の取り扱いの問題から課題も多い Zhang et al.
2023

LLMの利⽤‧拡張 • Prompting • Retrieval Augmented Generation (RAG) • LLM
Agents

Prompting • モデルの出⼒を導くためにユーザーから提供されるテキスト⼊⼒（プロンプト）をデザインすること • 期待する出⼒を得るためには、適切なプロンプトを⼊⼒する必要があり、そのプロンプトを設計するプロンプト‧エンジニアリングという分野が急速に発展している

Wei et al. 2022 • 暗黙の推論プロセスを明⽰化（Chain of Thought：CoTと呼ばれる⼀連の中間推論ステップを⽣成）することで、LLMが複雑な推論を⾏う能⼒を引き上げることができることを⽰した研究

Kojima et al. 2022 • マニュアルで中間プロセスを⼊⼒（Few-shot）するのに対し、単に「step by step」を⼊⼒に指⽰するだけのZero-shotのプロンプトでもLLMの性能が向上させることができることを⽰した研究

Nori et al. 2023 • 汎⽤LLMで特定の専⾨家の能⼒を引き出すために開発されたプロンプト戦略 • In-Context Learning (ICL)‧Chain
of Thought（CoT）‧Ensembling（複数の出⼒結果から結論を得る）などプロンプトを⼯夫することで、汎⽤LLMがそのドメインに特化したLLMの性能を上回ることが出来ることを⽰した研究 Brown et al. 2020

Retrieval Augmented Generation (RAG) • LLMの最新性‧正確性‧⼀貫性の課題を改善するアプローチの⼀つ • LLMが持つ知識にすべて任せるのではなく、タスクに即して外部の知識を参照することで、タスクの性能改善（検索など）を⽬指す •
単体のモデルに依存しない「Compound AI（複合型AI）」の⼿法として、実応⽤の分野でも注⽬されている

1. ユーザーのクエリーから、外部の知識を参照し、適切な情報を抽出する 2. その情報をプロンプトに注⼊し、LLMに応答を⽣成させる https://truera.com/ai-quality-education/generative-ai-rags/what-is-retrieval-augmented- generation-rag-for-llms/ Retrieval Augmented Generation (RAG)

Zakka Cyril et al. 2024 • RAGベースのLLMフレームワーク（Almanac）を提案 • PubMed、UpToDate、BMJ Best
Practicesのウェブサイトを外部知識として使⽤ • ⾃⾝らでClinicalQAを開発し、⼀貫性などの複数の指標で有⽤性を⽰した

Gao et al. 2023 • LLMの出⼒に医学分野の知識グラフであるUnified Medical Language System （UMLS）を活⽤して診断プロセスの合理性‧正当性について追求し、性能改
善を実現した研究

LLM Agents • LLMの発展により急速に盛り上がっている分野の⼀つ • LLMを活⽤したマルチエージェントの実現により、ロールを与えられたエージェントがそれぞれの専⾨性を活かして、複雑なタスクの解決を⽬指す
Chen et al. 2023

Tang et al. 2023 • 医療分野でのコラボレーション（MC）フレームワークを提案 • LLMエージェントを活⽤し、各ドメインが議論し、推論能⼒を⾼めることを⽰した研究

Blagec et al. 2023 • 既存の医療領域のベンチマークと実臨床で求められるタスクのギャップを分析 • 臨床現場での⼤きな負担になっている⽇常的な⽂書化や患者データ管理のワーク
フローを評価するベンチマークはほとんど存在しておらず、臨床現場における負荷軽減を定量化するための新しいベンチマークの作成が必要となる

Wornow et al. 2023 • 実臨床へのLLMの導⼊の意思決定のための実⽤的な指標を設計

Thirunavukarasu et al. 2023 • 医療におけるLLM応⽤の実験的研究はほとんど⾏われていないため、⾰新的な使⽤例を実証し検証するための厳密な研究が強く求められている • 具体的には、⽂書の質（有効な品質評価が必要）、作業効率、患者や医師の満⾜度などが考えられる
• 医療経済分析の観点からも、 LLMアプリケーションの導⼊の費⽤対効果が⾼いことを⽴証することが求められる

Minaee et al. 2024 課題内容軽量化‧効率化蒸留（Distillation）などにより、より軽量化し、コストを抑えられるモデルへアーキテクチャのパラダイムシフト Transformer型からの発展（Mambaなどの状態空間モデルへ）
マルチモーダルテキスト‧画像‧⾳声などを組み合わせた利便性の⾼いモデルへ拡張⼿法の発展外部ツールと組み合わせたLLMの拡張‧パーソナライズセキュリティ‧倫理⾯への配慮敵対的攻撃からの防御、倫理的⾯やバイアスへの対処 LLMの発展に向けた課題を以下の５つに整理

推進に向けた期待と課題 1. 既存システムとのシームレスな連携 2. セキュリティ要件の議論 3. 個⼈情報等のプライバシー⾯の整備 4. 業務プロセスの改善 5.
情報抽出（データの集積）

The Gap Between AI and Bedside (Olaye and Seixas 2023)
スタートアップから⽣まれるイノベーションとその技術が臨床現場に統合される間に⽣じるギャップについて、以下の４つの課題を挙げている 1. 医療システムの調達プロセスに関する知識‧理解 2. 厳しい規制や技術要件に関するコスト 3. 医療システムの調達プロセスに関する課題 4. ⼤企業と⽐較した、スタートアップ側の多⾯的な不利技術イノベーションの浸透の難しさ

診療範囲診療‧⼿術‧⼊院診療がメインシステム規模⼤規模⼩規模調達プロセス時間がかかる短期な場合が多い臨床研究（データの集積）
必要⾏わない場合が多い運⽤形態オンプレミスが多いクラウドが多いクリニック⼤学病院⼤規模病院への参⼊障壁の⾼さが課題 → ⼤規模病院の臨床現場に技術イノベーションが届きにくい⼤学病院とクリニックの環境の違い

既存システムとのシームレスな連携 • ⼤学病院など規模が⼤きくなるほど、システム連携が複雑になってくる • 優れたソリューションであっても、既存システムとのインターフェースが不⾜しているため、導⼊できない事例もしばしば • 各システムが連携しないことには、分離されたシステムを使⽤するユーザーの負担は⼤きく、現場には受け⼊れられにくい

セキュリティ要件の議論 • ⼤学病院などでは、情報セキュリティの観点から病院情報ネットワークと呼ばれるクローズドなネットワーク内で多くのシステムが構成されている • 昨今のセキュリティインシデントの事例から、ネットワーク境界のセキュリティにセンシティブな病院も多い • 最近のLLMの多くはクラウドサービスを前提としていることが多いが、病院情報ネットワークが対策なしにオープンなネットワーク（インターネット）
と接続されることは想定されず、そのギャップをいかに埋めるか（どう対策するか）の議論が不可⽋になる

個⼈情報の取り扱い • 病院などでLLMを利活⽤する場合、個⼈情報の扱いは避けられない • 学会などもLLMへの関⼼は⾮常に⾼いが、個⼈情報の扱いに関するコンセンサスが得られておらず、利活⽤には慎重な姿勢を取っている • 利⽤において、患者の同意、もしくは厳密な匿名化が必要とする場合、利⽤の障壁や匿名化による性能の影響などがあり、推進が難しくなる •
LLM推進のためには、現状の法規制‧ガイドラインを正しく解釈し、どこまでが問題ないのか、どうしたら利⽤できるのかを議論していく必要がある

個⼈情報の取り扱い • プロンプトに個⼈情報を含む場合、個⼈情報取扱事業者（病院など）がLLM サービス提供事業者に個⼈情報を「提供」（第三者提供）したと⾒なすか • クラウド例外（Q&A7-53）基準を適⽤すると、サービス提供事業者が個⼈情報を取り扱わない場合、個⼈情報の第三者提供には該当しないとされるクラウドサービスの利⽤が、本⼈の同意が必要な第三者提供に該当するかどうかは、クラウドサービスを提供する事業者において個⼈データを取り扱うこととなっているのかどうかが判断の基準となります。当該クラウドサービス提供事業者
が、当該個⼈データを取り扱わないこととなっている場合には、当該個⼈情報取扱事業者は個⼈データを提供したことにはならないため、「本⼈の同意」を得る必要はありません。個⼈情報取扱事業者の個⼈データに関する外部サービスの取り扱い（Q&A7-53）

個⼈情報の取り扱い • ただし、⼊⼒した個⼈情報がクラウド上に保存され、サービス提供事業者らがアクセスする可能性がある場合、前述のクラウド例外に該当しない • サービス提供事業者がその情報をサービス改善に使⽤する可能性がある場合、個⼈情報の漏洩のリスクもあり得るため、より厳格な注意が必要とされる個⼈情報取扱事業者が、あらかじめ本⼈の同意を得ることなく⽣成 AI サービスに
個⼈データを含むプロンプトを⼊⼒し、当該個⼈データが当該プロンプトに対する応答結果の出⼒以外の⽬的で取り扱われる場合、当該個⼈情報取扱事業者は個⼈情報保護法の規定に違反することとなる可能性がある。⽣成 AI サービスの利⽤に関する注意喚起等について

個⼈情報の取り扱い • サービス提供事業者が個⼈情報にアクセスしない場合、個⼈情報の第三者提供にあたらず、法律‧ガイドラインに抵触せずに利⽤できる可能性が⾼い • サービス提供事業者が個⼈情報にアクセスする可能性がある場合、契約条項 ∕患者同意など個別のケースに応じて検討するのが望ましい • サービス提供事業者がモデルの改善（学習）に利⽤する可能性がある場合、情報漏洩のリスクなどを鑑みて慎重に取り扱う必要がある
改善（学習）に利⽤する No Yes 個⼈情報にアクセスする No 🟢 🔴 Yes 🟡 個⼈情報‧ガイドラインをもとにした解釈（あくまで個⼈の解釈）

モデルの軽量化‧効率化 • ネットワーク環境∕個⼈情報の課題を鑑みると、オンプレ上で動作する軽量モデルのほうが導⼊しやすい • パラメータ数≒性能の世界において、実現は容易ではないが、現在も軽量化に向けて様々なアーキテクチャ‧⼿法が提案されている • 医療分野に特化したLLMの場合、⼀般ドメインを広く網羅する必要はなく、その点では軽量化の余地もあるのかもしれない

業務プロセスの改善 • 退院時サマリなどの⽂書作成‧要約などによる業務⽀援への期待 • LLMに適したタスクされるが、実際の診療記録のサマライズには課題も多い • 患者に必要な情報は診療記録‧検査記録‧画像診断レポートなど様々なデータソースに散在しており、また形式も多様 • このため、プロンプトとして与えるのに必要な情報を⼈⼿で収集し、準備す
る必要がある（⽂書作成にはこのプロセスに多くの時間がかかる） • また、医師が記載する診療記録にはコピペ‧⽂として成⽴しないような記載（メモなど）も含まれており、それらを解釈し、適切な⽂書を作成できるかについても確認が必要

情報抽出（データの集積） • ⽂書作成∕診断⽀援以外にも情報抽出としてのLLMの可能性にも期待 • 前述の通り、患者に必要な情報を収集する難しさから、研究に必要なデータを揃えるのにも時間がかかり、またその範囲にも限界がある • 作業なデータソースから、定型的な検索でできない（セマンティック検索に近い）情報抽出ができると、研究の推進にも貢献し得る •
また、⾃動化し、臨床プロセスに還元することで、モニタリング∕病態検出などにも繋げることができる

Big Picture 総合病院‧⼤学病院など電⼦カルテ部⾨システム部⾨システム DWH 医学研究
技術調査市販後調査製薬医療機器アカデミアデジタル治療アプリ FHIR 問診アプリ ePRO* *ePRO .. electronic Patient Reported Outcome デジタルヘルスによるシームレスな世界の実現に向けて

Big Picture 総合病院‧⼤学病院など電⼦カルテ部⾨システム部⾨システム DWH 医学研究
技術調査市販後調査製薬医療機器アカデミアデジタル治療アプリ FHIR 問診アプリ ePRO* *ePRO .. electronic Patient Reported Outcome デジタルヘルスによるシームレスな世界の実現に向けて LLM LLM LLM LLM LLM

⼤阪⼤学医学部附属病院の取り組みデータ‧プラットフォームの構築 • デジタルヘルス∕医療AI∕研究にも多くの投資が必要 • ⼤学も診療報酬‧研究費だけに頼らない収益の確保が求められる • 病院データ‧プラットフォームを構築し、第３の収益源につなげる⼤学病院⺠間企業
（製薬‧医療機器等患者データなど（匿名化して提供）ライセンス費⽤‧利⽤料など

⼤阪⼤学医学部附属病院の取り組み阪⼤病院データバンク • ⼈⼯知能等の新規技術の研究開発を推進するためには、⺠間企業‧他の⼤学や研究機関と共に進める必要がある • ⼀⽅、診療情報を⽤いた研究開発‧商品化を企業等が⾏う場合、患者の同意がないと利⽤できない可能性があり、研究開発が速やかに⾏えないケースが⽣じている •
医学研究及び医薬品‧医療機器等の開発‧商品化を国内外の研究機関や企業が共同もしくは単独で進めるために、患者から同意を得て取得した診療情報を蓄積し、利活⽤する

⼤阪⼤学医学部附属病院の取り組み⼤阪臨床研究ネットワーク（OCR-net） • 前向き研究のための臨床データ収集システム • 後ろ向き研究のための共通データベース構築 • 保険データだけではなく、検体検査‧画像データ‧ 画像診断レポートなどを蓄積する仕組みを構築 •
製造販売後調査／医療機器開発などの利⽤に向けた仕組みを検討 19施設（2023年3⽉現在）が参加

参考⽂献 Adams, Lisa C., Daniel Truhn, Felix Busch, Avan Kader,
Stefan M. Niehues, Marcus R. Makowski, and Keno K. Bressem. 2023. “Leveraging GPT-4 for Post Hoc Transformation of Free-Text Radiology Reports into Structured Reporting: A Multilingual Feasibility Study.” Radiology 307 (4): e230725. Arora, Anmol, and Ananya Arora. 2023. “The Promise of Large Language Models in Health Care.” The Lancet 401 (10377): 641. Ayers, John W., Adam Poliak, Mark Dredze, Eric C. Leas, Zechariah Zhu, Jessica B. Kelley, Dennis J. Faix, et al. 2023. “Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum.” JAMA Internal Medicine 183 (6): 589–96. Blagec, Kathrin, Jakob Kraiger, Wolfgang Frühwirt, and Matthias Samwald. 2023. “Benchmark Datasets Driving Artificial Intelligence Development Fail to Capture the Needs of Medical Professionals.” Journal of Biomedical Informatics 137 (January): 104274. Chen, Guangyao, Siwei Dong, Yu Shu, Ge Zhang, Jaward Sesay, Börje F. Karlsson, Jie Fu, and Yemin Shi. 2023. “AutoAgents: A Framework for Automatic Agent Generation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2309.17288. Clusmann, Jan, Fiona R. Kolbinger, Hannah Sophie Muti, Zunamys I. Carrero, Jan-Niklas Eckardt, Narmin Ghaffari Laleh, Chiara Maria Lavinia Löffler, et al. 2023. “The Future Landscape of Large Language Models in Medicine.” Communication & Medicine 3 (1): 141. Gao, Yanjun, Ruizhe Li, John Caskey, Dmitriy Dligach, Timothy Miller, Matthew M. Churpek, and Majid Afshar. 2023. “Leveraging A Medical Knowledge Graph into Large Language Models for Diagnosis Prediction.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2308.14321. Jeblick, Katharina, Balthasar Schachtner, Jakob Dexl, Andreas Mittermeier, Anna Theresa Stüber, Johanna Topalis, Tobias Weber, et al. 2023. “ChatGPT Makes Medicine Easy to Swallow: An Exploratory Case Study on Simplified Radiology Reports.” European Radiology, October. https://doi.org/10.1007/s00330-023- 10213-1. Kraljevic, Zeljko, Dan Bean, Anthony Shek, Rebecca Bendayan, Harry Hemingway, Joshua Au Yeung, Alexander Deng, et al. 2022. “Foresight -- Generative Pretrained Transformer (GPT) for Modelling of Patient Timelines Using EHRs.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2212.08072.

参考⽂献 Kung, Tiffany H., Morgan Cheatham, Arielle Medenilla, Czarina Sillos,
Lorie De Leon, Camille Elepaño, Maria Madriaga, et al. 2023. “Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models.” PLOS Digital Health 2 (2): e0000198. Lee, Peter, Sebastien Bubeck, and Joseph Petro. 2023. “Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine.” The New England Journal of Medicine 388 (13): 1233–39. Liu, Qianchu, Stephanie Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Maria Teodora Wetscherek, Robert Tinn, et al. 2023. “Exploring the Boundaries of GPT-4 in Radiology.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2310.14573. Minaee, Shervin, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, and Jianfeng Gao. 2024. “Large Language Models: A Survey.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2402.06196. Nori, Harsha, Yin Tat Lee, Sheng Zhang, Dean Carignan, Richard Edgar, Nicolo Fusi, Nicholas King, et al. 2023. “Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2311.16452. Patel, Sajan B., and Kyle Lam. 2023. “ChatGPT: The Future of Discharge Summaries?” The Lancet. Digital Health 5 (3): e107–8. Qiu, Jianing, Lin Li, Jiankai Sun, Jiachuan Peng, Peilun Shi, Ruiyang Zhang, Yinzhao Dong, et al. 2023. “Large AI Models in Health Informatics: Applications, Challenges, and the Future.” IEEE Journal of Biomedical and Health Informatics 27 (12): 6074–87. Sarraju, Ashish, Dennis Bruemmer, Erik Van Iterson, Leslie Cho, Fatima Rodriguez, and Luke Laffin. 2023. “Appropriateness of Cardiovascular Disease Prevention Recommendations Obtained From a Popular Online Chat-Based Artificial Intelligence Model.” JAMA: The Journal of the American Medical Association 329 (10): 842–44. Suchman, Kelly, Shashank Garg, and Arvind J. Trindade. 2023. “Chat Generative Pretrained Transformer Fails the Multiple-Choice American College of Gastroenterology Self-Assessment Test.” The American Journal of Gastroenterology 118 (12): 2280–82.

参考⽂献 Tu, Tao, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan
Freyberg, Ryutaro Tanno, Amy Wang, et al. 2024. “Towards Conversational Diagnostic AI.” arXiv [cs.AI]. arXiv. http://arxiv.org/abs/2401.05654. Wang, Lei, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, et al. 2023. “A Survey on Large Language Model Based Autonomous Agents.” arXiv [cs.AI]. arXiv. http://arxiv.org/abs/2308.11432. Wang, Sheng, Zihao Zhao, Xi Ouyang, Qian Wang, and Dinggang Shen. 2023. “ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image Using Large Language Models.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2302.07257. Wornow, Michael, Yizhe Xu, Rahul Thapa, Birju Patel, Ethan Steinberg, Scott Fleming, Michael A. Pfeffer, Jason Fries, and Nigam H. Shah. 2023. “The Shaky Foundations of Large Language Models and Foundation Models for Electronic Health Records.” NPJ Digital Medicine 6 (1): 135. Yan, Michael, Giovanni G. Cerri, and Fabio Y. Moraes. 2023. “ChatGPT and Medicine: How AI Language Models Are Shaping the Future and Health Related Careers.” Nature Biotechnology 41 (11): 1657–58. Zhou, Hongjian, Fenglin Liu, Boyang Gu, Xinyu Zou, Jinfa Huang, Jinge Wu, Yiru Li, et al. 2023. “A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2311.05112.

医療分野におけるLLMの現状と応用可能性について

医療分野におけるLLMの現状と応用可能性について

More Decks by kento sugimoto

Other Decks in Research

Featured

Transcript