Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

医療分野におけるLLMの現状と応用可能性について

 医療分野におけるLLMの現状と応用可能性について

kento sugimoto

July 10, 2024
Tweet

More Decks by kento sugimoto

Other Decks in Research

Transcript

  1. Self-supervised learning(⾃⼰教師あり学習) • これまでは、専⾨家がラベル付け作業を⾏い、学習データを準備するのが⼀ 般的だったが、⼈⼿によるものなので、データ量に限界があった • ⾃⼰教師あり学習は、⼈⼿でラベル付け作業を⾏うのではなく、データ⾃⾝ の情報だけでモデルの学習(データの⼀部をマスクして予測を⾏うなど)を ⾏い、データの分布や特徴などを獲得する •

    ⾃⼰教師あり学習の成功により、Web上の⼤量データだけを使って、汎⽤的 な⾔語モデルを構築することが可能となった “Self-supervised learning could lead to the creation of AI that’s more humanlike in its reasoning” (Yoshua Bengio and Yann LeCun) https://venturebeat.com/ai/yann-lecun-and-yoshua-bengio-self-supervised-learning-is-the-key-to-human-level-intelligence/
  2. ChatGPT • ⾔語モデルは単語系列の尤もらしさを最⼤化 するモデルに過ぎず、⾃然な会話などを⾏う のは難しいとされており、また、出⼒結果に 有害な情報、役に⽴たない情報を含むことが しばしばあった • Instruction tuning(Ouyang

    et al. 2022) と呼ばれる⼿ 法を取り⼊れ、ユーザーの欲しい情報に応じ て適切な出⼒を調整(アラインメント)する ことで、ユーザーとの⾃然な会話‧リクエス トに応じた出⼒が可能となった https://openai.com/chatgpt
  3. Reinforcement Learning from Human Feedback (RLHF) • ユーザーのリクエストにアラインメントさせ る⽅法として⾏ったのがRLHFと呼ばれる強化 学習の⼿法の⼀つ

    • 学習の流れとしては 1. プロンプトを与え、⼈間のラベラーの出⼒を使 ⽤してLLMを教師あり学習 2. プロンプトに対するLLMの出⼒を複数集め、⼈ 間がその出⼒をランク付けする。このランク付 きデータを⽤いて、報酬モデルを学習させる( どの出⼒が望ましいのかを学習する) 3. プロンプトの出⼒から報酬を⽣成し、報酬を最 ⼤化するよう強化学習を⾏う Zhao et al. 2023
  4. Kung et al. 2023 • ChatGPTに⽶国の医師資格試験 United States Medical Licensing

    Exam (USMLE) を解かせた論⽂ • Step毎の試験を解かせ、いずれの試験でも合格⽔準の60%に近い⽔準を達成 • Step 1(主に基礎科学・薬学・病態⽣理学などを2年専攻した医学⽣が 受ける試験) • Step 2CK(さらに研修を通じて臨床推論・臨床医学を専攻した4年次の 医学⽣が受ける試験) • Step 3(さらに卒後教育を終えた後の医師が受ける試験)
  5. Kung et al. 2023 • ChatGPTは⽣物学医学の分野に特化したPubMedGPTよ りも⾼い性能であった • Step 1の精度は最も低く、Step

    3が最も⾼いという結果 は実際の受験者の感覚に沿うものであった • ChatGPTは多くの問題で有⽤な洞察‧論理的な説明( 例:副腎⽪質機能亢進症により⾻破⾻細胞の活動が増 加した結果、カルシウム吸収が減少し、⾻密度が減少 して⾻折リスクが増加する)を出⼒できており、将来 の医学教育の有効性を⽰唆している
  6. Tanaka et al. 2024 • ChatGPTに⽇本の医師国家試験を解かせて 、合格ラインを達成 • ⽇本語を英語に翻訳し、簡単な要約などを ⾏うようプロンプトをチューニング

    • GPT-4の訓練終了後の試験(117回;2023年 2⽉)を⽤いて性能を評価 • 医学知識の不⾜だけではなく、⽇本の医療 制度の問題、数学的な計算問題などのエラ ーがあった • 不適切な回答の根拠では、もっともらしい 医学知識に基づく説明(ハルシネーション )もあった
  7. Suchman et al. 2023 • ChatGPTを使⽤して、⽶国消化器病学会の多肢選択式の⾃⼰評価テストに取 り組んだ論⽂ • 合格基準70%に対し、GPT-3.5で65.1%、GPT-4で62.4%の正答率で、いずれ も不合格の判定であり、これまでの肯定的な報告とは異なり、消化器学の医

    学教育において慎重な議論が必要であることを報告した • 原因として、ChatGPTが最新のガイドラインによって訓練されていないこと 、有料の雑誌へのアクセスが制限されていたことにより、消化器学の領域の 最新の知識を⼗分に獲得できていないとしている
  8. Sarraju et al. 2023 • ChatGPTが⽣成する⼼⾎管疾患(cardiovascular disease; CVD)の予防のた めのアドバイスの有⽤性‧妥当性について評価 •

    ガイドラインに基づく予防のトピック、臨床経験に基づいて、危険因⼦のカ ウンセリング、検査結果、投薬情報などの基本的な予防の概念を扱う25の質 問を作成した • 医師らが作成したCVDに関する25の質問の回答結果を評価した結果、21の回 答は適切であるという結果であった • 回答結果への課題はあるものの、⼀般的なCVD予防に関する質問に対する患 者教育や患者と医師のコミュニケーションを⽀援するワークフローへの有⽤ 性が⽰唆されたとしている
  9. まとめ • 専⾨知識を必要としないタスク(administrative task)や、ユーザープロン プトで情報が提供されるタスクにおいては、優れたパフォーマンスを⽰すこ とが多くの研究で⽰されている(Thirunavukarasu et al. 2023) •

    例えば、退院サマリのような要約‧⾔い換えがメインのタスクでは医療従事 者の負担を軽減できる可能性が⾼いとしている(Patel and Lam 2023) • その他、ユーザープロンプトで提供できるタスクとして、情報抽出‧構造化 などが考えられ、例えばフリーテキストの画像診断レポートからの情報抽出 などのタスクへの有⽤性も⽰されている(Adams et al. 2023)
  10. LLM limitations(Thirunavukarasu et al. 2023) 課題 内容 Recency LLMで使⽤する訓練データは特定時点までの情報しか含めることができず、新しい臨 床概念‧研究の知⾒などを得ることができない。

    Accuracy ⾃⼰教師学習は、訓練データの内容を理解しているのではなく、単語間の確率的な関 連付けを訓練しているに過ぎない。また、訓練データに使⽤されるウェブサイトや書 籍などの情報の信頼性は保証できない。 Coherence モデルは与えられた⼊⼒をもとに、学習された単語間の関連付けに基づいてテキスト を出⼒しているに過ぎず、存在しない情報もあたかも真実であるかのように出⼒し得 る(ハルシネーション)。 Transparency and interpretability モデルがどのように回答を⽣成するのかのプロセスが不明である。また、⽣成された 回答は訓練セットのどの部分に関連しているかは不明である。 Ethical concerns 出⼒が有害、差別的、攻撃的である可能性があり、また、プライバシーやセキュリ ティ侵害のリスクなどの懸念もある。
  11. Nori et al. 2023 • 汎⽤LLMで特定の専⾨家の能⼒を引き出すために開発されたプロンプト戦略 • In-Context Learning (ICL)‧Chain

    of Thought(CoT)‧Ensembling(複数 の出⼒結果から結論を得る)などプロンプトを⼯夫することで、汎⽤LLMが そのドメインに特化したLLMの性能を上回ることが出来ることを⽰した研究 Brown et al. 2020
  12. Zakka Cyril et al. 2024 • RAGベースのLLMフレームワーク(Almanac)を提案 • PubMed、UpToDate、BMJ Best

    Practicesのウェブサイトを外部知識として使⽤ • ⾃⾝らでClinicalQAを開発し、⼀貫性などの複数の指標で有⽤性を⽰した
  13. Blagec et al. 2023 • 既存の医療領域のベンチマークと実臨床 で求められるタスクのギャップを分析 • 臨床現場での⼤きな負担になっている⽇ 常的な⽂書化や患者データ管理のワーク

    フローを評価するベンチマークはほとん ど存在しておらず、臨床現場における負 荷軽減を定量化するための新しいベンチ マークの作成が必要となる
  14. Minaee et al. 2024 課題 内容 軽量化‧効率化 蒸留(Distillation)などにより、より軽量化し、コストを抑えられるモデルへ アーキテクチャのパラダイムシフト Transformer型からの発展(Mambaなどの状態空間モデルへ)

    マルチモーダル テキスト‧画像‧⾳声などを組み合わせた利便性の⾼いモデルへ 拡張⼿法の発展 外部ツールと組み合わせたLLMの拡張‧パーソナライズ セキュリティ‧倫理⾯への配慮 敵対的攻撃からの防御、倫理的⾯やバイアスへの対処 LLMの発展に向けた課題を以下の5つに整理
  15. The Gap Between AI and Bedside (Olaye and Seixas 2023)

    スタートアップから⽣まれるイノベーションとその技術が臨床現場に統合され る間に⽣じるギャップについて、以下の4つの課題を挙げている 1. 医療システムの調達プロセスに関する知識‧理解 2. 厳しい規制や技術要件に関するコスト 3. 医療システムの調達プロセスに関する課題 4. ⼤企業と⽐較した、スタートアップ側の多⾯的な不利 技術イノベーションの浸透の難しさ
  16. 診療範囲 診療‧⼿術‧⼊院 診療がメイン システム規模 ⼤規模 ⼩規模 調達プロセス 時間がかかる 短期な場合が多い 臨床研究(データの集積)

    必要 ⾏わない場合が多い 運⽤形態 オンプレミスが多い クラウドが多い クリニック ⼤学病院 ⼤規模病院への参⼊障壁の⾼さが課題 → ⼤規模病院の臨床現場に技術イノベーションが届きにくい ⼤学病院とクリニックの環境の違い
  17. 個⼈情報の取り扱い • ただし、⼊⼒した個⼈情報がクラウド上に保存され、サービス提供事業者ら がアクセスする可能性がある場合、前述のクラウド例外に該当しない • サービス提供事業者がその情報をサービス改善に使⽤する可能性がある場合 、個⼈情報の漏洩のリスクもあり得るため、より厳格な注意が必要とされる 個⼈情報取扱事業者が、あらかじめ本⼈の同意を得ることなく⽣成 AI サービスに

    個⼈データを含むプロンプトを⼊⼒し、当該個⼈データが当該プロンプトに対す る応答結果の出⼒以外の⽬的で取り扱われる場合、当該個⼈情報取扱事業者は個 ⼈情報保護法の規定に違反することとなる可能性がある。 ⽣成 AI サービスの利⽤に関する注意喚起等について
  18. 業務プロセスの改善 • 退院時サマリなどの⽂書作成‧要約などによる業務⽀援への期待 • LLMに適したタスクされるが、実際の診療記録のサマライズには課題も多い • 患者に必要な情報は診療記録‧検査記録‧画像診断レポートなど様々なデー タソースに散在しており、また形式も多様 • このため、プロンプトとして与えるのに必要な情報を⼈⼿で収集し、準備す

    る必要がある(⽂書作成にはこのプロセスに多くの時間がかかる) • また、医師が記載する診療記録にはコピペ‧⽂として成⽴しないような記載 (メモなど)も含まれており、それらを解釈し、適切な⽂書を作成できるか についても確認が必要
  19. Big Picture 総合病院‧⼤学病院など 電⼦カルテ 部⾨ システム 部⾨ システム DWH 医学研究

    技術調査 市販後調査 製薬 医療機器 アカデミア デジタル 治療アプリ FHIR 問診アプリ ePRO* *ePRO .. electronic Patient Reported Outcome デジタルヘルスによるシームレスな世界の実現に向けて
  20. Big Picture 総合病院‧⼤学病院など 電⼦カルテ 部⾨ システム 部⾨ システム DWH 医学研究

    技術調査 市販後調査 製薬 医療機器 アカデミア デジタル 治療アプリ FHIR 問診アプリ ePRO* *ePRO .. electronic Patient Reported Outcome デジタルヘルスによるシームレスな世界の実現に向けて LLM LLM LLM LLM LLM
  21. 参考⽂献 Adams, Lisa C., Daniel Truhn, Felix Busch, Avan Kader,

    Stefan M. Niehues, Marcus R. Makowski, and Keno K. Bressem. 2023. “Leveraging GPT-4 for Post Hoc Transformation of Free-Text Radiology Reports into Structured Reporting: A Multilingual Feasibility Study.” Radiology 307 (4): e230725. Arora, Anmol, and Ananya Arora. 2023. “The Promise of Large Language Models in Health Care.” The Lancet 401 (10377): 641. Ayers, John W., Adam Poliak, Mark Dredze, Eric C. Leas, Zechariah Zhu, Jessica B. Kelley, Dennis J. Faix, et al. 2023. “Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum.” JAMA Internal Medicine 183 (6): 589–96. Blagec, Kathrin, Jakob Kraiger, Wolfgang Frühwirt, and Matthias Samwald. 2023. “Benchmark Datasets Driving Artificial Intelligence Development Fail to Capture the Needs of Medical Professionals.” Journal of Biomedical Informatics 137 (January): 104274. Chen, Guangyao, Siwei Dong, Yu Shu, Ge Zhang, Jaward Sesay, Börje F. Karlsson, Jie Fu, and Yemin Shi. 2023. “AutoAgents: A Framework for Automatic Agent Generation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2309.17288. Clusmann, Jan, Fiona R. Kolbinger, Hannah Sophie Muti, Zunamys I. Carrero, Jan-Niklas Eckardt, Narmin Ghaffari Laleh, Chiara Maria Lavinia Löffler, et al. 2023. “The Future Landscape of Large Language Models in Medicine.” Communication & Medicine 3 (1): 141. Gao, Yanjun, Ruizhe Li, John Caskey, Dmitriy Dligach, Timothy Miller, Matthew M. Churpek, and Majid Afshar. 2023. “Leveraging A Medical Knowledge Graph into Large Language Models for Diagnosis Prediction.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2308.14321. Jeblick, Katharina, Balthasar Schachtner, Jakob Dexl, Andreas Mittermeier, Anna Theresa Stüber, Johanna Topalis, Tobias Weber, et al. 2023. “ChatGPT Makes Medicine Easy to Swallow: An Exploratory Case Study on Simplified Radiology Reports.” European Radiology, October. https://doi.org/10.1007/s00330-023- 10213-1. Kraljevic, Zeljko, Dan Bean, Anthony Shek, Rebecca Bendayan, Harry Hemingway, Joshua Au Yeung, Alexander Deng, et al. 2022. “Foresight -- Generative Pretrained Transformer (GPT) for Modelling of Patient Timelines Using EHRs.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2212.08072.
  22. 参考⽂献 Kung, Tiffany H., Morgan Cheatham, Arielle Medenilla, Czarina Sillos,

    Lorie De Leon, Camille Elepaño, Maria Madriaga, et al. 2023. “Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models.” PLOS Digital Health 2 (2): e0000198. Lee, Peter, Sebastien Bubeck, and Joseph Petro. 2023. “Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine.” The New England Journal of Medicine 388 (13): 1233–39. Liu, Qianchu, Stephanie Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Maria Teodora Wetscherek, Robert Tinn, et al. 2023. “Exploring the Boundaries of GPT-4 in Radiology.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2310.14573. Minaee, Shervin, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, and Jianfeng Gao. 2024. “Large Language Models: A Survey.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2402.06196. Nori, Harsha, Yin Tat Lee, Sheng Zhang, Dean Carignan, Richard Edgar, Nicolo Fusi, Nicholas King, et al. 2023. “Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2311.16452. Patel, Sajan B., and Kyle Lam. 2023. “ChatGPT: The Future of Discharge Summaries?” The Lancet. Digital Health 5 (3): e107–8. Qiu, Jianing, Lin Li, Jiankai Sun, Jiachuan Peng, Peilun Shi, Ruiyang Zhang, Yinzhao Dong, et al. 2023. “Large AI Models in Health Informatics: Applications, Challenges, and the Future.” IEEE Journal of Biomedical and Health Informatics 27 (12): 6074–87. Sarraju, Ashish, Dennis Bruemmer, Erik Van Iterson, Leslie Cho, Fatima Rodriguez, and Luke Laffin. 2023. “Appropriateness of Cardiovascular Disease Prevention Recommendations Obtained From a Popular Online Chat-Based Artificial Intelligence Model.” JAMA: The Journal of the American Medical Association 329 (10): 842–44. Suchman, Kelly, Shashank Garg, and Arvind J. Trindade. 2023. “Chat Generative Pretrained Transformer Fails the Multiple-Choice American College of Gastroenterology Self-Assessment Test.” The American Journal of Gastroenterology 118 (12): 2280–82.
  23. 参考⽂献 Tu, Tao, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan

    Freyberg, Ryutaro Tanno, Amy Wang, et al. 2024. “Towards Conversational Diagnostic AI.” arXiv [cs.AI]. arXiv. http://arxiv.org/abs/2401.05654. Wang, Lei, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, et al. 2023. “A Survey on Large Language Model Based Autonomous Agents.” arXiv [cs.AI]. arXiv. http://arxiv.org/abs/2308.11432. Wang, Sheng, Zihao Zhao, Xi Ouyang, Qian Wang, and Dinggang Shen. 2023. “ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image Using Large Language Models.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2302.07257. Wornow, Michael, Yizhe Xu, Rahul Thapa, Birju Patel, Ethan Steinberg, Scott Fleming, Michael A. Pfeffer, Jason Fries, and Nigam H. Shah. 2023. “The Shaky Foundations of Large Language Models and Foundation Models for Electronic Health Records.” NPJ Digital Medicine 6 (1): 135. Yan, Michael, Giovanni G. Cerri, and Fabio Y. Moraes. 2023. “ChatGPT and Medicine: How AI Language Models Are Shaping the Future and Health Related Careers.” Nature Biotechnology 41 (11): 1657–58. Zhou, Hongjian, Fenglin Liu, Boyang Gu, Xinyu Zou, Jinfa Huang, Jinge Wu, Yiru Li, et al. 2023. “A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2311.05112.