テキストを⼊⼒し、画像を⽣成するAIが引き続き流⾏した。 技術進歩とともに、よりリアルになった 2023年にGPT4が登場し⾶躍的に精度が向上した。 また⾃⾝でカスタマイズ可能なGPTsもリリースされた 引⽤ ・MidJourney https://midjourney.com/home/?callbackUrl=%2Fapp%2F ・X https://x.com/nickfloats/status/1737728333797036378?s=20 引⽤ ・OpenAI.inc GPTs https://openai.com/blog/introducing-gpts 1960s street style photo of a young woman sitting on a sailboat wearing a green silk dress and a pearl necklace. The sun is setting over the ocean, shot on Agfa Vista 200
4 Model B (2GB RAM)などのリソース制限がある環境でも 3Dセグメンテーションの精度を維持して実⾏出来るように最適化した研究。 国際学会 MICCAI2023 採択 Young Scientist Award受賞 横軸:パラメータ数、縦軸:Dice値 予測時の分散可視化結果例 M3D-NCAの概略説明。 軽量で、NCAによる確率性が予測間の分散を可視化出来る。 ・論⽂引⽤ Kalkhof, John, and Anirban Mukhopadhyay. "M3D-NCA: Robust 3D Segmentation with Built-In Quality Control." International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023. github M3D-NCA https://github.com/MECLabTUDA/M3D-NCA
John, and Anirban Mukhopadhyay. "M3D-NCA: Robust 3D Segmentation with Built-In Quality Control." International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023. github M3D-NCA https://github.com/MECLabTUDA/M3D-NCA
"Devil is in the Queries: Advancing Mask Transformers for Real-world Medical Image Segmentation and Out-of-Distribution Localization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. ü 学習時に組み込んでいない症例・疾患が推論時に紛れている際の提案 学習時に組み込んでいない疾患が推論時に登場した場合に、 領域を区別をした上でoutliers tumorとしてクラス新規作成を⾏い認識させる研究。 国際学会 CVPR2023 採択 実世界における医⽤画像セグメンテーションは 対象症例に限りなく類似している別症例も登場することがある。 a)元画像、b)正解画像、c)MSP、d)MaxLogit、e)SML、f)提案⼿法
- 従来の課題②:OODに対して精度が低い、もしくは検出できない。 • 課題に対する本研究の新規提案:Out of Localizationの提案 - 学習されていないOOD領域を識別するプロセス。 OODとInliers(学習済み領域)は背景とinliersより 差分が⼩さいことを利⽤して対象領域/OOD領域/背景領域をLossより区別す る。(左上図) • Out of Localizationの実現⽅法:Query Distribution Lossの提案 - 対象領域のクエリと背景、OODのクエリとの分布の差を最⼤化することで OOD領域/対象領域/その他背景と鮮明に区別ができる。(左下図) - 本研究におけるクエリとは学習モデルによって⽣成される⼀連のパラメータ を指す。各クエリが画像内の領域やオブジェクトが持つ特有の特徴に対応す る。 42 実⾏環境の制限やデータの制限を対象とした新提案 ü 学習時に組み込んでいない症例・疾患が推論時に紛れている際の提案 ・論⽂引⽤ Yuan, Mingze, et al. "Devil is in the Queries: Advancing Mask Transformers for Real-world Medical Image Segmentation and Out-of-Distribution Localization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
et al. "Devil is in the Queries: Advancing Mask Transformers for Real-world Medical Image Segmentation and Out-of-Distribution Localization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. ・近年のMaskTransformer系研究をベースに構築 ・Object Queryは物体検出、ラベリングするための 学習パラメータ(DETRと同じ) ・初期値はランダム、 出⼒はcluster centers(各クラスタを代表する中⼼点) Cluster centers結果を MLPにかけて分類 グルーピングされたピクセルを クラスタと紐づけ、seg. logitを算出 nnUnet 各ピクセルがcluster centersとどれだけ類 似しているか OoD領域の検出と、 特定のクラスへの割当 新提案)QDLoss OoD部を背景と誤認識させないロス
et al. "Devil is in the Queries: Advancing Mask Transformers for Real-world Medical Image Segmentation and Out-of-Distribution Localization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023. a)元画像、b)正解画像、c)MSP、d)MaxLogit、e)SML、f)提案⼿法 OOD、Inlierともに提案⼿法が⾼精度となった 学習分布外領域と学習済み領域をそれぞれ区別した上でセグメンテーションを提案し、 各領域の認識精度が向上した。
MICCAI2023 採択 Best Paper受賞 ISICデータセット(⽪膚がん)を対象にしたDiceスコア⽐較 ・論⽂引⽤ Gonzalez-Jimenez, Alvaro, et al. "Robust T-Loss for Medical Image Segmentation." International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023. github Robust T-Loss for Medical Image Segmentation https://github.com/Digital-Dermatology/t-loss https://robust-tloss.github.io/ ISICデータセット(⽪膚がん)α&β=0.7のとき、 T-Lossのみラベルノイズの影響をiterationが増えても受けなかった ErodeとT-Lossの⽐較
Gonzalez-Jimenez, Alvaro, et al. "Robust T-Loss for Medical Image Segmentation." International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023. github Robust T-Loss for Medical Image Segmentation https://github.com/Digital-Dermatology/t-loss https://robust-tloss.github.io/
Medical Images Ma, Jun, and Bo Wang. "Segment anything in medical images." arXiv preprint arXiv:2304.12306 (2023). github Med-SAM https://github.com/bowang-lab/MedSAM ü 基盤モデルを医療特化へ応⽤する提案 Metaが開発したSAM(Segment Anything)を医⽤画像に特化させた研究 ⼿術動画のスナップショットからテキストプロンプトで指定した 箇所をセグメンテーションするAdaptiveSAM アノテーション付き⼤規模CT画像データセットであるMICCAI FLARE2022や 病理画像、MRI画像など計100万枚以上を Fine-tune時に学習させたMed-SAM ・論⽂引⽤ AdaptiveSAM: Towards Efficient Tuning of SAM for Surgical Scene Segmentation Paranjape, Jay N., et al. "Adaptivesam: Towards efficient tuning of sam for surgical scene segmentation." arXiv preprint arXiv:2308.03726 (2023). arXiv arXiv
"Segment anything model for medical images?." Medical Image Analysis (2023): 103061. ü 基盤モデルを医療特化へ応⽤する提案 SAMとMed-SAMを応⽤した研究。 53の医⽤画像オープンデータセットを⽤いて (18モダリティ、84オブジェクト、125のオブジェクト-モダリティペアデータ) 計105万枚の2D画像、6033万枚のマスク画像を含む ⼤規模データセットCOSMOS1050Kを構築。 ⼤規模データセットを使い医療に特化した基盤モデルを作成。 Medical Image Analysis掲載
"SAM Meets Robotic Surgery: An Empirical Study on Generalization, Robustness and Adaptation." International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023. ü ロボット⼿術へのAI応⽤提案 「⼿術シーンから術具をセグメンテーション」するSurgicalSAMの提案研究。 今年は基盤モデルの医療応⽤研究が数多く増えた。 国際学会 MICCAI2023 採択 a)影、b)遮蔽、c)光の反射、d)モーションブラー、e)過度な明るさ、f)不明瞭な縫合⽷ Vanilla SAMを⽤いると、BBox機能ではある程度精度⾼く表⽰をしたが 1point機能ではそのままでは術具セグメンテーションには応⽤できない
and Michael C. Yip. "Real-Time Constrained 6D Object-Pose Tracking of An In-Hand Suture Needle for Minimally Invasive Robotic Surgery." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023. ü ロボット⼿術へのAI応⽤提案 (AIは組み込まれていないが⾯⽩いのでご共有) ロボット領域の世界トップカンファレンスであるICRAにて発表された ロボット⼿術時の⾃動縫合を実現するための6次元ポーズ追跡をリアルタイムかつ正確に⾏う研究。 国際学会 ICRA2023 採択 Outstanding Healthcare and Medical Robotics Paper受賞 制約とは:物を掴む際の物理的な相互作⽤や現実的な⾓度等を指す。 制約あり⼿法では各画像でグリッパーと縫合⽷の現実的な関係を表⽰できた。 ただし制約を組み込むためには正確なモデリングや複雑な条件の明⽰、 また計算するためのコストを要する。 超理想は制約無しでのリアルタイム予測&追跡 Da Vinciでの実際の画像。 Unconstrained:制約なしの⼿法、側⾯画像が⾮現実的になっている Constrained:制約ありの⼿法、上⾯画像・側⾯画像がともに現実的になっている
Tascon-Morales “Localized Questions in Medical Visual Question Answering” Appears in Medical Image Computing and Computer Assisted Interventions (MICCAI), 2023 ü 症例画像に対する質疑応答 Medical VQAにおいて 画像全体ではなく特定領域に焦点を当てた質問に対して回答を⾏うアプローチの提案研究 国際学会 MICCAI2023 採択 丸枠、矩形領域における質問を⼊⼒し回答を出⼒する 様々な⼊⼒⽅法と⽐較しても提案⼿法が精度が⾼くなった。
Seongsu, et al. "EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images." arXiv preprint arXiv:2310.18652 (2023). EHRXQA https://github.com/baeseongsu/ehrxqa ü Medical-VQAを推し進めるためのデータセット 電⼦健康記録(EHR)と胸部X線画像を組み合わせた多モーダルな質問応答⽤データセットを構築した研究 これまで公表されているオープンソースをより解くべき課題向けに構造化した研究なども登場している。 国際学会NeurIPS2023 採択 MIMIC-IV:テーブルモダリティ MIMIC-CXR:画像モダリティ Chest ImaGenome:MIMIC-CXRの⾼品質注釈バージョン の3タイプデータセットを統合し、Medical-QAに特化したデータセットを作成
https://llava-vl.github.io/ Liu, Haotian, et al. "Visual instruction tuning.” arXiv preprint arXiv:2304.08485 (2023). ü オープンソース LLaVa-Med 2023年7⽉にオープンソースとして発表されたLLaVAを医療に特化させたLLaVA-Med。 さらにLLaVA-Medもオープンソース化されている。 LLaVAを医療に特化させチューニングしたLLaVA-Med Microsoftが発表したLarge Language and Vision Assistantモデル CLIP ViT-L/14とVicunaをベースに構築されている。 国際学会NeurIPS2023採択 国際学会NeurIPS2023採択 ・論⽂引⽤ LLaVA-Med https://github.com/microsoft/LLaVA-Med Li, Chunyuan, et al. "Llava-med: Training a large language-and-vision assistant for biomedicine in one day." arXiv preprint arXiv:2306.00890 (2023).
Foundation Model領域の新提案 ・論⽂引⽤ Ma, DongAo, et al. "Foundation Ark: Accruing and Reusing Knowledge for Superior and Robust Performance." International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023. ü 複数の胸部X線データセットを学習 多数のオープンデータセットを統合し学習したFoundation Model。 多数のオープンデータセット内の異なる専⾨家のアノテーションから知識を突合、再利⽤し ⾼性能な基盤モデルを開発。 国際学会 MICCAI2023 採択 BestPaper受賞 ImageNet(IN)で事前学習しCXRでfinetuneしたSimMIMよりも Ark-6が最も精度が⾼く分類とセグメンテーション出来ている 統合したデータセット Pの上から5種がArk-5, 6種がArk-6
Foundation Model領域の新提案 ・論⽂引⽤ Ma, DongAo, et al. "Foundation Ark: Accruing and Reusing Knowledge for Superior and Robust Performance." International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023. ü 複数の胸部X線データセットを学習 (a) Linear probingの結果 1,2,10においてArk-6はAUCが⼤きく上回っている また3においてはArk-6とCXR-FMと同等 (b) ⼩規模データ環境において認識精度がArk-5,6ともにCXR-FMを上回っている Arkモデルがより少ない学習データで⾼品質の表現を捉えることが出来る (a) 性別における偽陰性率(FN Rate) ⽐較した結果、Arkモデルは性別の不均衡データに対して頑健である ことが判明した。 (b) 推論時に⼥性患者データを⼊⼒した際のAUC 緑円はCXR-FMだが、Arkモデルより差が開いている。
Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert knowledge in text supervision." arXiv preprint arXiv:2308.07898 (2023). FLAIR projectpページ https://jusiro.github.io/projects/flair ü 複数の眼底画像データセットを学習 Vision-Languageモデル FLAIRの提案。 37のオープンデータセットから97ターゲット、284,660枚の眼底画像を収集しデータセットを作成した。 arXiv FLAIRのモデル概略 各Encoder部の詳細なし 学習に使⽤していない疾患症例に 対してもzero-shotで ⾼精度な推論が可能である。 Vision Language Model / Large Vision Foundation Model領域の新提案
"LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching." arXiv preprint arXiv:2306.11925 (2023). github LVM-Med https://github.com/duyhominhnguyen/LVM-Med ü 複数のデータセットを学習 55のオープンデータセットから 130万枚の医⽤画像(CT、MRI、X線、超⾳波、病理、内視鏡、⽪膚、眼底)を学習した LVM-Med arXiv LVM-Medが対応する部位⼀覧 Vision Language Model / Large Vision Foundation Model領域の新提案 実験結果の⽐較 学習データセットの割合
"LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching." arXiv preprint arXiv:2306.11925 (2023). github LVM-Med https://github.com/duyhominhnguyen/LVM-Med ü 複数のデータセットを学習 Vision Language Model / Large Vision Foundation Model領域の新提案 2D Segmentationの精度⽐較 3D Segmentationの精度⽐較 プロンプトベースSegmentationの精度⽐較 学習済み、未学習症例を含めた2D Segmentationの精度⽐較 各実験にてLVM-Medは好成績を達成した
medical Twitter to build a visual‒language foundation model for pathology AI." bioRxiv (2023): 2023-03. ü 病理画像向けVision-Language Model Xから収集した病理画像と解説ツイートを基に独⾃データセットを作成し、 提案基盤モデルであるPLIP(Pathology Language-Image Pairing)を学習、 学習結果からプロンプト⼊⼒による画像探索や、類似画像探索を実⾏する研究 bioRxiv X(Twitter)に投稿されている病理画像と疾患名をペアで収集して 208,414枚のペアデータが格納されたデータセットを作成 Vision Language Model / Large Vision Foundation Model領域の新提案 収集したデータセットでVision-Language モデル(PLIP)の学習を⾏う PLIPを⽤いて画像探索等の⾔語・画像応対を実施する
"Sketch-based semantic retrieval of medical images." Medical Image Analysis (2023): 103060. 国⽴がん研究センター スケッチでCTやMRI画像を検索できる⼈⼯知能技術による⾰新的な医⽤画像検索システムを開発 https://www.ncc.go.jp/jp/information/researchtopics/2023/1222/index.html ü 類似画像探索 ⾃らスケッチをした医⽤画像に類似した画像探索を提案する研究 とても⾯⽩い! Medical Image Analysis掲載
"DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models." arXiv preprint arXiv:2306.11698 (2023). Microsoft Research Blog DECODINGTRUST: A Comprehensive Assessment of Trustworthiness in GPT Models https://www.microsoft.com/en-us/research/blog/decodingtrust-a-comprehensive-assessment-of-trustworthiness-in-gpt-models/ ü Trustworthy AI LLMのための信頼性評価プラットフォームを開発した。 信頼性評価の基準として公平性、プライバシー、攻撃性などの視点が考慮される。 国際学会 NeurIPS2023採択 国際学会 NeurIPS2023採択 ・論⽂引⽤ Zou, Ke, et al. "EvidenceCap: Towards trustworthy medical image segmentation via evidential identity cap.” arXiv preprint arXiv:2301.00349 (2023). エビデンスや確信度に基づいたセグメンテーションの提案
(AI) in healthcare market size worldwide from 2021 to 2030 https://www.statista.com/statistics/1334826/ai-in-healthcare-market-size-worldwide/ ・引⽤ 株式外社⽮野経済研究所 診断・診療⽀援AIシステム市場に関する調査を実施(2023年) https://yano.co.jp/press-release/show/press_id/3241
MedLMを発表した。 ヘルスケアに関わる様々な場⾯での活⽤を⾒越して 多くの企業と連携も発表した。 マイクロソフトは マイクロソフトが発表したLLMである LLaVa(Large Language and Vision Assistant)を 医療向けに追加学習したLLaVa-Medのオープンソース化を発表した。 引⽤ LLaVA-Med: Large Language and Vision Assistant for BioMedicine https://github.com/microsoft/LLaVA-Med
Llama2を発表した。 引⽤ MEDITRON-70B: Scaling Medical Pretraining for Large Language Models https://arxiv.org/pdf/2311.16079.pdf github meditronプロジェクトページ https://github.com/epfLLM/meditron 有志がLlama2を医療に特化させた Meditronを発表した。