Hierarchical Self-Supervised Learning) https://arxiv.org/abs/2206.02647v1 Vision Transformers (ViT) とそのマルチスケールおよび階層的なバリエーションは、画像表現の捕捉に成功してい るが、その使用は一般に低解像度画像(例:- 256x256, 384384)に対して研究されてきた。計算病理学のギガピク セルホールスライドイメージング(WSI)では、WSIは20倍の倍率で150000x150000ピクセルとなり、16x16画像 から組織微細環境内の相互作用を特徴づける4096x4096画像まで、様々な解像度にわたって視覚トークンの階層的構 造を示すことが可能である。HIPTは、WSIに内在する自然な階層構造を活用し、2段階の自己教師付き学習を用いて 高解像度の画像表現を学習するものである。HIPTは33種類のがんに対して、10,678枚のギガピクセルWSI、 408,218枚の4096x4096画像、104M枚の256x256画像を用いて事前学習される。9つのスライドレベルタスクを用 いてHIPT表現のベンチマークを行い、以下のことを実証した。1) 階層的な事前学習を行ったHIPTは、がんのサブタ イプ分類と生存予測において現在の最先端手法を凌駕する。2) 自己教師付きViTは、腫瘍微小環境における表現型の 階層的構造に関する重要な誘導的バイアスをモデル化することができる。 目的:WSIによる高解像度画像を使ったがんのサブタイプ分類と進行度分類において“診察レベル”を達成する 成果:がんのサブタイプ分類と生存予測(進行度分類)において最先端手法を凌駕する精度を達成した 方法:WSIが持つ階層構造を利用した階層構造的Transformer(HIPT)を開発した 固有名: Hierarchical Image Pyramid Transformer (HIPT) 著者所属:Harvard BWH Broad Institute, Bill & Melinda Gates Foundation, University of Toronto