ばれる特殊なトークンを⽤いて,画像パッチをクラスタリングしていく • 学習には,クラスタリング後のGroup tokenの平均ベクトルと⼊⼒キャプ ションの埋め込みベクトルによる対照学習によって,最適化を⾏う • PACAL VOCなどのベンチマーク上で,既存研究よりも優れたセグメンテー ション性能を⽰した 13 ダメなスライド例:⽂章が多すぎる [1] Xu+, GroupViT: Semantic Segmentation Emerges from Text Supervision, CVPRʼ22 • ⽂章が多いスライドは聴衆に認知負荷がかかる • 話を聞こうという気を削ぐきっかけになる • スライドの半分は⽂章,残り半分は図表,くらいのイメージが良い