n LLMが⽣成するカテゴリに関する記述⼦を基に,画像分類タスクを⾏うフレーム ワーク (Classification by Description) の提案 n 分類結果の根拠として,ヒトが解釈しやすい⾃然⾔語で説明可能 n 従来⼿法 (CLIP) に対して,様々なzero-shot画像分類ベンチマークで越える性能
CLIPの課題 n 解釈性が低い l 予測結果について,Grad-CAM (勾配の値を可視化) を⽤いても,出⼒されたヒートマップを どのように解釈するかは,解釈するヒトに依存する n 事前学習データに含まれない,新規カテゴリの認識・分類が難しい l OpenAIのCLIPは,2021年2⽉までの概念やカテゴリを学習している n バイアスを多く含んでいる l OpenAIのCLIPは,⻄洋圏の画像を多く学習データに含んでいるので,⻄洋⽂化に強くバイアスがある ⽻があることが特徴的なの? 斑模様が特徴的なの?
n ⽣成された記述⼦をカテゴリに結びつけるための,テンプレートを⽤意する テンプレート: n Violin which is a stringed instrument n Violin which typically has four strings n Violin which has a wooden body n Violin which has a neck and fingerboard n Violin which has tuning pegs n Violin which has a bridge n Violin which has a soundpost n Violin which has a f-holes n Violin which has a bow テンプレートに代⼊
n 変換された記述⼦と画像の類似度を計算し,各カテゴリの類似度を決定 n Violin which is a stringed instrument n Violin which has a neck and fingerboard n Violin which has a bow Violin Cheeseburger ・ ・ ・ n Cheeseburger which has a cheese n Cheeseburger which has a tomato n Cheeseburger which has a lettuce https://www.istockphoto.com/ 出展元: 0.8 0.6 0.7 0.1 0.1 0.1 1 / 3 (0.8 + 0.6 + 0.7) = 0.7 1 / 3 (0.1 + 0.1 + 0.1) = 0.1 記述⼦𝒅と画像𝒙の cos類似度 記述⼦の数 全カテゴリ 類似度を計算 カテゴリ𝒄と画像𝒙 の類似度 最もスコアの⾼い Violinに決定
n ベースモデル: CLIP l 提案⼿法は,CLIPの推論時のみに適⽤ n データセット (画像分類タスク) l ImageNet: シーン画像 l ImageNetV2: シーン画像 l CUB: ⿃の画像 l EuroSAT: 衛星画像 l Places365: シーン画像 l Food101: ⾷べ物の画像 l Oxford Pets: 動物の画像 l Describable Textures: テクスチャの画像
n CLIPの事前学習データは,⻄洋圏中⼼のデータが多く占めるため,⻄洋⽂化のバ イアスがかかっている.(LLMも同様) l ⼈⼿でwedding (バイアスに影響が受けやすい) に関する記述⼦を付与したデータセットを作成 ⻄洋圏以外の画像に関する 識別精度が低い ヒトが介⼊することで,バイアスの解消を実現できる
n 概要 l LLMが⽣成するカテゴリに関する記述⼦を基に,画像分類タスクを⾏うフレームワー ク (Classification by Description) の提案 l 分類結果を,⾃然⾔語で解釈することが可能 l 従来⼿法 (CLIP) に対して,様々なzero-shot画像分類ベンチマークで越える性能 n 所感 l 素⼈発想,⽞⼈実⾏の論⽂として素晴らしい︕ l Limitationsに関する分析も徹底しており,査読コメントの芽を摘むのが上⼿い l 画像分類タスク以外への活⽤が進みそう