論文紹介/Visual Classification via Description from Large Language Models

Copyright 2022 NTT CORPORATION Copyright 2023 NTT CORPORATION 紹介者: ⽥中涼太
NTT⼈間情報研究所 / 東北⼤学 2023 8/28 最先端NLP勉強会2023 ICLR2023 notable top (採択論⽂中上位) 5% 採択

Copyright 2022 NTT CORPORATION 1 Copyright 2023 NTT CORPORATION 概要
n LLMが⽣成するカテゴリに関する記述⼦を基に，画像分類タスクを⾏うフレームワーク (Classification by Description) の提案 n 分類結果の根拠として，ヒトが解釈しやすい⾃然⾔語で説明可能 n 従来⼿法 (CLIP) に対して，様々なzero-shot画像分類ベンチマークで越える性能

Copyright 2022 NTT CORPORATION 2 Copyright 2023 NTT CORPORATION 背景:
CLIP [Radford+, ‘21] n ⼤量の画像-説明⽂ペアを⽤いて，バッチ内の正例ペアの類似度を⾼くし，負例ペアの類似度を低くする対照学習を⽤いた事前学習を実施事前学習: 対照学習推論 (zero-shot画像分類)

Copyright 2022 NTT CORPORATION 3 Copyright 2023 NTT CORPORATION 背景:
CLIPの課題 n 解釈性が低い l 予測結果について，Grad-CAM (勾配の値を可視化) を⽤いても，出⼒されたヒートマップをどのように解釈するかは，解釈するヒトに依存する n 事前学習データに含まれない，新規カテゴリの認識・分類が難しい l OpenAIのCLIPは，2021年2⽉までの概念やカテゴリを学習している n バイアスを多く含んでいる l OpenAIのCLIPは，⻄洋圏の画像を多く学習データに含んでいるので，⻄洋⽂化に強くバイアスがある⽻があることが特徴的なの? 斑模様が特徴的なの?

Copyright 2022 NTT CORPORATION 4 Copyright 2023 NTT CORPORATION 提案⼿法:
Classification by Description n 分類対象となるカテゴリに対して，LLMを⽤いてカテゴリを説明する記述⼦を⽣成し，その⽣成結果を基に，画像の分類を⾏う画像埋め込みテキスト (カテゴリ/記述⼦) 埋め込み従来のV+Lモデル (CLIP) 提案⼿法

Copyright 2022 NTT CORPORATION 5 Copyright 2023 NTT CORPORATION LLMによる記述⼦の⽣成
n LLM (GPT-3)に対して，カテゴリに関する識別に有⽤な視覚的特徴を聞き出す⽣成例: プロンプト: - 弦楽器 - 4本弦 - ⽊のボディ - チューニングのペグ - Fホール・・・バイオリンの特徴

Copyright 2022 NTT CORPORATION 6 Copyright 2023 NTT CORPORATION 記述⼦の変換
n ⽣成された記述⼦をカテゴリに結びつけるための，テンプレートを⽤意するテンプレート: n Violin which is a stringed instrument n Violin which typically has four strings n Violin which has a wooden body n Violin which has a neck and fingerboard n Violin which has tuning pegs n Violin which has a bridge n Violin which has a soundpost n Violin which has a f-holes n Violin which has a bow テンプレートに代⼊

Copyright 2022 NTT CORPORATION 7 Copyright 2023 NTT CORPORATION 記述⼦を⽤いた推論
n 変換された記述⼦と画像の類似度を計算し，各カテゴリの類似度を決定 n Violin which is a stringed instrument n Violin which has a neck and fingerboard n Violin which has a bow Violin Cheeseburger ・・・ n Cheeseburger which has a cheese n Cheeseburger which has a tomato n Cheeseburger which has a lettuce https://www.istockphoto.com/ 出展元: 0.8 0.6 0.7 0.1 0.1 0.1 1 / 3 (0.8 + 0.6 + 0.7) = 0.7 1 / 3 (0.1 + 0.1 + 0.1) = 0.1 記述⼦𝒅と画像𝒙の cos類似度記述⼦の数全カテゴリ類似度を計算カテゴリ𝒄と画像𝒙 の類似度最もスコアの⾼い Violinに決定

Copyright 2022 NTT CORPORATION 9 Copyright 2023 NTT CORPORATION 実験設定
n ベースモデル: CLIP l 提案⼿法は，CLIPの推論時のみに適⽤ n データセット (画像分類タスク) l ImageNet: シーン画像 l ImageNetV2: シーン画像 l CUB: ⿃の画像 l EuroSAT: 衛星画像 l Places365: シーン画像 l Food101: ⾷べ物の画像 l Oxford Pets: 動物の画像 l Describable Textures: テクスチャの画像

Copyright 2022 NTT CORPORATION 10 Copyright 2023 NTT CORPORATION CLIPと⽐べて性能はどうか︖
n ベースモデル (CLIP) に対して，全データセットで性能を上回る l ⽇常的な物体 (ImageNetなど) だけではなく，衛星画像 (EuroSAT) やテクスチャ (Describable Textures) などのニッチなドメインに対する分類で強⼒に効く n ViTの⼤きさ，パッチサイズ，画像サイズを変更しても，提案⼿法の有効性が確認できる

Copyright 2022 NTT CORPORATION 11 Copyright 2023 NTT CORPORATION 解釈性はどうか︖
提案⼿法で算出したスコア CLIPの予測に対して，提案⼿法で (無理⽮理) スコアを算出した結果

Copyright 2022 NTT CORPORATION 12 Copyright 2023 NTT CORPORATION 新規カテゴリに関する性能はどうか︖
n CLIPの事前学習データに含まれない，2021年2⽉以降に登場したカテゴリについて分類を⾏う．(ただし，LLMは2021年2⽉以降の知識を持っている) 2021年3⽉にスエズ運河をふさいだ船「Ever Given」と、2022年1⽉に流⾏したオンライン単語ゲーム「Wordle game」に関する画像について，正しくカテゴリを予測できている

Copyright 2022 NTT CORPORATION 13 Copyright 2023 NTT CORPORATION バイアスはどうか︖
n CLIPの事前学習データは，⻄洋圏中⼼のデータが多く占めるため，⻄洋⽂化のバイアスがかかっている．(LLMも同様) l ⼈⼿でwedding (バイアスに影響が受けやすい) に関する記述⼦を付与したデータセットを作成⻄洋圏以外の画像に関する識別精度が低いヒトが介⼊することで，バイアスの解消を実現できる

Copyright 2022 NTT CORPORATION 14 Copyright 2023 NTT CORPORATION Limitations
1. 視覚情報以外の記述⼦を⽣成してしまう 2. 曖昧なカテゴリに関して誤って⽣成してしまう 3. 同じ記述⼦繰り返し⽣成してしまう匂いや味に関する記述⼦を⽣成している 1. 2. 3. 同じ記述⼦を⽣成 Vespaは⼆つの意味を持つ (ススメバチとスクーター)

Copyright 2022 NTT CORPORATION 15 Copyright 2023 NTT CORPORATION まとめ
n 概要 l LLMが⽣成するカテゴリに関する記述⼦を基に，画像分類タスクを⾏うフレームワーク (Classification by Description) の提案 l 分類結果を，⾃然⾔語で解釈することが可能 l 従来⼿法 (CLIP) に対して，様々なzero-shot画像分類ベンチマークで越える性能 n 所感 l 素⼈発想，⽞⼈実⾏の論⽂として素晴らしい︕ l Limitationsに関する分析も徹底しており，査読コメントの芽を摘むのが上⼿い l 画像分類タスク以外への活⽤が進みそう

Copyright 2022 NTT CORPORATION 17 Copyright 2023 NTT CORPORATION ChatGPTにテナガザルの視覚的特徴を聞いてみた
https://www.istockphoto.com/ 出展元: GPT-3よりも⻑⽂を出⼒する傾向にあるが，特徴を捉えた有⽤な回答を返答できる

Copyright 2022 NTT CORPORATION 18 Copyright 2023 NTT CORPORATION その他分析:
LLMのサイズ n LLMが⼩さい場合，本⼿法の有効性は確認できなかった l モデルサイズが⼩さいと，学習の過程で視覚的な知識を獲得するのが難しい︖

Copyright 2022 NTT CORPORATION 19 Copyright 2023 NTT CORPORATION Limitations
(記述⼦の誤認識) 1. 複数のカテゴリにマッチする記述⼦による誤認識 2. 曖昧な意味を持つ単語を含む記述⼦による誤認識ライオンの特徴がチャウチャウ (⽝) の特徴と⼀致している Stockyには，「ズングリした」と「普遍的な」という意味を持っている 1. 2. ズングリ感がない︖

論文紹介/Visual Classification via Description from...

論文紹介/Visual Classification via Description from Large Language Models

Ryota Tanaka

More Decks by Ryota Tanaka

Featured

Transcript

Copyright 2022 NTT CORPORATION Copyright 2023 NTT CORPORATION 紹介者: ⽥中涼太

Copyright 2022 NTT CORPORATION 1 Copyright 2023 NTT CORPORATION 概要

Copyright 2022 NTT CORPORATION 2 Copyright 2023 NTT CORPORATION 背景:

Copyright 2022 NTT CORPORATION 3 Copyright 2023 NTT CORPORATION 背景:

Copyright 2022 NTT CORPORATION 4 Copyright 2023 NTT CORPORATION 提案⼿法:

Copyright 2022 NTT CORPORATION 5 Copyright 2023 NTT CORPORATION LLMによる記述⼦の⽣成

Copyright 2022 NTT CORPORATION 6 Copyright 2023 NTT CORPORATION 記述⼦の変換

Copyright 2022 NTT CORPORATION 7 Copyright 2023 NTT CORPORATION 記述⼦を⽤いた推論

8 Copyright 2023 NTT CORPORATION 実験

Copyright 2022 NTT CORPORATION 9 Copyright 2023 NTT CORPORATION 実験設定

Copyright 2022 NTT CORPORATION 10 Copyright 2023 NTT CORPORATION CLIPと⽐べて性能はどうか︖

Copyright 2022 NTT CORPORATION 11 Copyright 2023 NTT CORPORATION 解釈性はどうか︖

Copyright 2022 NTT CORPORATION 12 Copyright 2023 NTT CORPORATION 新規カテゴリに関する性能はどうか︖

Copyright 2022 NTT CORPORATION 13 Copyright 2023 NTT CORPORATION バイアスはどうか︖

Copyright 2022 NTT CORPORATION 14 Copyright 2023 NTT CORPORATION Limitations

Copyright 2022 NTT CORPORATION 15 Copyright 2023 NTT CORPORATION まとめ

16 Copyright 2023 NTT CORPORATION Appendix

Copyright 2022 NTT CORPORATION 17 Copyright 2023 NTT CORPORATION ChatGPTにテナガザルの視覚的特徴を聞いてみた

Copyright 2022 NTT CORPORATION 18 Copyright 2023 NTT CORPORATION その他分析:

Copyright 2022 NTT CORPORATION 19 Copyright 2023 NTT CORPORATION Limitations