[Journal club] LISA: Reasoning Segmentation via Large Language Model

LISA: Reasoning Segmentation via Large Language Model Xin Lai1, Zhuotao
Tian2, Yukang Chen1, Yanwei Li1, Yuhui Yuan4, Shu Liu3, Jiaya Jia1,3 1 CUHK, 2 HIT(Shenzhen), 3 SmartMore, 4 MSRA CVPR2024 慶應義塾⼤学杉浦孔明研究室⾬宮佳⾳ Lai, Xin, et al. "LISA: Reasoning Segmentation via Large Language Model.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

2 🙆 事前に定義されたカテゴリの物体は認識できる 🙆 単純・明⽰的な表現で指定された物体は認識できる e.g., “the orange” 🙅 複雑な推論が必要な記述は理解できない
🙅 知識や常識を含む記述は理解できない e.g., ”the food with high Vitamin C” ｜背景（1/2）: 既存のPerceptionシステムは暗黙的な指⽰を理解できない ×

3 LLMはユーザの暗黙的な意図を推論し理解する能⼒を持つ｜背景（2/2）: LLMを活用したReasoning Segmentationタスク RQ：この能⼒を活⽤し、複雑な推論を必要とする暗黙的な指⽰⽂から対象物体のセグメンテーションマスクを⽣成できないか？

4 ｜関連研究 : 既存のセグメンテーション手法とマルチモーダルLLM ⼿法概要 X-Decoder [Zou+, CVPR23] 画像とテキストを組み合わせ、複数のタスクを単⼀モデルで処理できる汎⽤デコーダ
SEEM [Zou+, NeurIPS23] テキスト、⾳声、スクリブルなど多様な⼊⼒を扱えるセグメンテーション⼿法 Flamingo [Alayrac+, NeurIPS22] クロスモーダルアテンションで画像と⾔語を統合し、few-shot学習に強み BLIP-2 [Li+, ICML23] frozenしたvisual encoderから得た画像特徴を、text embeddingとともにLLMに⼊⼒ X-Decoder SEEM BLIP-2

5 ｜提案手法（1/4）: large Language Instructed Segmentation Assistant 新規性セグメンテーション出⼒のrequestを意味する<SEG>トークンをマルチモーダルLLMの語彙に追加

6 ｜提案手法（2/4）: マルチモーダルLLMの処理 ! 𝑦!"! # ℎ#$% ・マルチモーダルLLMの出⼒として<SEG>トークンを含んだテキストである ! 𝒚!"!
を得る・マルチモーダルLLMの最終層embeddingであり、 <SEG>トークンに対応する # 𝒉#$% を抽出・ # 𝒉#$% にMLPのprojection layerである𝛾を適⽤して 𝒉#$% を得る事前学習済みの LLaVAを使⽤効率的な fine-tuningを実現

7 ｜提案手法（3/4）: VisualエンコーダとMaskデコーダ SAM or Mask2Formerを使⽤・Visualエンコーダから画像特徴 𝒇 を得る・𝒉!"#
と 𝒇 を⼊⼒としてMaskデコーダからセグメンテーションマスク # 𝑴 を得る

8 ｜提案手法（4/4）: 損失関数・テキスト⽣成の損失関数：LLMの出⼒テキストとGTとのクロスエントロピー誤差・セグメンテーションマスクの損失関数：バイナリクロスエントロピー誤差とDice誤差の和・全体の損失関数各ピクセルごとの誤差全体的な重なり度に基づく誤差 𝜆 は異なる損失間のバランスを
調整するための重み係数

9 ｜実験設定（1/3）: データセット・Semantic Segmentation データセット ADE20K [Zhou+, CVPR17], COCO-Stuff
[Caesar+, CVPR18], PACO-LVIS [Ramanathan+, CVPR23], PartImageNet [He+, ECCV22], PASCAL-Part [Chen+, CVPR14] ・Vanilla Referring Segmentation データセット refCLEF, refCOCO, refCOCO+ [Kazemzadeh+, EMNLP14], refCOCOg [Mao+, CVPR16] ・Visual Question Answering データセット LLaVA-Instruct-150k [Liu+, 23]

10 ｜実験設定（2/3）: ReasonSeg Reasoning Segmentationタスクの評価のため新たなベンチマークを提案データの種類 image-instruction-maskの組データ構成・train：239 ・val：200
・test：779 クエリの種類・short phrases ・long sentences

11 ｜実験設定（3/3） Backbone マルチモーダルLLM：LLaVA-7B-v1-1, LLaVA-13B-v1-1 [Liu+, 23] Visualエンコーダ：SAM [Kirillov+, ICCV23],
Mask2Former [Cheng+, CVPR22] 学習環境・時間 NVIDIA 24G 3090 GPU × 8個 3⽇未満評価指標・gIoU：画像ごとのIoUスコアの平均・cIoU：全画像の予測領域と正解領域をまとめた累積IoU

12 ｜定量的結果（1/2）: Reasoning Segmentation ・推論を含まないデータセットのみで学習した場合でも良好な結果・ReasonSegでfine-tuningするとさらに優れた結果 ftはReasonSegデータセットでfine-tuningしたもの <-JBOH
$713> <-JV $713> <;PV $713> <;PV $713>

13 ｜定量的結果（2/2）: Reasoning Segmentation 情報伝達の仲介としてのテキストに依存してしまう2段階アプローチと⽐較して end-to-endの学習のLISAが良好な結果

14 ｜定性的結果（1/2）: 既存手法との比較既存⼿法では複雑な推論をすることが難しいが、LISAでは正しく推論しマスクしている

15 ｜定性的結果（2/2）: 複雑・暗黙的な指示文に対する結果マスクの根拠をテキストで説明レスリングの知識を踏まえて回答 1つの回答で複数のマスクを⽣成

16 ｜追試およびエラー分析 : 成功例 Generate a segmentation mask of the
washbasin in the bathroom. GT Generate a segmentation mask of the hand towel on the towel rack to the left of the sink. マスク⼊⼒画像

17 ｜追試およびエラー分析 : 失敗例 GT マスク⼊⼒画像 Generate a segmentation
mask of the pillow on the couch closest to the plant in the living room. Generate a segmentation mask of the wall picture closest to the front door in the entryway. マスク誤り対象物体以外もマスク

18 ｜所感 Strength ▷ 暗黙的な指⽰を理解できるため、ロボットなどの実応⽤に有⽤ ▷ ReasonSegデータセットを⽤いなくてもzero-shotで良好な結果 Weakness ▷ マルチモーダルLLMに依存しており、特にLLaVAの13Bのモデルを使⽤する際に
メモリ使⽤量や推論時間が増加する ▷ 指⽰⽂の複雑さや曖昧さの限界がある

背景 ▷ 複雑・暗黙的な指⽰⽂から対象物体のセグメンテーションマスクを⽣成できれば便利提案⼿法：LISA ▷ Reasoning SegmentationタスクとReasonSegベンチマークの提案 ▷ マルチモーダルLLMにセグメンテーション能⼒を付加結果
▷ Reasoning Segmentationタスクにおいて全ての指標でSOTAを達成 19 ｜まとめ

20 Appendix

21 ｜定量的結果 : RES Reasoning Segmentationタスクだけでなく、 RESタスクにおいても良好な結果評価指標は全てcIoU +1.1 +2.6
+2.1 -0.9 -0.2 +0.4 +2.9 +4.6 <-VP $713> <%JOH *$$7> <8BOH *$$7> <:BOH $713> <-JV $713>

22 ｜ Ablation studies（1/2）: Visualエンコーダ COCOデータセットのみでトレーニングされたMask2Formerよりも数⼗億の⾼品質マスクでトレーニングされたSAMの⽅が良好な結果

23 ｜ Ablation studies（2/2）: SAMへのLoRAの適用 LoRAのfine-tuningにより元のSAMモデルの⼀般化能⼒が損なわれるため LoRAを適⽤したSAMよりもfrozenされたSAMの⽅が良好な結果

[Journal club] LISA: Reasoning Segmentation via...

[Journal club] LISA: Reasoning Segmentation via Large Language Model

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

LISA: Reasoning Segmentation via Large Language Model Xin Lai1, Zhuotao

2 🙆 事前に定義されたカテゴリの物体は認識できる 🙆 単純・明⽰的な表現で指定された物体は認識できる e.g., “the orange” 🙅 複雑な推論が必要な記述は理解できない

4 ｜関連研究 : 既存のセグメンテーション手法とマルチモーダルLLM ⼿法概要 X-Decoder [Zou+, CVPR23] 画像とテキストを組み合わせ、複数のタスクを単⼀モデルで処理できる汎⽤デコーダ

5 ｜提案手法（1/4）: large Language Instructed Segmentation Assistant 新規性セグメンテーション出⼒のrequestを意味する<SEG>トークンをマルチモーダルLLMの語彙に追加

6 ｜提案手法（2/4）: マルチモーダルLLMの処理 ! 𝑦!"! # ℎ#$% ・マルチモーダルLLMの出⼒として<SEG>トークンを含んだテキストである ! 𝒚!"!

7 ｜提案手法（3/4）: VisualエンコーダとMaskデコーダ SAM or Mask2Formerを使⽤・Visualエンコーダから画像特徴 𝒇 を得る・𝒉!"#

9 ｜実験設定（1/3）: データセット・Semantic Segmentation データセット ADE20K [Zhou+, CVPR17], COCO-Stuff

10 ｜実験設定（2/3）: ReasonSeg Reasoning Segmentationタスクの評価のため新たなベンチマークを提案データの種類 image-instruction-maskの組データ構成・train：239 ・val：200

11 ｜実験設定（3/3） Backbone マルチモーダルLLM：LLaVA-7B-v1-1, LLaVA-13B-v1-1 [Liu+, 23] Visualエンコーダ：SAM [Kirillov+, ICCV23],

12 ｜定量的結果（1/2）: Reasoning Segmentation ・推論を含まないデータセットのみで学習した場合でも良好な結果・ReasonSegでfine-tuningするとさらに優れた結果 ftはReasonSegデータセットでfine-tuningしたもの <-JBOH

13 ｜定量的結果（2/2）: Reasoning Segmentation 情報伝達の仲介としてのテキストに依存してしまう2段階アプローチと⽐較して end-to-endの学習のLISAが良好な結果

14 ｜定性的結果（1/2）: 既存手法との比較既存⼿法では複雑な推論をすることが難しいが、LISAでは正しく推論しマスクしている

15 ｜定性的結果（2/2）: 複雑・暗黙的な指示文に対する結果マスクの根拠をテキストで説明レスリングの知識を踏まえて回答 1つの回答で複数のマスクを⽣成

16 ｜追試およびエラー分析 : 成功例 Generate a segmentation mask of the

17 ｜追試およびエラー分析 : 失敗例 GT マスク⼊⼒画像 Generate a segmentation

背景 ▷ 複雑・暗黙的な指⽰⽂から対象物体のセグメンテーションマスクを⽣成できれば便利提案⼿法：LISA ▷ Reasoning SegmentationタスクとReasonSegベンチマークの提案 ▷ マルチモーダルLLMにセグメンテーション能⼒を付加結果

20 Appendix

21 ｜定量的結果 : RES Reasoning Segmentationタスクだけでなく、 RESタスクにおいても良好な結果評価指標は全てcIoU +1.1 +2.6

22 ｜ Ablation studies（1/2）: Visualエンコーダ COCOデータセットのみでトレーニングされたMask2Formerよりも数⼗億の⾼品質マスクでトレーニングされたSAMの⽅が良好な結果

23 ｜ Ablation studies（2/2）: SAMへのLoRAの適用 LoRAのfine-tuningにより元のSAMモデルの⼀般化能⼒が損なわれるため LoRAを適⽤したSAMよりもfrozenされたSAMの⽅が良好な結果