Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

[Journal club] LISA: Reasoning Segmentation via...

[Journal club] LISA: Reasoning Segmentation via Large Language Model

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. LISA: Reasoning Segmentation via Large Language Model Xin Lai1, Zhuotao

    Tian2, Yukang Chen1, Yanwei Li1, Yuhui Yuan4, Shu Liu3, Jiaya Jia1,3 1 CUHK, 2 HIT(Shenzhen), 3 SmartMore, 4 MSRA CVPR2024 慶應義塾⼤学 杉浦孔明研究室 ⾬宮佳⾳ Lai, Xin, et al. "LISA: Reasoning Segmentation via Large Language Model.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
  2. 2 🙆 事前に定義されたカテゴリの物体は認識できる 🙆 単純・明⽰的な表現で指定された物体は認識できる e.g., “the orange” 🙅 複雑な推論が必要な記述は理解できない

    🙅 知識や常識を含む記述は理解できない e.g., ”the food with high Vitamin C” |背景(1/2): 既存のPerceptionシステムは暗黙的な指⽰を理解できない ×
  3. 4 |関連研究 : 既存のセグメンテーション手法とマルチモーダルLLM ⼿法 概要 X-Decoder [Zou+, CVPR23] 画像とテキストを組み合わせ、複数のタスクを単⼀モデルで処理できる汎⽤デコーダ

    SEEM [Zou+, NeurIPS23] テキスト、⾳声、スクリブルなど多様な⼊⼒を扱えるセグメンテーション⼿法 Flamingo [Alayrac+, NeurIPS22] クロスモーダルアテンションで画像と⾔語を統合し、few-shot学習に強み BLIP-2 [Li+, ICML23] frozenしたvisual encoderから得た画像特徴を、text embeddingとともにLLMに⼊⼒ X-Decoder SEEM BLIP-2
  4. 6 |提案手法(2/4): マルチモーダルLLMの処理 ! 𝑦!"! # ℎ#$% ・マルチモーダルLLMの出⼒として<SEG>トークンを含んだテキストである ! 𝒚!"!

    を得る ・マルチモーダルLLMの最終層embeddingであり、 <SEG>トークンに対応する # 𝒉#$% を抽出 ・ # 𝒉#$% にMLPのprojection layerである𝛾を適⽤して 𝒉#$% を得る 事前学習済みの LLaVAを使⽤ 効率的な fine-tuningを実現
  5. 9 |実験設定(1/3): データセット ・Semantic Segmentation データセット ADE20K [Zhou+, CVPR17], COCO-Stuff

    [Caesar+, CVPR18], PACO-LVIS [Ramanathan+, CVPR23], PartImageNet [He+, ECCV22], PASCAL-Part [Chen+, CVPR14] ・Vanilla Referring Segmentation データセット refCLEF, refCOCO, refCOCO+ [Kazemzadeh+, EMNLP14], refCOCOg [Mao+, CVPR16] ・Visual Question Answering データセット LLaVA-Instruct-150k [Liu+, 23]
  6. 11 |実験設定(3/3) Backbone マルチモーダルLLM:LLaVA-7B-v1-1, LLaVA-13B-v1-1 [Liu+, 23] Visualエンコーダ:SAM [Kirillov+, ICCV23],

    Mask2Former [Cheng+, CVPR22] 学習環境・時間 NVIDIA 24G 3090 GPU × 8個 3⽇未満 評価指標 ・gIoU:画像ごとのIoUスコアの平均 ・cIoU:全画像の予測領域と正解領域をまとめた累積IoU
  7. 16 |追試およびエラー分析 : 成功例 Generate a segmentation mask of the

    washbasin in the bathroom. GT Generate a segmentation mask of the hand towel on the towel rack to the left of the sink. マスク ⼊⼒画像
  8. 17 |追試およびエラー分析 : 失敗例 GT マスク ⼊⼒画像 Generate a segmentation

    mask of the pillow on the couch closest to the plant in the living room. Generate a segmentation mask of the wall picture closest to the front door in the entryway. マスク誤り 対象物体以外もマスク
  9. 21 |定量的結果 : RES Reasoning Segmentationタスクだけでなく、 RESタスクにおいても良好な結果 評価指標は全てcIoU +1.1 +2.6

    +2.1 -0.9 -0.2 +0.4 +2.9 +4.6 <-VP $713> <%JOH *$$7> <8BOH *$$7> <:BOH $713> <-JV $713>