Upgrade to Pro — share decks privately, control downloads, hide ads and more …

太田博三

 太田博三

From Textual Entailment in BERT to Visual Entailment in GPT-4V
-テキスト含意関係から画像の含意関係へ-

2023年10月20日(金)
@羽田空港
太田博三

[ChatGPT部特別企画] GPT-4Vのポテンシャルを探る!LT大会@東京・羽田空港会場 - connpass
https://chatgptclub.connpass.com/event/298703/

※ github otanet
https://github.com/otanet/LT_GPT-4V_VE_20231021

本LTでは
1)画像の含意関係認識

2)画像の常識推論を取り上げます。

目次:
1.テキストの含意関係認識とは
2.画像の含意関係認識とは
3.マーケティングのへの応用
:お店画像とクチコミの相性
4. 考察/まとめ
5.補足:画像の常識推論 (“Visual Commonsense reasoning”)

Avatar for 太田 博三

太田 博三

October 21, 2023
Tweet

More Decks by 太田 博三

Other Decks in Technology

Transcript

  1. From Textual Entailment in BERT to Visual Entailment in GPT-4V

    -テキスト含意関係から 画像の含意関係へ- 2023年10月20日(金) @羽田空港 太田博三
  2. 2.画像の含意関係認識とは 前提(Premise) 画像 仮説 (Hypothesis) 文 + = 結果: 1)含意である

    2)中立である 3)反駁している 結果: このHypothesisは 画像との関係で「1. Entailment(含 意)」に当たります。 仮説: 2 人の女性が 荷物を持って います。 + =
  3. 2.画像の含意関係認識とは 仮説: 2 人の女性が 荷物を持って います。 + = 結果: このHypothesisは

    画像との関係で「1. Entailment(含 意)」に当たります。 仮説: 2 人の女性 が荷物を 持っていま す。 + = 結果: このHypothesisは 画像との関係で「1. Entailment(含 意)」に当たります。 仮説: 市内の路上で心からの抱擁を 交わす2人の女性。1人は白い 容器を持ち、もう1人はフォル ダーを握り締めている。その後 ろでは建設機械やバイクなど の街の喧騒が続いている。
  4. 2.画像の含意関係認識とは 仮説: 2 人の女性が 荷物を持って います。 + = 結果: このHypothesisは

    画像との関係で「1. Entailment(含 意)」に当たります。 仮説: 2 人の女性 が荷物を 持っていま す。 + = 結果: このHypothesisは 画像との関係で「1. Entailment(含 意)」に当たります。 仮説: 市内の路上で心からの抱擁を 交わす2人の女性。1人は白い 容器を持ち、もう1人はフォル ダーを握り締めている。その後 ろでは建設機械やバイクなど の街の喧騒が続いている。
  5. 2.画像の含意関係認識とは 仮説: 2 人の女性が 荷物を持って います。 + = 結果: このHypothesisは

    画像との関係で「1. Entailment(含 意)」に当たります。 仮説: 2 人の女性 が荷物を 持っていま す。 + = 結果: このHypothesisは 画像との関係で「1. Entailment(含 意)」に当たります。 仮説: 市内の路上で心からの抱擁を 交わす2人の女性。1人は白い 容器を持ち、もう1人はフォル ダーを握り締めている。その後 ろでは建設機械やバイクなど の街の喧騒が続いている。 理由: 画像には2人の女性が写っており、少なくとも1 人の女性が赤い袋を持っていて、もう1人の女性も何 かの容器を持っていることが確認できる。この情報に 基づいて、提供されたHypothesisは画像の内容と一致 しており、画像がHypothesisを含意していると言えます。
  6. 2.画像の含意関係認識とは 姉妹たちは昼食 を食べたばかり で、持ち帰り用 の荷物を持ちな がらハグをしな がら別れを告げ ている。 + =

    結果: このHypothesisは 画像との関係で「2. Neutral(中立)」に 当たります。 理由: 画像から確認できるのは、2人の女性が何かの容器や袋を持ってハグをし ていることです。彼女たちが姉妹であるか、昼食を食べたばかりであるか、また 持ち帰り用の荷物を持っている理由は画像からは分かりません。したがって、 Hypothesisが真であるかどうかを画像の情報だけで確定することはできません。 このため、中立のカテゴリに分類されます。
  7. 2.画像の含意関係認識とは 男たちはデリの 外で争っている。 + = 結果: このHypothesisは 画像との関係で 「「3. Contradiction

    (矛盾)」に当たり ます。 理由:画像には2人の女性が写っており、彼女たちはハグをしている様子です。 画像に男性は写っておらず、また争っている様子も見受けられません。また、画 像の背景にはデリ(食料品店)のような場所も見受けられません。このため、提 供されたHypothesisは画像の内容と矛盾していると言えます。
  8. 補足:画像の常識推論 (“Visual Commonsense reasoning”) • Hypothesis自体のキャプション文章は日常的 にありうると考えられる。 Hypothesis(仮説) 姉妹たちは昼食 を食べたばかり

    で、持ち帰り用 の荷物を持ちな がらハグをしな がら別れを告げ ている。 + = 結果: このHypothesisは 画像との関係で「2. Neutral(中立)」に 当たります。
  9. 参考文献・URL一覧 1. Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of

    Synthetic and Compositional Images https://arxiv.org/abs/2303.07274 2.祇園 京料理 花咲 口コミ - 楽天ぐるなびhttps://r.gnavi.co.jp/k290600/review/ 3. The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) https://arxiv.org/pdf/2309.17421.pdf 4. Visual Entailment: A Novel Task for Fine-Grained Image Understanding https://arxiv.org/pdf/1901.06706.pdf 5. The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) https://arxiv.org/pdf/2309.17421.pdf ※1 [ChatGPT部特別企画] GPT-4Vのポテンシャルを探る! LT大会@東京・羽田空港会場 - connpass https://chatgptclub.connpass.com/event/298703/ ※2 github otanet https://github.com/otanet/LT_GPT-4V_VE_20231021