[JSAI23] Analysis of Automatic Evaluation Metric Based on Scene Graphs for Image Captioning Models

1 シーングラフに基づく画像キャプション生成モデルの自動評価と解析田中励雄 , 和田唯我 , 杉浦孔明慶應義塾大学

⽇常物体のキャプション⽣成タスク物体を説明するキャプションを⽣成社会応⽤が進むキャプション⽣成モデル視覚障害者の補助 [Gurari+, ECCV20] ロボットへの指⽰⽂の⾃動付与 [神原+, IROS21] キャプション⽣成モデル開発
[和⽥+, NLP23] 背景︓⽇常物体のキャプション⽣成モデルは社会応⽤が進んでいる 2 https://youtu.be/gJhdgbRAilw 画像に基づく⽣成⽂の⾃動評価尺度は重要

指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う
3 ⽣成⽂指⽰⽂付与モデル参照⽂⾃動評価尺度⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分・・・

3 ⽣成⽂指⽰⽂付与モデル参照⽂⾃動評価尺度⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分・・・「⽔⾊のカップを右上の箱の中に移動させてください」

3 ⽣成⽂指⽰⽂付与モデル参照⽂⾃動評価尺度⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分・・・

関連研究 : ⽇本語の⽣成⽂を評価する実⽤的で⾼度な尺度は存在しない既存⼿法の問題点 1. 𝑛-gramによる評価⼈間による評価との相関が⾼くない 2. SPICE [Anderson+,
ECCV16] 英語の評価尺度であり，⽇本語に直接適⽤することができない JaSPICE [和⽥+, NLP23] • ⽇本語における画像キャプション⽣成のための⾃動評価尺度 • シーングラフに基づいた⾃動評価を⾏うことが可能 4

本研究の⽬的︓JaSPICEの実⽤性を向上させる 5 JaSPICEの課題 1. 指⽰⽂付与タスクにおいて JaSPICE を検証 2. STAIR Captions
における JaSPICE のエラー分析を⾏う本研究の⽬的 🙁⼀般的な画像キャプション⽣成タスクのみで検証 🙁失敗例についての解析が不⼗分

JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA)
JaSPICE [和⽥+, NLP23] は２つのモジュールで構成 6 シーングラフをもとに⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能

JaSPICE [和⽥+, NLP23] は２つのモジュールで構成 6 シーングラフをもとに⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能シーングラフ作成

JaSPICE [和⽥+, NLP23] は２つのモジュールで構成 6 シーングラフをもとに⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能シーングラフ作成シーングラフ同⼠で Binary Matching

7 • pip install & dockerで簡単に実⾏可能 JaSPICE : ⽇本語における画像キャプション⽣成のための⾃動評価尺度 Project
Page: https://yuiga.dev/jaspice

オレンジ⾊のヘルメットをかぶり，⻘⾊のズボンをはいた男の⼦が，⼈通りの少ない道路でボードに乗っている JaSPICEのグラフ解析器が⽣成したシーングラフ 8

JaSPICEのグラフ解析器が⽣成したシーングラフ 8

実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18］⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた⽇本語による画像キャプションのコーパス⼈間による評価クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集データセット信号機が電線にぶら下がっているコップを右上に動かして

実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18］⽇本語による指⽰⽂と画像によるコーパス 2.
STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた⽇本語による画像キャプションのコーパス⼈間による評価クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集データセット信号機が電線にぶら下がっているコップを右上に動かして⼈間による回答評価とてもよい５よい４普通３悪い２とても悪い１

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 10 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 11 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall BLEU
[Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 12 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数⼈間による評価との相関係数において，ベースライン尺度に対して上回った⾃動評価尺度 Pearson Spearman Kendall
BLEU [Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452 ＋0.072 ＋0.113 ＋0.087

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 13 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall
SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE

SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE

SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE SPICEに対しても⼈間による評価との相関係数を上回った＋0.145 ＋0.167 ＋0.135

成功例︓適切な⽣成⽂に対して，JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を，左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を，左上のケースに動かしてちょうだい」

成功例︓適切な⽣成⽂に対して，JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を，左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を，左上のケースに動かしてちょうだい」⽣成⽂と参照⽂が同じ指⽰内容（⼈間による評価＝５）
JaSPICE = 0.870は上位0.3%の値 JaSPICEは適切な評価ができている

失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず，JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください

失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず，JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください⽣成⽂と参照⽂が同じ指⽰内容（⼈間による評価＝５） JaSPICE
= 0.090 本サンプルでは適切な評価が出来ていない

PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「⽩くて不透明なボトルを，右上の箱に移してください」⽣成⽂: 「⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください」参照⽂: エラー要因 (JaSPICE
= 0.09，⼈間による評価＝５) 左上の箱の中にある

= 0.09，⼈間による評価＝５) 「⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください」左上の箱の中にある

= 0.09，⼈間による評価＝５) 「⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください」⽩くて不透明なボトル右上左上の箱の中にある

JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類説明サンプル数単語の粒度の違い 46 注⽬領域の相違
20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義

20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義正規化された⼈間による評価

20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義正規化された⼈間による評価正規化されたJaSPICEによる評価

20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義正規化されたJaSPICEによる評価

20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義

STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」参照⽂︓「⽫に料理が盛られている」下位語「⾁」上位語「料理」

STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」参照⽂︓「⽫に料理が盛られている」下位語「⾁」上位語「料理」
②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬参照⽂︓「電線にがぶら下がっている」⽣成⽂︓「⻘空の下でが通りを⾛っている」信号機⾞

STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが，完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする．」⽣成⽂︓「テニスラケットをもっている．」⼀致する単語数が減少エラー要因

STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが，完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする．」⽣成⽂︓「テニスラケットをもっている．」⼀致する単語数が減少エラー要因 ④評価者による誤り
: ⽣成⽂︓「紙コップの隣にバナが置いてある」⼈間による評価と⽣成⽂の質とが乖離不適切な⽣成⽂に対して，評価者が 5（とても良い）と付与

まとめ 22 背景 1. JaSPICE が PFN-PIC において，⼈間による評価との相関係数で，ベースライン尺度に対して上回った
2. STAIR Captions において， JaSPICE のエラー分析を⾏った研究⽬的研究内容キャプション⽣成モデルはロボットへの指⽰⽂付与への応⽤が進む⽇本語の⽣成⽂を評価する⾃動評価尺度の研究は未だ不⼗分 JaSPICE [和⽥+, NLP23] の実⽤性を向上させる https://yuiga.dev/jaspice

評価に使⽤したモデル Appendix: JaSPICEの評価に使⽤したモデル 23 Transformer𝐋 ∈ {𝟑, 𝟔, 𝟏𝟐} Bottom-up
Feature [Anderson,ECCV16] を⼊⼒に⽤いた 𝐿 層からなるTransformer ClipCapmlp Mapping Network を MLPとしたClipCap ClipCaptrm Mapping Network を Transformerとした ClipCap Model SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ {3,6,12}

JaSPICE: Japanese Scene Graph Parser 24 ①Japanese Scene Graph Parser
(JaSGP): 1. ⼊⼒されたｙから，述語項構造と係り受け構造を出⼒ 2. 述語項構造と係り受け構造をもとに，シーングラフを⽣成形態素解析→JUMAN 構⽂解析→KNP

Appendix: Graph Analyzer 25 Graph Analyzer (GA) 同義語によるグラフ拡張を⾏ったのち，Binary matchingを⾏う適合率
再現率

Appendix: 定量的結果（STAIR Captions） 26 STAIR Captions における⾃動評価尺度と⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman
Kendall BLEU [Papineni+, ACL02] 0.296 0.343 0.260 ROUGE [Lin+, ACL04] 0.366 0.340 0.258 METEOR [Banerjee+, ACL05] 0.345 0.366 0.279 CIDEr [Vedantam+, CVPR15] 0.312 0.355 0.269 JaSPICE 0.501 0.529 0.413 STAIR Captions {訓練集合,検証集合,テスト集合} = {413915, 37269, 35594}

Appendix: 定量的結果（STAIR Captions） 27 STAIR Captions におけるSPICE ・JaSPICEと⼈間による評価との相関係数⾃動評価尺度 Pearson
Spearman Kendall SPICEservice 0.491 0.516 0.403 SPICEtrm 0.488 0.515 0.402 JaSPICE 0.501 0.529 0.413 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE ＋0.010 ＋0.013 ＋0.010

[JSAI23] Analysis of Automatic Evaluation Metri...

[JSAI23] Analysis of Automatic Evaluation Metric Based on Scene Graphs for Image Captioning Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript