日本ディープラーニング協会主催 CVPR 2021 技術報告会（登内）

日本ディープラーニング協会主催 CVPR 2021 技術報告会ハッシュタグ #今こそ学ぼう #CVPR2021 #AISCHOLAR

自己紹介　登内雅人（Masato Tonouchi）　　株式会社ミクシィ　　みてね事業部開発グループ MLエンジニア
　　AI-Scholar: 記事リンク, Twitter: @tono2700 経歴・2018年9月〜 2020年3月株式会社ミクシィ学生アルバイト・2020年4月〜株式会社ミクシィエンジニア趣味・運動、スポーツ観戦、YouTube、コーヒーアウトプット・mixi tech note #5 ・日本ディープラーニング協会主催 CVPR 2020 技術報告会・今期の私は凄かったぞ！！！ DSやMLはビジネスに役立つ！

mixi, Inc. 全世界1000万人(※)以上の利用者 ※（株）ミクシィ調べ。iOS・Androidアプリ登録者数、ブラウザ版登録者数の合計。

主な機能

論文を読むメリット去年の取り組み • モデル改善における課題 ◦ モデル更新における関連作業に、チームの半年分の工数が必要という見積もりに ◦ 今後も更新作業は複数回ある
• 最新論文サーベイにより解決 https://www.slideshare.net/ssuser995b9a1/ml-245520906 論文：Towards Backward-Compatible Representation Learning 著者：Yantao Shen, Yuanjun Xiong, Wei Xia, Stefano Soatto 出典：CVPR 2020 as oral ※一つ目の紹介論文の先行研究になっている手法

今日話すこと 1. Compatibility-Aware Heterogeneous Visual Search ◦ 表現学習モデルのニューラルアーキテクチャサーチ（ NAS） ◦
先行研究であるBackward-Compatible Training(BCT)を応用し、互換性のあるアーキテクチャ探索を実現する 2. Composing Photos Like a Photographe ◦ プロの写真家が行っている美的構成を自動化するためのトリミング位置予測 ◦ 写真の美的構図ルールを明示的にモデリング

表現学習モデルの精度改善の課題分類結果ではなく特徴ベクトルを使用する点入力画像別々にトレーニングされたモデルは、一般に同じ埋め込み空間にはならない

表現学習モデルの精度改善の課題引用元：https://arxiv.org/abs/2003.11942 ・大規模なデータに対して　 Backfill（再推論）が必要・分散処理、整合性チェッ　ク、切り替え処理など、　考えることが多い DB移行と同等以上の開発・作業が必要モデル更新の度にコストがかかる

Towards Backward-Compatible Representation Learning 　後方互換性を担保しつつ、　モデルの更新を行える手法　を提案。記事リンク引用元：https://arxiv.org/abs/2003.11942

損失関数に旧分類器の誤差を追加互換性基準損失関数引用元：https://arxiv.org/abs/2003.11942 実用性の面でも優れている

Compatibility-Aware Heterogeneous Visual Search クエリとギャラリーセットでそれぞれ異なる埋め込みモデルを使用するHeterogeneousな設定引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html

アーキテクチャと互換性の関係引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html

実験結果 • 精度低下をパラゴン設定の1.6% 以内に維持しつつ、ベースラインと同等のパフォーマンスを達成 • ベースラインのアーキテクチャを BCTでトレーニングした結果よりも、 CMP-NASで見つけたアーキテクチャが遥かに良い精度を記録している
引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html

まとめ • BCTによる後方互換性のある学習によって、軽量化したクエリモデルを使用するHeterogeneousな検索システムを実現できる ◦ 精度低下も • 実験により、アーキテクチャも互換性の影響要因になることを示した

良い写真について考える • 大量の写真の中からフォトブックや１秒動画に使う写真を選ばなければならない • アルバムの最初の方に良い写真が並んでいる方が良い「良い写真」を選び出すレコメンド機能が必要

良い写真とは？子供が写っている方が良い？表情は？笑顔の方が良い？景色が良い写真？動きのある動画？たくさん人が写って
いる写真？泣いてる顔も良い？明るいor 暗い？

論文２タイトル：Composing Photos Like a Photographer 著者：Chaoyi Hong, Shuaiyuan Du,
Ke Xian, Hao Lu, Zhiguo Cao, Weicai Zhong 概要 • プロの写真家が行っている美的構成を自動化するための切り出し位置予測 • 写真の美的構図ルールを明示的にモデリング

Image Croppingの基礎技術 1. Attention-Guided Image Cropping ◦ Saliency Mapやenergy functionsによって推定する
◦ 顕著なオブジェクトや情報のある領域を残せることが，   良い画像切り出しであるという考え   ◦ サムネイル画像などの用途でよく使われる     2. Aesthetics-Informed Image Cropping ◦ 美しさに基づいた手法 ◦ アノテーションされた美的ラベルで学習 ▪ クラス分類、ランキング学習など ◦ モデルが美的構成について獲得できることを期待引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html 　　　 https://arxiv.org/pdf/1702.00503.pdf ＜ランキング学習 ※順序関係を利用して学習

既存研究 • VFN ◦ プロの写真家がとった写真から、切り出し候補を作成 ◦ ◦ 損失関数　を全てのペア候補で算出し、総和を最小化
• DIP ◦ SaliencyMapで候補ビューを絞り込む • VPN ◦ 蒸留を用いて推論を高速化 • GAIC ◦ グリッドアンカーを設計して候補の検索空間を削減引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

既存手法課題 • 予測結果に対する解釈性がない • 美的構成が暗黙的に獲得されることを前提とした手法引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Composing Photos Like a Photographer • 良い写真において「構図」が重要 • 構図ルールを明示的にモデルに組み込む手法を提案どんな理由で選ばれたのか分かる
良い写真・良い構図という曖昧な予測問題に対し、解釈性を与える引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

写真の構図とは？引用元: https://fotoria.net/ja/blog/bc/photo-shoot-techniques/sc/composition/ar/16-photo-layouts/ 三分割構図三角構図対角線構図シンメトリー構図

CACNet（Composition-Aware Image Cropping Network）引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Composition Branch • 構図ルールを予測するClassificationモデルを学習 ◦ composition dataset [2]を使用 ◦ 次ページの9つの構図ルール
• 要素の識別により、画像切り出しに合理的で信頼できる手がかりを与えることができる引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Composition Branchが識別する構図ルール上２行が学習データセットからサンプルしたもの、下２行はComposition Branchによって予測された例引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

KCM 1. 各構図ルールに対応する CAMを作成 2. 各CAMを結合してKCMを作成 3. KCMを入力画像サイズに UpSumpling 画像が一つ以上の構図ルールに従うことを考慮する必要がある
例えば、海辺に立つ人物の画像は， Hor.の規則と RoT.の規則の両方に従う可能性がある引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Cropping Branch • KCMと優れたクロッピングの関係を学習 ◦ KCMによるアンカーポイントの重み付け ◦ バウンディングボックスの回帰引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

CACNetの解釈性引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

データセット • FCDB（1743枚、うちトレーニング用が 1395枚） • FLMS（500枚、全て評価用に使用）実験結果引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

失敗ケース • CACNetの限界 ◦ GroundTruthの切り出しサイズが比較的小さい場合に失敗 ◦ 従来手法では、候補ビューにサイズの小さい領域も多数含めれば対応可能 ◦ CACNetは全体を見て切り出し位置を決定する手法。トレードオフ引用元:
https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

応用例同じシーンの3枚の写真。「鉢植えの位置」だけを変えている引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

まとめ • 構図ルールを明示的にモデリングし、解釈可能な画像切り出しを行うCACNetを提案し、精度・パフォーマンス面で有効性を示した感想 • 構図ルールが学習可能なものだとは思わなかった • 良い写真・良い構図を求めるような抽象的な推論タスクと「解釈性」の組み合わせは相性が良いと感じた

日本ディープラーニング協会主催 CVPR 2021 技術報告会（登内）

日本ディープラーニング協会主催 CVPR 2021 技術報告会（登内）

tonouchi510

More Decks by tonouchi510

Featured

Transcript

日本ディープラーニング協会主催 CVPR 2021 技術報告会ハッシュタグ #今こそ学ぼう #CVPR2021 #AISCHOLAR

自己紹介　登内雅人（Masato Tonouchi）　　株式会社ミクシィ　　みてね事業部開発グループ MLエンジニア

mixi, Inc. 全世界1000万人(※)以上の利用者 ※（株）ミクシィ調べ。iOS・Androidアプリ登録者数、ブラウザ版登録者数の合計。

主な機能

論文を読むメリット去年の取り組み • モデル改善における課題 ◦ モデル更新における関連作業に、チームの半年分の工数が必要という見積もりに ◦ 今後も更新作業は複数回ある

今日話すこと 1. Compatibility-Aware Heterogeneous Visual Search ◦ 表現学習モデルのニューラルアーキテクチャサーチ（ NAS） ◦

表現学習モデルの精度改善の課題分類結果ではなく特徴ベクトルを使用する点入力画像別々にトレーニングされたモデルは、一般に同じ埋め込み空間にはならない

Towards Backward-Compatible Representation Learning 　後方互換性を担保しつつ、　モデルの更新を行える手法　を提案。記事リンク引用元：https://arxiv.org/abs/2003.11942

損失関数に旧分類器の誤差を追加互換性基準損失関数引用元：https://arxiv.org/abs/2003.11942 実用性の面でも優れている

アーキテクチャと互換性の関係引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html

まとめ • BCTによる後方互換性のある学習によって、軽量化したクエリモデルを使用するHeterogeneousな検索システムを実現できる ◦ 精度低下も • 実験により、アーキテクチャも互換性の影響要因になることを示した

良い写真について考える • 大量の写真の中からフォトブックや１秒動画に使う写真を選ばなければならない • アルバムの最初の方に良い写真が並んでいる方が良い「良い写真」を選び出すレコメンド機能が必要

良い写真とは？子供が写っている方が良い？表情は？笑顔の方が良い？景色が良い写真？動きのある動画？たくさん人が写って

論文２タイトル：Composing Photos Like a Photographer 著者：Chaoyi Hong, Shuaiyuan Du,

Image Croppingの基礎技術 1. Attention-Guided Image Cropping ◦ Saliency Mapやenergy functionsによって推定する

既存研究 • VFN ◦ プロの写真家がとった写真から、切り出し候補を作成 ◦ ◦ 損失関数　を全てのペア候補で算出し、総和を最小化

既存手法課題 • 予測結果に対する解釈性がない • 美的構成が暗黙的に獲得されることを前提とした手法引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Composing Photos Like a Photographer • 良い写真において「構図」が重要 • 構図ルールを明示的にモデルに組み込む手法を提案どんな理由で選ばれたのか分かる

写真の構図とは？引用元: https://fotoria.net/ja/blog/bc/photo-shoot-techniques/sc/composition/ar/16-photo-layouts/ 三分割構図三角構図対角線構図シンメトリー構図

CACNet（Composition-Aware Image Cropping Network）引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

Composition Branch • 構図ルールを予測するClassificationモデルを学習 ◦ composition dataset [2]を使用 ◦ 次ページの9つの構図ルール

KCM 1. 各構図ルールに対応する CAMを作成 2. 各CAMを結合してKCMを作成 3. KCMを入力画像サイズに UpSumpling 画像が一つ以上の構図ルールに従うことを考慮する必要がある

Cropping Branch • KCMと優れたクロッピングの関係を学習 ◦ KCMによるアンカーポイントの重み付け ◦ バウンディングボックスの回帰引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

CACNetの解釈性引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

データセット • FCDB（1743枚、うちトレーニング用が 1395枚） • FLMS（500枚、全て評価用に使用）実験結果引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html

応用例同じシーンの3枚の写真。「鉢植えの位置」だけを変えている引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html