Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
日本ディープラーニング協会主催 CVPR 2021 技術報告会(登内)
Search
tonouchi510
November 18, 2024
0
2
日本ディープラーニング協会主催 CVPR 2021 技術報告会(登内)
tonouchi510
November 18, 2024
Tweet
Share
More Decks by tonouchi510
See All by tonouchi510
日本ディープラーニング協会主催 CVPR 2020 技術報告会(登内)
tonouchi510
0
3
モデル更新コストを削減しつつ精度改善を達成した話
tonouchi510
0
130
第22回 MLOps 勉強会:みてねのMLOps事情
tonouchi510
2
1.9k
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
Scaling GitHub
holman
458
140k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Faster Mobile Websites
deanohume
305
30k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
GitHub's CSS Performance
jonrohan
1030
460k
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
Happy Clients
brianwarren
98
6.7k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
730
What's new in Ruby 2.0
geeforr
343
31k
Automating Front-end Workflow
addyosmani
1366
200k
Transcript
日本ディープラーニング協会主催 CVPR 2021 技術報告会 ハッシュタグ #今こそ学ぼう #CVPR2021 #AISCHOLAR
自己紹介 登内 雅人(Masato Tonouchi) 株式会社ミクシィ みてね事業部 開発グループ MLエンジニア
AI-Scholar: 記事リンク, Twitter: @tono2700 経歴 ・2018年9月〜 2020年3月 株式会社ミクシィ 学生アルバイト ・2020年4月〜 株式会社ミクシィ エンジニア 趣味 ・運動、スポーツ観戦、YouTube、コーヒー アウトプット ・mixi tech note #5 ・日本ディープラーニング協会主催 CVPR 2020 技術報告会 ・今期の私は凄かったぞ!!! DSやMLはビジネスに役立つ!
mixi, Inc. 全世界1000万人(※)以上の利用者 ※(株)ミクシィ調べ。iOS・Androidアプリ登録者数、ブラウザ版登録者数の合計。
主な機能
論文を読むメリット 去年の取り組み • モデル改善における課題 ◦ モデル更新における関連作業に、 チームの半年分の工数が必要という 見積もりに ◦ 今後も更新作業は複数回ある
• 最新論文サーベイにより解決 https://www.slideshare.net/ssuser995b9a1/ml-245520906 論文:Towards Backward-Compatible Representation Learning 著者:Yantao Shen, Yuanjun Xiong, Wei Xia, Stefano Soatto 出典:CVPR 2020 as oral ※一つ目の紹介論文の先行研究になっている手法
今日話すこと 1. Compatibility-Aware Heterogeneous Visual Search ◦ 表現学習モデルのニューラルアーキテクチャサーチ( NAS) ◦
先行研究であるBackward-Compatible Training(BCT)を応用し、 互換性のあるアーキテクチャ探索を実現する 2. Composing Photos Like a Photographe ◦ プロの写真家が行っている美的構成を自動化するためのトリミング位置予測 ◦ 写真の美的構図ルールを明示的にモデリング
表現学習モデルの精度改善の課題 分類結果ではなく特徴ベクトルを使用する点 入力 画像 別々にトレーニングされたモデル は、一般に同じ埋め込み空間には ならない
表現学習モデルの精度改善の課題 引用元:https://arxiv.org/abs/2003.11942 ・大規模なデータに対して Backfill(再推論)が必要 ・分散処理、整合性チェッ ク、切り替え処理など、 考え ることが多い DB移行と同等以上の開発・作業が必要 モデル更新の度にコストがかかる
Towards Backward-Compatible Representation Learning 後方互換性を担保しつつ、 モデルの更新を行える手法 を提案。 記事リンク 引用元:https://arxiv.org/abs/2003.11942
損失関数に旧分類器の誤差を追加 互換性基準 損失関数 引用元:https://arxiv.org/abs/2003.11942 実用性の面でも優れている
Compatibility-Aware Heterogeneous Visual Search クエリとギャラリーセットでそれぞれ異なる埋め込みモデルを使用するHeterogeneousな設定 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html
アーキテクチャと互換性の関係 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html
実験結果 • 精度低下をパラゴン設定の1.6% 以内に維持しつつ、ベースライン と同等のパフォーマンスを達成 • ベースラインのアーキテクチャを BCTでトレーニングした結果よりも、 CMP-NASで見つけたアーキテクチャ が遥かに良い精度を記録している
引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Duggal_Compatibility-Aware_Heterogeneous_Visual_Search_CVPR_2021_paper.html
まとめ • BCTによる後方互換性のある学習によって、軽量化したクエリモデルを使 用するHeterogeneousな検索システムを実現できる ◦ 精度低下も • 実験により、アーキテクチャも互換性の影響要因になることを示した
良い写真について考える • 大量の写真の中からフォトブックや1秒動画に使う写真を選ばなければならない • アルバムの最初の方に良い写真が並んでいる方が良い 「良い写真」 を選び出す レコメンド機能が必要
良い写真とは? 子供が写ってい る方が良い? 表情は?笑顔 の方が良い? 景色が良い 写真? 動きのある 動画? たくさん人が写って
いる写真? 泣いてる顔も 良い? 明るいor 暗い?
論文2 タイトル:Composing Photos Like a Photographer 著者:Chaoyi Hong, Shuaiyuan Du,
Ke Xian, Hao Lu, Zhiguo Cao, Weicai Zhong 概要 • プロの写真家が行っている美的構成を自動化するための切り出し位置予測 • 写真の美的構図ルールを明示的にモデリング
Image Croppingの基礎技術 1. Attention-Guided Image Cropping ◦ Saliency Mapやenergy functionsによって推定する
◦ 顕著なオブジェクトや情報のある領域を残せることが, 良い画像切り出しであるという考え ◦ サムネイル画像などの用途でよく使われる 2. Aesthetics-Informed Image Cropping ◦ 美しさに基づいた手法 ◦ アノテーションされた美的ラベルで学習 ▪ クラス分類、ランキング学習など ◦ モデルが美的構成について獲得できることを期待 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html https://arxiv.org/pdf/1702.00503.pdf < ランキング学習 ※順序関係を利用して学習
既存研究 • VFN ◦ プロの写真家がとった写真から、切り出し候補を作成 ◦ ◦ 損失関数 を全てのペア候補で算出し、 総和を最小化
• DIP ◦ SaliencyMapで候補ビューを絞り込む • VPN ◦ 蒸留を用いて推論を高速化 • GAIC ◦ グリッドアンカーを設計して候補の検索空間を削減 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
既存手法 課題 • 予測結果に対する解釈性がない • 美的構成が暗黙的に獲得されることを前提とした手法 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Composing Photos Like a Photographer • 良い写真において「構図」が重要 • 構図ルールを明示的にモデルに組み込む手法を提案 どんな理由で選ばれたのか分かる
良い写真・良い構図という曖昧な予測 問題に対し、解釈性を与える 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
写真の構図とは? 引用元: https://fotoria.net/ja/blog/bc/photo-shoot-techniques/sc/composition/ar/16-photo-layouts/ 三分割構図 三角構図 対角線構図 シンメトリー構図
CACNet(Composition-Aware Image Cropping Network) 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Composition Branch • 構図ルールを予測するClassificationモデルを学習 ◦ composition dataset [2]を使用 ◦ 次ページの9つの構図ルール
• 要素の識別により、画像切り出しに合理的で信頼できる手がかりを 与えることができる 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Composition Branchが識別する構図ルール 上2行が学習データセットからサンプルしたもの、下2行はComposition Branchによっ て予測された例 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
KCM 1. 各構図ルールに対応する CAMを作成 2. 各CAMを結合してKCMを作成 3. KCMを入力画像サイズに UpSumpling 画像が一つ以上の構図ルールに従うことを考慮する必要がある
例えば、海辺に立つ人物の画像は, Hor.の規則と RoT.の規則の両方に従う可能性がある 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
Cropping Branch • KCMと優れたクロッピングの関係を学習 ◦ KCMによるアンカーポイントの重み付け ◦ バウンディングボックスの回帰 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
CACNetの解釈性 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
データセット • FCDB(1743枚、うちトレーニング用が 1395枚) • FLMS(500枚、全て評価用に使用) 実験結果 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
失敗ケース • CACNetの限界 ◦ GroundTruthの切り出しサイズが比較的小さい場合に失敗 ◦ 従来手法では、候補ビューにサイズの小さい領域も多数含めれば対応可能 ◦ CACNetは全体を見て切り出し位置を決定する手法。トレードオフ 引用元:
https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
応用例 同じシーンの3枚の写真。 「鉢植えの位置」だけを 変えている 引用元: https://openaccess.thecvf.com/content/CVPR2021/html/Hong_Composing_Photos_Like_a_Photographer_CVPR_2021_paper.html
まとめ • 構図ルールを明示的にモデリングし、解釈可能な画像切り出しを行うCACNetを提 案し、精度・パフォーマンス面で有効性を示した 感想 • 構図ルールが学習可能なものだとは思わなかった • 良い写真・良い構図を求めるような抽象的な推論タスクと「解釈性」の 組み合わせは相性が良いと感じた