Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RAFT: Recurrent All-Pairs Field Transforms for ...

Avatar for Daigo HIROOKA Daigo HIROOKA
December 12, 2020

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Presentation slide in 全日本コンピュータビジョン勉強会

Avatar for Daigo HIROOKA

Daigo HIROOKA

December 12, 2020
Tweet

More Decks by Daigo HIROOKA

Other Decks in Science

Transcript

  1. • 機械学習エンジニア @ブレインパッド • 関心 ◦ 動画、3Dビジョン ◦ 機械学習の運用 •

    その他 ◦ 最近GoProを買いました ◦ 白金鉱業.FM(@shirokane_fm) podcastで配信中! 2 自己紹介:廣岡大吾(@daigo_hirooka)
  2. オプティカルフローのデータセット • MPI Sintel Flow Dataset ◦ アニメーション動画から作られたデータセット • KITTI

    ◦ 車載カメラによるデータセット ◦ 教師ラベルは疎に付与されている • FlyingChairs, FlyingThings3D ◦ 自然画像の背景に別の物体を合成したデータセット 5 FlowNet: Learning Optical Flow with Convolutional Networks Object Scene Flow for Autonomous Vehicles A Naturalistic Open Source Movie for Optical Flow Evaluation
  3. オプティカルフローの推定 画像ペアを入力として似たピクセルを結びつけるタスク • 古典的アプローチ ◦ 差分が小さいピクセルを対応づけるように最適化 ◦ Lucas-Kanade法:パッチごとにフローを推定 ◦ Horn-Schunck法:近傍フローを滑らかにする正則化を導入

    ◦ OpenCVからも利用可能 • 深層学習によるアプローチ ◦ セグメンテーションに類似したピクセルごとの予測 ◦ 入力画像間の物体の対応をどう捉えるかがポイント ◦ 代表手法:FlowNet、FlowNet2、PWC-Net 6 FlowNet: Learning Optical Flow with Convolutional Networks
  4. 提案手法:RAFT RAFT:Recurrent All-Pairs Field Transforms • モデルの構成 ◦ Feature Extraction(特徴抽出)

    ◦ Computing Visual Similarity(特徴量の相関計算) ◦ Iterative Updates(反復更新) • 貢献 ◦ 精度改善:任意の回数のフロー更新が可能になり、既存手法より大きく誤差を改善 ◦ 汎化性能改善:学習時とは別のデータに対しても効果的に動作 ◦ 高効率性:多くの既存モデルより省パラメータかつ高速。 ▪ 参考:1088x436の画像を1080Ti GPUで10FPSで推論可能 11
  5. RAFTのフロー更新 GRUを用いたネットワークによって推定フローを更新する • 入力 ◦ Lookupした相関値 ◦ 推定フロー ◦ Context

    Encoderによる画像1の特徴量 ◦ 前ステップの潜在特徴量 • 出力 ◦ フローの更新差分 ◦ 新しい潜在特徴量 • 差分を足すことで推定フローを更新する 15
  6. 実験設定 • 評価指標:end-point-error ◦ 予測と正解フローの差分の L2ノルム • 対象データ ◦ FlyingChairs、FlyingThings3Dデータセットで事前学習

    ◦ リーダーボードが存在する MPI-Sintel、KITTIデータセットで評価 • フロー更新回数(RNNの構造上、学習時と予測時でフロー更新回数を変えることが可能) ◦ 学習時:12回 ◦ MPI-Sintelの予測時:32回 ◦ KITTIの予測時:24回 • その他オプティマイザやデータ拡張の設定などは論文参照 18 https://youtu.be/ZmiBI4tPk_o
  7. まとめ・感想 • まとめ ◦ オプティカルフローの推定過程を反復最適化として RNNによってモデル化 ◦ 任意の回数の反復更新が可能になりフロー推定精度向上 ◦ 入力画像ペアの相関(

    correlation volume)を保持し、反復計算中に使いまわすことで 計算量を削減 ◦ 学習時とは異なるデータセットに対しても良好に予測可能 • 感想 ◦ 直球SOTA論文がbest paperになっているのは最近だと珍しい気がする ◦ 反復最適化をRNNによってモデル化するのは他でも利用できそう ▪ 学習時と予測時で異なる反復回数を設定できるのも面白い ◦ 再現実装時にはglobal gradient clippingを適用しないと学習がうまく進まなかった ▪ (一応論文にも1行くらいで記述されている) 23 https://youtu.be/ZmiBI4tPk_o
  8. • オプティカルフロー推定の既存手法 ◦ [1504.06852] FlowNet: Learning Optical Flow with Convolutional

    Networks ◦ [1612.01925] FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks ◦ [1709.02371] PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume • RAFT ◦ 論文:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow ▪ 特に記載のない画像は本論文より引用(または自作) ◦ 公式実装:princeton-vl/RAFT ◦ 再現実装:daigo0927/tf-raft • オプティカルフローの基礎 ◦ Richard Szeliski. コンピュータビジョン アルゴリズムと応用 . 共立出版. 2013 24 References
  9. 25 References • データセット ◦ MPI Sintel:A Naturalistic Open Source

    Movie for Optical Flow Evaluation ◦ KITTI:Object Scene Flow for Autonomous Vehicles ◦ FlyingChairs:FlowNet: Learning Optical Flow with Convolutional Networks ◦ FlyingThings3D:A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation