Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RAFT: Recurrent All-Pairs Field Transforms for ...

Daigo HIROOKA
December 12, 2020

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

Presentation slide in 全日本コンピュータビジョン勉強会

Daigo HIROOKA

December 12, 2020
Tweet

More Decks by Daigo HIROOKA

Other Decks in Science

Transcript

  1. • 機械学習エンジニア @ブレインパッド • 関心 ◦ 動画、3Dビジョン ◦ 機械学習の運用 •

    その他 ◦ 最近GoProを買いました ◦ 白金鉱業.FM(@shirokane_fm) podcastで配信中! 2 自己紹介:廣岡大吾(@daigo_hirooka)
  2. オプティカルフローのデータセット • MPI Sintel Flow Dataset ◦ アニメーション動画から作られたデータセット • KITTI

    ◦ 車載カメラによるデータセット ◦ 教師ラベルは疎に付与されている • FlyingChairs, FlyingThings3D ◦ 自然画像の背景に別の物体を合成したデータセット 5 FlowNet: Learning Optical Flow with Convolutional Networks Object Scene Flow for Autonomous Vehicles A Naturalistic Open Source Movie for Optical Flow Evaluation
  3. オプティカルフローの推定 画像ペアを入力として似たピクセルを結びつけるタスク • 古典的アプローチ ◦ 差分が小さいピクセルを対応づけるように最適化 ◦ Lucas-Kanade法:パッチごとにフローを推定 ◦ Horn-Schunck法:近傍フローを滑らかにする正則化を導入

    ◦ OpenCVからも利用可能 • 深層学習によるアプローチ ◦ セグメンテーションに類似したピクセルごとの予測 ◦ 入力画像間の物体の対応をどう捉えるかがポイント ◦ 代表手法:FlowNet、FlowNet2、PWC-Net 6 FlowNet: Learning Optical Flow with Convolutional Networks
  4. 提案手法:RAFT RAFT:Recurrent All-Pairs Field Transforms • モデルの構成 ◦ Feature Extraction(特徴抽出)

    ◦ Computing Visual Similarity(特徴量の相関計算) ◦ Iterative Updates(反復更新) • 貢献 ◦ 精度改善:任意の回数のフロー更新が可能になり、既存手法より大きく誤差を改善 ◦ 汎化性能改善:学習時とは別のデータに対しても効果的に動作 ◦ 高効率性:多くの既存モデルより省パラメータかつ高速。 ▪ 参考:1088x436の画像を1080Ti GPUで10FPSで推論可能 11
  5. RAFTのフロー更新 GRUを用いたネットワークによって推定フローを更新する • 入力 ◦ Lookupした相関値 ◦ 推定フロー ◦ Context

    Encoderによる画像1の特徴量 ◦ 前ステップの潜在特徴量 • 出力 ◦ フローの更新差分 ◦ 新しい潜在特徴量 • 差分を足すことで推定フローを更新する 15
  6. 実験設定 • 評価指標:end-point-error ◦ 予測と正解フローの差分の L2ノルム • 対象データ ◦ FlyingChairs、FlyingThings3Dデータセットで事前学習

    ◦ リーダーボードが存在する MPI-Sintel、KITTIデータセットで評価 • フロー更新回数(RNNの構造上、学習時と予測時でフロー更新回数を変えることが可能) ◦ 学習時:12回 ◦ MPI-Sintelの予測時:32回 ◦ KITTIの予測時:24回 • その他オプティマイザやデータ拡張の設定などは論文参照 18 https://youtu.be/ZmiBI4tPk_o
  7. まとめ・感想 • まとめ ◦ オプティカルフローの推定過程を反復最適化として RNNによってモデル化 ◦ 任意の回数の反復更新が可能になりフロー推定精度向上 ◦ 入力画像ペアの相関(

    correlation volume)を保持し、反復計算中に使いまわすことで 計算量を削減 ◦ 学習時とは異なるデータセットに対しても良好に予測可能 • 感想 ◦ 直球SOTA論文がbest paperになっているのは最近だと珍しい気がする ◦ 反復最適化をRNNによってモデル化するのは他でも利用できそう ▪ 学習時と予測時で異なる反復回数を設定できるのも面白い ◦ 再現実装時にはglobal gradient clippingを適用しないと学習がうまく進まなかった ▪ (一応論文にも1行くらいで記述されている) 23 https://youtu.be/ZmiBI4tPk_o
  8. • オプティカルフロー推定の既存手法 ◦ [1504.06852] FlowNet: Learning Optical Flow with Convolutional

    Networks ◦ [1612.01925] FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks ◦ [1709.02371] PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume • RAFT ◦ 論文:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow ▪ 特に記載のない画像は本論文より引用(または自作) ◦ 公式実装:princeton-vl/RAFT ◦ 再現実装:daigo0927/tf-raft • オプティカルフローの基礎 ◦ Richard Szeliski. コンピュータビジョン アルゴリズムと応用 . 共立出版. 2013 24 References
  9. 25 References • データセット ◦ MPI Sintel:A Naturalistic Open Source

    Movie for Optical Flow Evaluation ◦ KITTI:Object Scene Flow for Autonomous Vehicles ◦ FlyingChairs:FlowNet: Learning Optical Flow with Convolutional Networks ◦ FlyingThings3D:A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation