Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Multi-view 3D Human Pose Estimationの最近の動向

lyakaap
July 30, 2021

Multi-view 3D Human Pose Estimationの最近の動向

多視点三次元姿勢推定の最近の論文をまとめました。
Learnable Triangulation of Human Pose (ICCV2019)
Cross View Fusion for 3D Human Pose Estimation (ICCV2019)
Epipolar Transformers (CVPR2020)
TesseTrack: End-to-End Learnable Multi-Person Articulated 3D Pose Tracking (CVPR2021)

lyakaap

July 30, 2021
Tweet

More Decks by lyakaap

Other Decks in Research

Transcript

  1. 4 ▪ 単一 or 複数の画像から三次元座標上での人物の関節点の 座標を推定するタスク ▪ 三次元人物姿勢推定には以下のような派生タスクがある ▪ 単一視点

    or 複数視点 ▪ 単一人物 or 複数人物(+トラッキング) ▪ 今回は複数視点 × 単一人物にフォーカスして論文を紹介 三次元人物姿勢推定とは
  2. ▪ Human3.6Mがデータセットとしては標準 ▪ 4台のカメラで計11人の被験者を撮影した計約360万フレームの 動画から成るデータセット ▪ 評価指標にはMPJPE(Mean Per Joint Position

    Error) がよく使われる ▪ 関節点の推定座標と正解座標の距離を全ての関節点およびデータ で平均することにより算出される評価指標 データセット・評価方法 5
  3. 1. Learnable Triangulation of Human Pose (ICCV2019) 2. Cross View

    Fusion for 3D Human Pose Estimation (ICCV2019) 3. Epipolar Transformers (CVPR2020) 4. TesseTrack: End-to-End Learnable Multi-Person Articulated 3D Pose Tracking (CVPR2021) 7 紹介する論文
  4. ▪ PSM(Pictorial Structure Model)の問題点を解消し、 iterativeに関節点の座標をrefine ▪ PSM:人体をグラフィカルモデルとして表現し、関節点の予測座 標の確信度やlimb*の構造的な制約を考慮して三次元上の関節点 座標の事後確率をモデリング ▪

    PSMの問題点:三次元空間を粗いグリッドに区切るため 量子化誤差が大きくなってしまう ▪ グリッド細かくするのは? → 事後確率最大化の計算量が爆発的に 増加するためできない ( O(N^6) ) RPSM(Recursive Pictorial Structure Model) * 関節点同士をつなぐエッジのこと 24
  5. ▪ MPII(二次元姿勢推定データセット)で学習済みのモデルを 使って、Human3.6Mにおける半教師付き学習の精度を検証 ▪ MPIIで学習済みのモデルをそのまま適用→MPJPE: 109mm ▪ 提案の擬似ラベル*を使って学習させた場合→MPJPE: 43mm ▪

    109mm→43mmと、疑似ラベルを使った学習により精度が大幅 に改善することを確認 結果|半教師付き学習 * 複数視点の姿勢推定を行い、異なる視点間で予測がコンスタントな場合のみ疑似ラベルとして採用 27
  6. ▪ 直線OL - X上にある点は ▪ 左のカメラではXもX_{1,2,3}も1つの点に投影される(X→X_L) ▪ 右のカメラではXとX_{1,2,3}は別の点に投影される(X→X_R) ▪ 左のカメラから右のカメラは

    e_Lに射影される(e_Rはその逆) ▪ 右のカメラの直線X_R - e_Rは エピポーラ線と呼ばれる エピポーラ線 http://en.wikipedia.org/wiki/Epipolar_geometry 30
  7. ▪ 本論文ではエピポーラ制約を利用した三次元姿勢推定 モデルであるEpipolar Transformerを提案 ▪ 2つのコンポーネントで構成 ▪ Epipolar sampler ▪

    Feature fusion module ▪ 処理の流れとしては、Epipolar samplerで エピポーラ線上の特徴をサンプリング → 特徴をfusion Epipolar Transformer 32
  8. ▪ Source viewの特徴マップからエピポーラ線上にある特徴 を等間隔にK個サンプリング ▪ Reference viewの特徴マップの全ての特徴に対して同様 の処理を行う ▪ (H

    x W)個の特徴それぞれにK個の特徴が割り当てられる ▪ エピポーラ線と特徴マップが重ならない場合はスキップ Epipolar sampler 33
  9. ▪ Epipolar transformerはエピポーラ線上の特徴のみを サンプリングしているため計算効率が良い ▪ 逆にエピポーラ線上以外の特徴は見ないため 正確なカメラキャリブレーションが必要 ▪ Epipolar transformerのfeature

    fusion moduleのパラメータ 数は特徴マップの解像度によらず一定(Cross view fusionの パラメータ数は入力の特徴マップの解像度に比例して増大) Cross View Fusionとの比較 35
  10. ▪ 処理の流れ ▪ HRNetを用いて視点・フレームごとに特徴抽出 ▪ → フレームごとに抽出された全ての視点の特徴をvolumetric triangulationのような処理によって3D化 ▪ →

    3D CNNで人物中心のヒートマップを出力した後にNMSを適用 して最終的な検出結果を得る ▪ CenterNetの3D版に近い ▪ size/offsetは予測させていない Person Detection 41
  11. ▪ 検出された人を中心として4Dの固定サイズのspatio-temporal volume(tesseract)を切り抜く ▪ tesseractのサイズ:R×T×X×Y×Z ▪ R:チャンネル数 ▪ T:時間方向のウィンドウサイズ ▪

    X, Y, Z:検出された人を中心とした直方体のサイズ ▪ tesseractに対して4D CNNを適用し、空間方向と時間方向の 情報が同時に加味されたdescriptor(4Dの人物表現)を得る ▪ 得られたdescriptorは後段のトラッキング・姿勢推定に用いられる Spatio-Temporal Descriptors 42
  12. ▪ GNN*によってコンテキスト が加味された特徴を獲得 ▪ 2つのタイプのエッジを考慮 ▪ 同フレームのインスタンス 間を張るエッジ ▪ self-edge

    ▪ 異なるフレーム間のインス タンス同士を張るエッジ ▪ cross-edge Attention Aggregation *GNN:Graph Neural Networks 44
  13. • 実はLearnable Triangulation of Human Poseからあまり進歩していない • とはいえEpipolar Transformersは精度面 だけでなくパラメータ数や積和の回数も

    優れている ◦ 実際の計算時間はどうなんだろう • TesseTrackは単一人物の場合は オーバーキル感がある Human 3.6M Leader Board https://paperswithcode.com/sota/3d-human-pose-estimation-on-human36m 50
  14. ▪ Epipolar transformers / cross-view fusionは結局複数 viewの特徴マップを統合する際はend-to-endになってい ないので、それらをLearnable Triangulationと組み合わ せたらどうなる?

    ▪ 外部データの使用の有無だったり、backboneの違いや data augmentationの有無、Human3.6Mの評価プロトコ ルにバリエーションがあったりと、色々と混沌としてい る 雑感 51
  15. 52 ▪ In the Wild Human Pose Estimation Using Explicit

    2D Features and Intermediate 3D Representations ▪ https://engineer.dena.com/posts/2019.12/cv-papers-19-3d-human-pos e-estimation/ ▪ https://zellij.hatenablog.com/entry/20120824/p1 ▪ https://paperswithcode.com/sota/3d-human-pose-estimation-on-human 36m 参考文献