Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PromptDA (Depth Anything) を用いた深度推定や点群生成について

PromptDA (Depth Anything) を用いた深度推定や点群生成について

Avatar for Kenta Itakura

Kenta Itakura

July 30, 2025
Tweet

More Decks by Kenta Itakura

Other Decks in Technology

Transcript

  1. Depth Anythingについて バックパック型スキャナー iPhone12 LiDAR  Depth Anything では、点群センサーを用いずに、画像から物体の深度(距離)を推定可能 

    LiDARやRGBDカメラなどの他の深度推定手法に比べて、視覚情報のみを利用して 高精度な深度マップを生成できる点が特徴 [動画] Yang, L et al. (2024). Depth anything: Unleashing the power of large-scale unlabeled data. CVPR.
  2. Depth Anythingの特徴 バックパック型スキャナー iPhone12 LiDAR  Depth Anything は、RGB画像を入力とし、視覚的な特徴量に基づいてピクセルごとの深度 (距離)を予測

     以下の出力された深度マップでは、距離が近いほど赤く、遠いほど青く表示される。 [動画]  これにより、LiDARやRGB-Dカメラを用いずに、画像1枚から深度を推定できる。
  3. Depth Anythingの限界とPromptDAの必要性 バックパック型スキャナー  Depth Anythingで出力されるのは相対的な深度であり、実際の距離(例:1.5m)は明らかでない  PromptDA (DepthAnything) について

    • iPhone LiDARなどで取得した低解像度な深度を「プロンプト」として入力することで実スケー ルの深度マップが得られる • 画像のRGB情報と深度が合わせて取得されるため、点群や3D再構築に利用可能 画像出典: PromptDAのプロジェクトページ https://promptda.github.io/
  4. PromptDAの構成 バックパック型スキャナー  PromptDAは以下の3要素から構成される: 1. RGB画像: 通常のカメラで撮影された視覚情報 2. 初期深度マップ(prompt): Stray

    Scanner などによって推定された粗い深度情報 3. 深度推論モデル: Depth Anything を拡張したモデルで、RGBとpromptの両方を入力として 高精度な深度を出力  動画: Stray Scannerでの撮影の様子  Stray Scanner: LiDARを利用して得られた 深度画像(動画)を録画できるアプリ
  5. 点群生成の原理 バックパック型スキャナー 得られた深度情報を踏まえると、 画像座標上の点 𝑢, 𝑣 に対して、3次元座標上の点 𝑋𝑎 , 𝑌𝑎

    , 𝑍𝑎 は、 となる。これが3次元座標となり、 これと各点のRGB情報をもとに計算を繰り返すことで、点群が作られる