Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PromptDA (Depth Anything) を用いた深度推定や点群生成について

PromptDA (Depth Anything) を用いた深度推定や点群生成について

8月13日に行われたオンラインの勉強会 AIMTG にて、 Prompt Depth Anything (DA)について紹介しました。

動画
https://youtu.be/dkhkAVadbII?t=3652

Avatar for Kenta Itakura

Kenta Itakura

July 30, 2025
Tweet

More Decks by Kenta Itakura

Other Decks in Technology

Transcript

  1. Depth Anythingについて バックパック型スキャナー iPhone12 LiDAR  Depth Anything では、特殊なセンサーを用いずに、画像から物体の深度(距離)を推定可能 

    視覚情報(画像)のみを利用して高精度な深度マップを生成できる [動画] Yang, L et al. (2024). Depth anything: Unleashing the power of large-scale unlabeled data. CVPR.
  2. Depth Anythingの特徴 バックパック型スキャナー iPhone12 LiDAR  Depth Anything は、RGB画像を入力とし、視覚的な特徴量に基づいてピクセルごとの深度 (距離)を予測

     以下の出力された深度マップでは、距離が近いほど赤く、遠いほど青く表示される。 [動画]  これにより、LiDARやRGB-Dカメラを用いずに、画像1枚から深度を推定できる。
  3. Depth Anythingの限界とPromptDAの必要性 バックパック型スキャナー  Depth Anythingで出力されるのは相対的な深度であり、実際の距離(例:1.5m)は明らかでない  PromptDA (DepthAnything) について

    • iPhone LiDARなどで取得した低解像度な深度を「プロンプト」として入力することで 実スケールの深度マップが得られる • 画像のRGB情報と深度が合わせて取得されるため、点群や3D再構築に利用可能 画像出典: PromptDAのプロジェクトページ https://promptda.github.io/
  4. 補足: iPhoneに搭載されているLiDARセンサー バックパック型スキャナー  2020年発売のiPad Pro、iPhone 12 Proシリーズ以降にLiDARスキャナーが搭載されている  LiDAR(Light

    Detection and Ranging)はレーザー光で物体までの距離を計測する技術で、 AR体験やカメラのオートフォーカス、3Dスキャンなどに利用される  iPadやiPhoneのアプリケーションを通じて点群データの取得や3Dモデル化が可能 LiDAR
  5. PromptDAの構成 バックパック型スキャナー  PromptDAは以下の3要素から構成される: 1. RGB画像: 通常のカメラで撮影された視覚情報 2. 初期深度マップ(prompt): Stray

    Scanner などによって推定された粗い深度情報 3. 深度推論モデル: Depth Anything を拡張したモデルで、RGBとpromptの両方を入力として 高精度な深度を出力  動画: Stray Scannerでの撮影の様子  Stray Scanner: LiDARを利用して得られた 深度画像(動画)を録画できるアプリ
  6. 点群生成の仕組み バックパック型スキャナー 得られた深度情報を踏まえると、 画像座標上の点 𝑢, 𝑣 に対して、3次元座標上の点 𝑋𝑎 , 𝑌𝑎

    , 𝑍𝑎 は、 となる。これが3次元座標となり、 これと各点のRGB情報をもとに計算を繰り返すことで、点群が作られる
  7. まとめ バックパック型スキャナー  Depth AnythingはRGB画像のみから相対的な深度を推定できる  PromptDA (Depth Anything) は粗い深度情報をプロンプトとして入力し、実スケールかつ高精

    度な深度マップを生成し、点群化を可能にする  PromptDAを適用することで階段や奥行き構造をうまく再現することができた