Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
PromptDA (Depth Anything) を用いた深度推定や点群生成について
Search
Kenta Itakura
July 30, 2025
Technology
0
9
PromptDA (Depth Anything) を用いた深度推定や点群生成について
Kenta Itakura
July 30, 2025
Tweet
Share
More Decks by Kenta Itakura
See All by Kenta Itakura
3次元点群からメッシュモデルを作成: ボールピボット法について
kentaitakura
0
13
3D Gaussian Splatting (3DGS)のモデルを Cesiumの地球の上で可視化する方法
kentaitakura
0
260
主成分分析やRANSACを利用した点群からの円柱フィッティングの方法
kentaitakura
0
140
ImVisionLabs株式会社: 産業技術総合研究所様との取り組み
kentaitakura
0
150
ImVisionLabs株式会社:ゼンリンデータコム様との取り組み
kentaitakura
0
63
ImVisionLabs株式会社: 中日本航空様との取り組み
kentaitakura
0
90
全方位カメラやPostshotを利用した3D Gaussian Splattingの実行方法の例
kentaitakura
0
750
ImVisionLabs株式会社: 東京電力HD様との取り組み
kentaitakura
0
96
3次元点群の地表面抽出の方法であるCSF (Cloth Simulation Filter) について
kentaitakura
2
1k
Other Decks in Technology
See All in Technology
サイバー攻撃のシミュレーション:攻撃者の視点からみる防御のむずかしさ!AWSで試してみよう / 20250423 Kumiko Hemmi
shift_evolve
PRO
1
110
2025-07-31: GitHub Copilot Agent mode at Vibe Coding Cafe (15min)
chomado
0
110
完璧を目指さない小さく始める信頼性向上
kakehashi
PRO
0
120
激動の時代、新卒エンジニアはAIツールにどう向き合うか。 [LayerX Bet AI Day Countdown LT Day1 ツールの選択]
tak848
0
610
AI人生苦節10年で会得したAIがやること_人間がやること.pdf
shibuiwilliam
1
210
P2P ではじめる WebRTC のつまづきどころ
tnoho
1
270
2025/07/22_家族アルバム みてねのCRE における生成AI活用事例
masartz
2
150
OpenTelemetry の Log を使いこなそう
biwashi
5
1.1k
【CEDEC2025】LLMを活用したゲーム開発支援と、生成AIの利活用を進める組織的な取り組み
cygames
PRO
1
1.8k
[MIRU2025]Preference Optimization for Multimodal Large Language Models for Image Captioning Tasks
keio_smilab
PRO
0
120
[TechNight #91] Oracle Database 最新パフォーマンス分析手法
oracle4engineer
PRO
3
180
Jitera Company Deck / JP
jitera
0
270
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.9k
A Modern Web Designer's Workflow
chriscoyier
695
190k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.5k
Docker and Python
trallard
45
3.5k
How to Think Like a Performance Engineer
csswizardry
25
1.8k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Large-scale JavaScript Application Architecture
addyosmani
512
110k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
BBQ
matthewcrist
89
9.8k
Rails Girls Zürich Keynote
gr2m
95
14k
Transcript
PromptDA (Depth Anything) を用いた 深度推定や点群生成について ImVisionLabs株式会社
Depth Anythingについて バックパック型スキャナー iPhone12 LiDAR Depth Anything では、点群センサーを用いずに、画像から物体の深度(距離)を推定可能
LiDARやRGBDカメラなどの他の深度推定手法に比べて、視覚情報のみを利用して 高精度な深度マップを生成できる点が特徴 [動画] Yang, L et al. (2024). Depth anything: Unleashing the power of large-scale unlabeled data. CVPR.
Depth Anythingの特徴 バックパック型スキャナー iPhone12 LiDAR Depth Anything は、RGB画像を入力とし、視覚的な特徴量に基づいてピクセルごとの深度 (距離)を予測
以下の出力された深度マップでは、距離が近いほど赤く、遠いほど青く表示される。 [動画] これにより、LiDARやRGB-Dカメラを用いずに、画像1枚から深度を推定できる。
Depth Anythingを用いた動画生成 Depth Anything動画に適用することで、動画の深度情報を抽出することも可能である。
Depth Anythingの限界とPromptDAの必要性 バックパック型スキャナー Depth Anythingで出力されるのは相対的な深度であり、実際の距離(例:1.5m)は明らかでない PromptDA (DepthAnything) について
• iPhone LiDARなどで取得した低解像度な深度を「プロンプト」として入力することで実スケー ルの深度マップが得られる • 画像のRGB情報と深度が合わせて取得されるため、点群や3D再構築に利用可能 画像出典: PromptDAのプロジェクトページ https://promptda.github.io/
PromptDAの構成 バックパック型スキャナー PromptDAは以下の3要素から構成される: 1. RGB画像: 通常のカメラで撮影された視覚情報 2. 初期深度マップ(prompt): Stray
Scanner などによって推定された粗い深度情報 3. 深度推論モデル: Depth Anything を拡張したモデルで、RGBとpromptの両方を入力として 高精度な深度を出力 動画: Stray Scannerでの撮影の様子 Stray Scanner: LiDARを利用して得られた 深度画像(動画)を録画できるアプリ
点群生成の原理 バックパック型スキャナー 3次元の点群を作るためには、実世界のx,y,z座標を得る必要がある。 そのために、PromptDAではカメラの内部パラメーターを利用して、画像上の点(画像 座標)から3次元座標(カメラ座標)を復元する。 カメラの内部パラメーターKは以下の式で表される 𝑓𝑥 , 𝑓𝑦 はそれぞれx,y軸方向の焦点距離(単位:ピクセル)
𝑎𝑥 , 𝑎𝑦 はカメラ座標からみた画像中心の位置
点群生成の原理 バックパック型スキャナー まずカメラ座標と画像座標の関係性を考える。 カメラ座標上において、右図のように複数点を考える。 また、オレンジ色の部分は画像平面である。 画像平面にカメラ座標上の点を集めることを考える。
本スライドの図は以下のページを参考に作成しました: https://mem-archive.com/2018/02/21/post-157/
点群生成の原理 バックパック型スキャナー 画像平面は、カメラ座標の中心から𝑧𝑎 方向に焦点距離 𝑓だけ離れた位置にあるため、カメラ 座標の 中心から見て、 倍だけすると図のように各点は画像座標上にある状況となる 𝑓/それぞれの点の𝑧𝑎
方向の距離 本スライドの図は以下のページを参考に作成しました: https://mem-archive.com/2018/02/21/post-157/
点群生成の原理 バックパック型スキャナー 最後に、画像座標とカメラ座標での原点のずれ(オフセット)を解消する。 オフセットは 𝑎𝑥 , 𝑎𝑦 であるため、図のようになる。
本スライドの図は以下のページを参考に作成しました: https://mem-archive.com/2018/02/21/post-157/
点群生成の原理 バックパック型スキャナー このそれぞれの点が、画像座標上の点 𝑢, 𝑣 と対応する。 すなわち、 が成り立つ。 また、以下のようにすることで、カメラ座標を計算でき、点群に変換することができる。
点群生成の原理 バックパック型スキャナー 得られた深度情報を踏まえると、 画像座標上の点 𝑢, 𝑣 に対して、3次元座標上の点 𝑋𝑎 , 𝑌𝑎
, 𝑍𝑎 は、 となる。これが3次元座標となり、 これと各点のRGB情報をもとに計算を繰り返すことで、点群が作られる
PromptDAによる深度マップの作成例 バックパック型スキャナー 左が入力の画像であり、同時に粗い深度情報も取得している PromptDAにより、右の高解像度な深度マップを生成した 赤枠の本物のしっぽとしっぽの影も区別されていることがわかる
PromptDAを用いた点群生成例 バックパック型スキャナー 階段本体はノイズの影響を受けることなく、一直線に安定して描画されている。 のぼり口などのマークも、点の集まり(点群)として正確に反映されている。
PromptDAを用いた点群生成例 バックパック型スキャナー PromptDAを用いて取得した深度情報から、猫の動きを点群として再構成した。 猫は左下方向に移動しており、フレームからやや見切れているが、全体の動きや形 状、動いている様子が点群として記録されている
PromptDAを用いた点群生成例 バックパック型スキャナー PromptDAにより取得した深度画像を点群に変換した時の結果 斜めから観察すると、奥行きや段差の構造が再現されていることがわかる
PromptDAの有無による点群生成精度の比較 バックパック型スキャナー iPhoneにより取得した深度画像をベースに点群にした場合(左)とPromptDAにより高 解像度にした結果(右)を示す PromptDAにより深度情報が正確に得られるため、コーンの奥行きやポールとの繋が りが正しく点群として表現されている
PromptDAの有無による点群生成精度の比較 バックパック型スキャナー 画像を斜めから見ると、PromptDAを適用した場合には階段の段差構造が明確に再構 成されている。 PromptDAを利用しない場合は段差が連続して滑らかにつながり、階段構造が曖昧