NIPS2017reading_3Dreconstruction

̏࣍ݩ෮ݩʹؔͯ͠ Learning a Multi-View Stereo Machine NIPS2017࿦จಡΈձˏΫοΫύου 1 ಛʹදه͕ͳ͍ݶΓɺҎԼͷࢿྉ͔ΒҾ༻ https://arxiv.org/pdf/1708.05375.pdf

Learning a Multi-View Stereo Machine ▸ චऀ • Abhishek Kar,
Christian Häne, Jitendra Malik ʢUC Berkeley) ▸ ֓ཁ • Multi View StereoʢMVSʣʹΑΔີͳ3࣍ݩ෮ݩΛDeep LearningͰEnd2Endʹֶश • MVSΛ”ֶशͰ͖Δ”ͷͰ͸ແ͍͔ͱ͍͏ٙ໰ʹ౴͑Δ 2

എܠ ▸ Multi View Stereoͱ͸ 1. ಛ௃఺நग़ 2. Ϛονϯά 3.
̏࣍ݩ෮ݩ 4. Τϥʔͷআڈ 3

̏࣍ݩ෮ݩ 4. Τϥʔͷআڈ ==> DeepԿ๭ͰશͯղܾͰ͖ͦ͏ 4

എܠ ▸ Multi View Stereoͱ͸ 1. ಛ௃఺நग़ɹ← CNNͰ͍͚Δ 2. Ϛονϯά
3. ̏࣍ݩ෮ݩ 4. Τϥʔͷআڈ 5

എܠ ▸ Multi View Stereoͱ͸ 1. ಛ௃఺நग़ 2. Ϛονϯάɹ← CNNͱRNNͰ͍͚Δ
3. ̏࣍ݩ෮ݩ 4. Τϥʔͷআڈ 6

̏࣍ݩ෮ݩɹ← DeconvͰ͍͚Δ 4. Τϥʔͷআڈ 7

̏࣍ݩ෮ݩ 4. Τϥʔͷআڈɹ← Encoder-DecoderͰ͍͚Δ 8

DeepԿ๭Ͱࡾ࣍ݩ෮ݩ ▸ 3DR2N2(ECCV2016) • ෳ਺ը૾ΛΤϯίʔυ͠ɺLSTMͰϚονϯά 9 http://3d-r2n2.stanford.edu

DeepԿ๭Ͱࡾ࣍ݩ෮ݩ ▸ 3D Shape Reconstruction by Modeling 2.5D Sketch (NIPS2017)
• ϦΞϧͷը૾͔Β2.5DͷεέονΛى͜͠ɺ2.5DεέονΛ΋ͱʹ 3DshapeਪఆΛEnd2EndֶशͰ͢Δ 10 https://arxiv.org/pdf/1711.03129.pdf

࿩͢಺༰ ▸ શମ૾ ▸ ख๏ ▸ ࣮ݧ ▸ ·ͱΊ 11

શମ૾ 12 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

શମ૾ 13 Learnt Stereo Machines

ख๏ ▸ Image Encoder • Encoder-DecoderܕʢU-netʣͷ૚ઃܭ • Ϛονϯάʹ༻͍Δ̎Dͷಛ௃Ϛοϓ࡞੒ • ࣍ݩ2Dnಛ௃Ϛο
14

ख๏ ▸ Unplojection ▸ 2࣍ݩͷಛ௃Ϛοϓ͸3࣍ݩͷຊདྷ͋Δ΂͖ಛ௃Ϛοϓ͔ΒࣹӨ ▸ 3࣍ݩάϦουʹٯࣹӨ 15 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

ख๏ ▸ Unplojection ▸ 2࣍ݩͷಛ௃Ϛοϓ͸3࣍ݩͷຊདྷ͋Δ΂͖ಛ௃Ϛοϓ͔ΒࣹӨ ▸ 3࣍ݩάϦουʹٯࣹӨ 16 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

ख๏ ▸ Unplohection ▸ 2࣍ݩͷಛ௃Ϛοϓ͸3࣍ݩͷຊདྷ͋Δ΂͖ಛ௃Ϛοϓ͔ΒࣹӨ ▸ 3࣍ݩάϦουʹٯࣹӨ 17 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

ख๏ ▸ Unplohection ▸ 2࣍ݩͷಛ௃Ϛοϓ͸3࣍ݩͷຊདྷ͋Δ΂͖ಛ௃Ϛοϓ͔ΒࣹӨ ▸ 3࣍ݩάϦουʹٯࣹӨ 18 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

ख๏ ▸ Recurrent Grid Fusion • 3࣍ݩͷಛ௃ϚοϓͷϚονϯάΛGated Recurrent Unit(GRU)Ͱ •
GRUʹ͍࣋ͬͯͨ͘Ίɺ3D convolutionΛ࢖༻ • ͜ͷաఔ͕MVSͷܭࢉϚονϯάΛ୲౰ • ֶशͷࡍ͸ը૾ͷೖྗॱΛϥϯμϜʹೖΕସ͑Δ 19

ख๏ ▸ 3D Grid Reasoning • GRUͰ̏࣍ݩάϦουʹͨ͠ΒϊΠζ͕ଟ͔ͬͨɻ • 3U-netͰEncode Decode͢ΔͱFilteringͰ͖Δ
20

ख๏ ▸ Differentiable Projection • Depthͷ෮ݩʹ͸L1 loss(high frequency informationͷͨΊ) •
Voxelͷ෮ݩʹ͸voxel͝ͱͷcross entropy loss 21

࣮ݧ ▸ σʔληοτ • ShapeNetσʔλΛར༻ • ̏࣍ݩCADϞσϧͷެ։σʔληοτ 22 https://shapenet.cs.stanford.edu/shrec17/

࣮ݧ • ೖྗը૾ ▸ ShapeNetͷ3DϞσϧΛϨϯμϦϯάͯ͠224x224x3 ▸ ̍ࢹ఺͋ͨΓ̐ຕ ▸ Χϝϥϙʔζ •
Ξ΢τϓοτ ▸ Depth: 224x224x3 ▸ Voxel: 32x32x32 23

࣮ݧ ▸ ݁Ռ 24 3DR2N2ͱൺ΂ɺࡉ͔͍෮ݩ͕Մೳ

࣮ݧ ▸ ݁Ռ 25 3DR2N2ͱൺ΂ɺগͳ͍ຕ਺Ͱ෮ݩ͕Մೳ ຕ਺૿͑Δͱੑೳ্͕͕Δ

࣮ݧ ▸ ݁Ռ 26 stereo matchingͰ͸෮ݩ͠ͳ͍ ૭΋෮ݩՄೳ

࣮ݧ ▸ ݁Ռ 27 stereo matchingʹൺ΂  গͳ͍ຕ਺Ͱ΋෮ݩ͕Մೳ චऀᐌ͘ CNNͷίϯςΫετΛݟΔྗ͸  ैདྷͷstereo
matchingΛ͙྇ DepthMapͷਪఆ݁ՌΛෳ਺૊Έ߹Θͤͯ̏࣍ݩ෮ݩͨ͠

·ͱΊ ▸ Learnt Stereo MachinesΛఏҊ ▸ ෳ਺ࢹ఺͔Βͷೖྗը૾Λݩʹɺ  DepthMapͱVoxelͷਪఆ͕Մೳͱͳͬͨ ▸ ՝୊
• ग़ྗVoxel͕32x32x32ͱখ͍͞ 28

NIPS2017reading_3Dreconstruction

NIPS2017reading_3Dreconstruction

望月紅葉さんと幸せな家庭を築きたい

More Decks by 望月紅葉さんと幸せな家庭を築きたい

Other Decks in Research

Featured

Transcript

̏࣍ݩ෮ݩʹؔͯ͠ Learning a Multi-View Stereo Machine NIPS2017࿦จಡΈձˏΫοΫύου 1 ಛʹදه͕ͳ͍ݶΓɺҎԼͷࢿྉ͔ΒҾ༻ https://arxiv.org/pdf/1708.05375.pdf

Learning a Multi-View Stereo Machine ▸ චऀ • Abhishek Kar,

എܠ ▸ Multi View Stereoͱ͸ 1. ಛ௃఺நग़ 2. Ϛονϯά 3.

എܠ ▸ Multi View Stereoͱ͸ 1. ಛ௃఺நग़ 2. Ϛονϯά 3.

എܠ ▸ Multi View Stereoͱ͸ 1. ಛ௃఺நग़ɹ← CNNͰ͍͚Δ 2. Ϛονϯά

എܠ ▸ Multi View Stereoͱ͸ 1. ಛ௃఺நग़ 2. Ϛονϯάɹ← CNNͱRNNͰ͍͚Δ

എܠ ▸ Multi View Stereoͱ͸ 1. ಛ௃఺நग़ 2. Ϛονϯά 3.

എܠ ▸ Multi View Stereoͱ͸ 1. ಛ௃఺நग़ 2. Ϛονϯά 3.

DeepԿ๭Ͱࡾ࣍ݩ෮ݩ ▸ 3DR2N2(ECCV2016) • ෳ਺ը૾ΛΤϯίʔυ͠ɺLSTMͰϚονϯά 9 http://3d-r2n2.stanford.edu

DeepԿ๭Ͱࡾ࣍ݩ෮ݩ ▸ 3D Shape Reconstruction by Modeling 2.5D Sketch (NIPS2017)

࿩͢಺༰ ▸ શମ૾ ▸ ख๏ ▸ ࣮ݧ ▸ ·ͱΊ 11

શମ૾ 12 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

શମ૾ 13 Learnt Stereo Machines

ख๏ ▸ Image Encoder • Encoder-DecoderܕʢU-netʣͷ૚ઃܭ • Ϛονϯάʹ༻͍Δ̎Dͷಛ௃Ϛοϓ࡞੒ • ࣍ݩ2Dnಛ௃Ϛο

ख๏ ▸ Unplojection ▸ 2࣍ݩͷಛ௃Ϛοϓ͸3࣍ݩͷຊདྷ͋Δ΂͖ಛ௃Ϛοϓ͔ΒࣹӨ ▸ 3࣍ݩάϦουʹٯࣹӨ 15 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

ख๏ ▸ Unplojection ▸ 2࣍ݩͷಛ௃Ϛοϓ͸3࣍ݩͷຊདྷ͋Δ΂͖ಛ௃Ϛοϓ͔ΒࣹӨ ▸ 3࣍ݩάϦουʹٯࣹӨ 16 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

ख๏ ▸ Unplohection ▸ 2࣍ݩͷಛ௃Ϛοϓ͸3࣍ݩͷຊདྷ͋Δ΂͖ಛ௃Ϛοϓ͔ΒࣹӨ ▸ 3࣍ݩάϦουʹٯࣹӨ 17 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

ख๏ ▸ Unplohection ▸ 2࣍ݩͷಛ௃Ϛοϓ͸3࣍ݩͷຊདྷ͋Δ΂͖ಛ௃Ϛοϓ͔ΒࣹӨ ▸ 3࣍ݩάϦουʹٯࣹӨ 18 http://bair.berkeley.edu/blog/2017/09/05/uniﬁed-3d/

ख๏ ▸ Recurrent Grid Fusion • 3࣍ݩͷಛ௃ϚοϓͷϚονϯάΛGated Recurrent Unit(GRU)Ͱ •

ख๏ ▸ 3D Grid Reasoning • GRUͰ̏࣍ݩάϦουʹͨ͠ΒϊΠζ͕ଟ͔ͬͨɻ • 3U-netͰEncode Decode͢ΔͱFilteringͰ͖Δ

ख๏ ▸ Differentiable Projection • Depthͷ෮ݩʹ͸L1 loss(high frequency informationͷͨΊ) •

࣮ݧ ▸ σʔληοτ • ShapeNetσʔλΛར༻ • ̏࣍ݩCADϞσϧͷެ։σʔληοτ 22 https://shapenet.cs.stanford.edu/shrec17/

࣮ݧ • ೖྗը૾ ▸ ShapeNetͷ3DϞσϧΛϨϯμϦϯάͯ͠224x224x3 ▸ ̍ࢹ఺͋ͨΓ̐ຕ ▸ Χϝϥϙʔζ •

࣮ݧ ▸ ݁Ռ 24 3DR2N2ͱൺ΂ɺࡉ͔͍෮ݩ͕Մೳ

࣮ݧ ▸ ݁Ռ 25 3DR2N2ͱൺ΂ɺগͳ͍ຕ਺Ͱ෮ݩ͕Մೳ ຕ਺૿͑Δͱੑೳ্͕͕Δ

࣮ݧ ▸ ݁Ռ 26 stereo matchingͰ͸෮ݩ͠ͳ͍ ૭΋෮ݩՄೳ

࣮ݧ ▸ ݁Ռ 27 stereo matchingʹൺ΂  গͳ͍ຕ਺Ͱ΋෮ݩ͕Մೳ චऀᐌ͘ CNNͷίϯςΫετΛݟΔྗ͸  ैདྷͷstereo

·ͱΊ ▸ Learnt Stereo MachinesΛఏҊ ▸ ෳ਺ࢹ఺͔Βͷೖྗը૾Λݩʹɺ  DepthMapͱVoxelͷਪఆ͕Մೳͱͳͬͨ ▸ ՝୊