티스토리 뷰

728x90

 

multiview stere는 임의의 움직임에서 카메라가 획득한 이미지에서 scene depth를 재구성하는 것을 목표로 합니다.

 

최근 방법은 딥러닝을 통해 이 문제를 해결하며, semantic한 단서를 활용하여 textureless region과 reflective region 같은 문제를 처리합니다.

 

DPSNET: END-TO-END DEEP PLANE SWEEP STEREO의 논문은 DPSNet이란 conv net을 제시합니다. 해당 컨볼루션 네트워크는 dense depth map의 reconstruction을 위한 기존 기하학 기반 접근 방식의 사례들에서 영감을 받아 설계되었습니다.

 

이전의 많은 deep learning의 방법에서는 image paris에서 depth 및 optical flow를 직접 추정하였는데, 여기선 plane sweep algorithm을 사용하여 deep features에서의 cost volume을 구축하고, context aware cost aggregation 및 cost volume에서 dense depth map을 회귀했습니다.

 

cost volume은 네트워크의 end-to-end 학습을 허용하는 conventional(미분 가능한, 연속적인) warping process를 사용하여 구성됩니다.

 

deep learning framework에서 기존 multiview stereo 개념을 효과적으로 통합함으로써 DPSNet은 다양한 dataset에서 좋은 reconstruction 결과를 달성합니다.

 

CNN이 베이스인 depth estimation은 single images을 통해 stereo matching과 depth를 통해 연구되어 왔습니다. 해당 분야의 최근 연구를 짧게 review해보려고 합니다.

 

Stereo matching

stereo matching의 경우 stereo rig에 의해 캡처되어 rectify된 이미지들의 쌍이 input으로 depth를 추정합니다. 많은 네트워크는 이 문제들에 인해 연구되었습니다. 두 이미지 패치의 유사성을 기반으로 cost를 matching하여 연산하는 것입니다. 추정된 초기의 depth는 traditional cost 집합과 후처리 된 refinement에 의해 정제됩니다.

 

그 다음으론 Mayer가 conv와 deconv layer를 쌓아 cost를 matching하고 추정된 값과 GT 사이의 거리가 최소화되는 네트워크를 학습시켰습니다.

 

Kendal은 deep feature을 표현에서 cost volume을 구축하는데  geometric knowledge를 활용했습니다. 또한, 3D volume의 contextual한 정보를 통해 학습할 수 있었고, end-to-end 방식으로 disparity를 회귀했습니다.

 

Chang & Chen은 image feature에서 golobal contextual 정보를 통합하기 위해 pyramid pooling을 사용했습니다. 또한, contextual 정보를 지지하는 영역을 넓히기 위해 3D CNN hourglass를 쌓았습니다.

 

Depth from single images

stereo matching 접근과 유사하게 single-image 방식은 CNN feature를 추출해서 scene depth를 추론하고, depth accuracy를 늘리기 위해 개선하며 수행합니다.

 

방법의 첫 번째는 Eigen으로 depth를 추론하려고 활용된 CNN features를 증명합니다.

 

그 후, Liu는 superpixel-based conditional random filed(CRF)에서 CNN을 합쳐서 single images에서의 depth estimation의 성능을 올렸습니다.

 

Wang은 single-view depth와 camera pose estimation을 위한 supervision으로 view synthesis task를 end-to-end learning pipeline에 활용하였습니다.

 

이 시스템은 depth network와 pose estimation network로 구성되어 있고, 측정된 depth를 사용해서 views 근처에서 image를 warping하는 것으로부터 계산된 loss를 가진 sequential한 이미지들을 학습시킵니다.

 

View synthesis는 stereo image 쌍들 사이에 warping 하는 supervision을 유사하게 사용합니다.

 

대조적으로 single-image는 supervision을 위해 view synthesis의 구성 요소로 warping을 사용하는데 반면, DPSNet의 경우는 여러 depth plane에 대한 warp를 계산하여 train과 test 시간 모두에 대한 plane sweep cost volume을 생성합니다.

 

 

Multi-view stereo

multi-view stereo에서는 임의의 시점에서 획득한 여러 input image에서 depth를 추론합니다. 이 문제를 해결하기 위해 일부 방법은 구조화되지 않은 이미지 간의 카메라 움직임을 복구합니다.

 

Ummenhofer은 depth와 motion을 추정 및 refinement를 위해 encoder-decoder network로 구성된 DeMoN 시스템을 만듭니다.

 

이 추정을 번갈아가며 네트워크는 single image 추론에 의존하기 보다 depth estimation에 두 이미지를 모두 사용하게 됩니다.

 

Li는 unsupervised 방법으로 monocular visual odometry를 수행합니다. train 단계에서 외부 매개변수가 있는 stereo image를 사용하면 metric scale로 3D depth를 추정할 수 있습니다.

 

광학 흐름 추정과 깊이/움직임 추정을 번갈아 가며 네트워크는 단일 이미지 추론에 의존하기보다 깊이 추정에 두 이미지를 모두 사용해야 합니다. Li et al. (2018) 감독되지 않은 방식으로 단안 시각적 주행 거리 측정을 수행합니다. 훈련 단계에서 외부 매개변수가 있는 스테레오 이미지를 사용하면 메트릭 스케일로 3D 깊이 추정을 추정할 수 있습니다.

 

많은 수의 view를 대조적으로 다룰 수 있는 네트워크 중에서 카메라 파라미터는 기존의 기하학적 방식으로 추정할 수 있다는 것을 알고 있다고 가정합니다.

 

Ji는 end-to-end learning framework를 소개합니다. 암시적으로 viewpoint에 종속적인 voxel 표현 방식으로 이미지 및 카메라 파라미터를 인코딩하는 방식입니다.

 

voxel representation은 GPU 메모리의 제한 때문에 실제로 처리할 수 있는 scene resolution을 제한합니다.

 

Im은 추론된 scene geometry를 정제하기 위해 optical flow와 depth 사이의 기하학적 관계를 공식화합니다. 그런데 짧은 baseline을 가진 image sequence를 위해 설계되었습니다.

 

Huang은 calibrated pose data를 네트워크의 input으로 사용하여 plane-sweep volumnes을 계산합니다. 읷은 초기의 depth feature를 encoder-decoder network를 사용하여 예측합니다.

 

depth 예측에 있어, reference image feature를 intra-feature(특징 안의) 집계를 decoder input에 concatenate하고, 각 input image의 volume cost를 max pooling으로 집계하여 multiview matching을 위한 정보를 수집합니다.

 

추정된 depth map은 conventional CRF를 사용하여 정제됩니다.

 

대조적으로 DPSNet은 input image에서 depth map으로의 end-to-end로 학습됩니다. 게다가 context-aware cost 집계를 합쳐서 multiview sereo 개념을 활용합니다.

 

마지막으로 Yao의 concurrent work를 소개하면, 차이나는 warping을 선택하여 multi-scale cost volume을 구성한 다음 reference image feature에 의해 가이드되는 초기 depth map을 개선했습니다.

 

DPSNet은 concurrent effort에 의존적입니다. 또한 어떤 차이점이 있냐면,

 

(1) 우리는 end-toend 학습 방법으로 reference image의 dense depth estimation에 집중했습니다.

(2) 우리의 cost volumne은 input feature map을 연결하여 구성되었고, 이는 two-view matching이어도 정확한 depth map을 추정합니다.

(3) 우리는 reference image의 context feature를 적용한 모든 cost slice를 정제합니다. 이는 texture가 없는 큰 영역에서 coarsely(거칠게) 흩어져 있는 신뢰할 수 없는 match들을 완화합니다.

 

728x90

'AI > Deep Learning' 카테고리의 다른 글

C4W2L03-04 Resnets & Why ResNets Work  (0) 2022.11.06
C4W2L07 Inception Network  (0) 2022.11.06
C4W2L06 Inception Network Motivation  (0) 2022.11.06
C4W2L05 Network in Network  (0) 2022.11.06
CSW3L06 Why Does Batch Norm Work?  (0) 2022.11.06
댓글