Domain adaptation of stereo matching through generative model;변형된 생성모델을 이용한 스테레오 정합의 도메인 적응
Abstract
본 논문의 스테레오 매칭은 두 이미지 간의 기하학적 관계를 활용하여 disparity(차이)를 계산하고, 이를 통해 깊이 및 3D 정보를 재구성하는 컴퓨터 비전 분야에서 중요한 연구 분야 중 하나다. 더 나아가, 합성곱 신경망(CNNs)의 발전은 기존의 기하학 기반 스테레오 매칭 기술에서 이전에 해결되지 못했던 문제를 다루어 더 정확한 시차 계산을 가능하게 했다. 그러나 컨벌루션 신경망에는 도메인 변화에 민감하다는 한계가 있다. 딥러닝 기반의 최신 스테레오 매칭 네트워크는 도메인 변화에 따른 성능 하락을 겪었다. 뿐만 아니라 이 문제를 해결하기 위해 실제 세계의 실제 데이터를 얻는 것은 합성된 데이터를 얻는 것에 비해 번거롭고 비용이 많이 드는 작업이다. 이 연구에서는 도메인 간 격차를 극복하기 위해 이미지 간 변환을 활용하는 엔드-투-엔드 프레임워크를 제안한다. 구체적으로, 우리는 수평 어텐션 생성(HAG) 모듈을 제안하며, 타겟 스타일화된 좌우 뷰를 생성할 때 내용의 에피폴라(constraint) 제약을 통합한다. 이미지 생성 과정 중에 수평 어텐션 메커니즘을 사용하여 우리의 방법은 전체 피쳐 맵을 사용하지 않고 각 뷰의 더 많은 정보를 통합하여 작은 수용장 영역과 관련된 문제를 해결할 수 있다. 따라서 우리의 네트워크는 이미지 생성 과정 중에 왼쪽과 오른쪽 뷰 사이의 일관성을 유지하므로 다양한 데이터셋에 대해 더 강건하다.|Stereo Matching, which utilizes the geometric relationship between two images to calculate disparity and subsequently reconstruct depth and 3D information has been one of the most important research area in computer vision. Furthermore, the advancement of convolutional neural networks (CNNs) has addressed previously unresolved issues in traditional geometry-based stereo matching techniques, enabling more accurate disparity calculations. However, CNNs have their limitations, particularly their susceptibility to domain shift. The CNN-based state-of-the-art stereo matching networks suffered from performance degradation under domain changes. Moreover, obtaining a significant amount of real-world ground truth data to address theses issues is a laborious and costly task when compared to acquiring synthetic ground truth data. In this work, we propose an end-to-end framework that utilizes image-to-image translation to overcome the domain gap in stereo matching. Specifically, we suggest a horizontal attentive generation (HAG) module that incorporates the epipolar constraint of contents when generating target-stylized left-right views. By employing a horizontal attention mechanism during generation process, our method can address the issues related to small receptive field by aggregating more information of each view without using the entire feature map. Therefore, our network can maintain consistencies between the left and right views during image generation process, making it more robust for different datasets.
Table Of Contents
List of Contents Abstract · i List of contents ii List of tables iii List of figures · vi
Research Interests
Autonomous Vehicle and Aerial Robotic Systems and Control; Theory and Applications for Mechatronic Systems and Control; 자율 주행 및 비행 시스템 제어; 로봇공학 및 지능제어