Detail View

Enhanced Monocular 3D Object Detection with Metric Learning
Citations

WEB OF SCIENCE

Citations

SCOPUS

Metadata Downloads

Title
Enhanced Monocular 3D Object Detection with Metric Learning
Alternative Title
메트릭 학습을 통해 향상된 단안 3D 객체 감지
DGIST Authors
Mingyu ShinSunghoon ImHoonsung Chwa
Advisor
임성훈
Co-Advisor(s)
Hoonsung Chwa
Issued Date
2024
Awarded Date
2024-08-01
Citation
Mingyu Shin. (2024). Enhanced Monocular 3D Object Detection with Metric Learning. doi: 10.22677/THESIS.200000798001
Type
Thesis
Description
Monocular 3D object detection, Autonomous driving, Recognition, Regression, Metric Learning
Abstract
Monocular 3D object detection poses a significant challenge due to the lack of depth information in RGB images. Many existing methods strive to enhance the object depth estimation performance by allocating additional parameters for object depth estimation, utilizing extra modules or data. In contrast, we introduce a novel metric learning scheme that encourages the model to extract depth-discriminative features regardless of the visual attributes without increasing inference time and model size. Our method employs the distance- preserving function to organize the feature space manifold in relation to ground-truth object depth. The proposed (𝐾, 𝐵, 𝜖)-quasi-isometric loss leverages predetermined pairwise distance restriction as guidance for adjusting the distance among object descriptors without disrupting the non-linearity of the natural feature manifold. Moreover, we introduce an auxiliary head for object-wise depth estimation, which enhances depth quality while maintaining the inference time. The broad applicability of our method is demonstrated through experiments that show improvements in overall performance when integrated into various baselines. The results show that our method consistently improves the performance of various baselines by 25.27% and 4.54% on average across KITTI and Waymo, respectively.|단안 3D 객체 감지는 RGB 이미지에서의 깊이 정보 부족으로 인해 상당한 어려움을 가지고 있습니다. 많은 기존 방법들은 객체 깊이 추정 성능을 향상시키기 위해 추가 매개변수를 할당하거나 추가 모듈 또는 데이터를 활용하여 시도하고 있습니다. 이와 반대되게 본 논문에서는 시각적 특성을 고려하지 않고도 모델이 깊이가 잘 구별되는 특징을 추출하도록 하는 새로운 메트릭 학습 체계를 제안합니다. 이 방법은 추론 시간과 모델 크기를 늘리지 않으면서 모델이 시각적 특성과 상관없이 향상된 깊이 특징을 추출하도록 하는 거리 보존 함수를 활용하였다. 제안된 (𝐾, 𝐵, 𝜖) -준등거리 손실함수는 객체 쌍 거리의 제한 조건을 활용하여 객체마다의 거리를 객체 깊이 라벨을 통해 정렬하며, 국소적으로 작용함으로써 고차원 공간에 존재하는 특징 매니폴드의 비선형성을 깨뜨리지 않습니다. 또한, 객체별 깊이 추정을 위한 보조 헤드를 도입함으로써 추론 시간을 증가시키지 않고 객체 깊이의 품질을 향상시켰습니다. KITTI 및 Waymo 데이터셋에서의 실험 결과는 다양한 기준선에 걸쳐 일관된 성능 향상을 보여주며 제안된 방법들의 효과를 강조합니다. 향후 작업으로, 우리의 방법은 다중 카메라 3D 객체 감지 시나리오 및 여러 하위 작업을 포함하는 다른 회귀 작업으로 확장될 가능성이 있습니다.
Table Of Contents
I. Introduction 1
II. Related Work 2
III. Method 3
3.1 Preliminary 3
3.2 Problem Definition 4
3.3 Methodology 5
IV. Experiments 10
4.1 Evaluation Results on KITTI/Waymo Datasets 12
4.2 Additional Experiments 12
V. Theoretical Analysis 17
5.1 Pseudo-geodesic 17
5.2 Non-linearity Preservation via Local-constraint 19
VI. Conclusion 20
VII. References 21
VIII. 요약문 25
URI
http://hdl.handle.net/20.500.11750/57916
http://dgist.dcollection.net/common/orgView/200000798001
DOI
10.22677/THESIS.200000798001
Degree
Master
Department
Artificial Intelligence Major
Publisher
DGIST
Show Full Item Record

File Downloads

  • There are no files associated with this item.

공유

qrcode
공유하기

Total Views & Downloads