Detail View
Fine-Grained Monocular Depth Estimation via Fusion and Distillation of Foundation Models
WEB OF SCIENCE
SCOPUS
- Title
- Fine-Grained Monocular Depth Estimation via Fusion and Distillation of Foundation Models
- Alternative Title
- 파운데이션 모델 융합·지식 증류를 통한 세밀한 단안 깊이 추정
- DGIST Authors
- Sanggyun Ma ; Sunghoon Im
- Advisor
- 임성훈
- Issued Date
- 2026
- Awarded Date
- 2026-02-01
- Type
- Thesis
- Description
- Foundation model, Monocular depth estimation, Zero-shot depth estimation, Knowledge distillation
- Abstract
-
파운데이션 모델 융합·지식 증류를 통한 세밀한 단안 깊이 추정 단안 깊이 추정은 대규모 데이터로 학습한 파운데이션 모델의 폭넓은 문맥 이해 능력에서 영감을 받아 왔지만, 여전히 복잡한 장면에서의 섬세한 구조를 포착하거나 동질 영역에서 깊이를 안정적으로 예측하는 데 한계를 보입니다. 이러한 문제를 해결하기 위해, 본 논문은 파운데이션 모델의 깊이·의미 정보를 효과적으로 융합하여 단안 깊이 추정을 향상시키는 2단계 프레임워크를 제안합니다. 먼저, 어텐션 메커니즘을 통해 깊이 및 분할 파운데이션 모델의 특징을 직접적으로 통합하는 적응형 융합 모듈을 도입합니다. 다음으로, 융합된 표현을 의미 인코더를 호출하지 않고도 의미 인식 능력을 유지할 수 있도록 설계된 경량 의미 주입 모듈을 갖춘 깊이 모델로 증류합니다. 우리의 방법은 파운데이션 모델의 사전학습 가중치를 유지한 채 융합 모듈과 경량 의미 주입 모듈만을 학습함으로써, 강력한 사전학습 지식과 견고한 일반화 성능을 보존하면서 계산 오버헤드를 줄입니다. 이 설계는 원 학습 데이터의 일부만으로도 효율적인 적응을 가능하게 하여 자원 제약 환경에서의 실용성을 강조합니다. 여러 도전적 데이터셋에 대한 광범위한 실험 결과, 우리의 방법은 미세 구조와 깊이 모호성이 공존하는 복잡한 장면을 포함하여, 최신 기법들을 일관되게 능가함을 보였습니다. 핵심어: 파운데이션 모델(Foundation model), 단안 깊이 추정(Monocular depth estimation), 제로 샷 깊이 추정(Zero-shot depth estimation), 지식 증류(Knowledge distillation).|Monocular Depth Estimation (MDE) studies have drawn inspiration from foundation models, training large-scale models on vast datasets to leverage their broad contextual understanding. However, current MDE methods still struggle with capturing delicate structures in complex scenes and predicting depth in homogeneous regions due to their limited capacity to exploit semantic information related to fine-grained details. To address this problem, we present Semantic-Enhanced and Efficient Distillation for Depth Estimation (SEEDepth), a two-stage framework that effectively fuses information of depth and semantic foundation models to enhance MDE. First, we introduce the Fusion Module, an adaptive fusion module, which directly integrates features from depth and segmentation foundation models through attention mechanisms. Second, we distill the fused representations into a depth model equipped with our Residual Split-wise Transformer (ReSplit), a lightweight semantic injection module designed to retain semantic awareness without invoking the semantic encoder. SEEDepth capitalizes on pretrained foundation models by exclusively training the Fusion Module and ReSplit modules, thereby reducing computational overhead while preserving strong pretrained knowledge and robust generalization. This design enables efficient adaptation with only a fraction of the original training data, highlighting the practicality of our approach in resource-constrained settings. Extensive experiments across multiple challenging datasets demonstrate that SEEDepth outperforms state-of-the-art methods in MDE for complex scenes, including fine structures and depth ambiguity. Keywords: Foundation model, Monocular depth estimation, Zero-shot depth estimation, Knowledge distillation.
더보기
- Table Of Contents
-
List of Contents
Abstract i
List of contents ii
List of tables iii
List of figures iii
I. INTRODUCTION 1
II. RELATED WORK 3
2.1 Monocular Depth Estimation 3
2.2 Zero-shot depth estimation 4
2.3 Knowledge distillation 5
III. METHOD 6
3.1 Overall pipeline 6
3.2 Stage-1: Feature Integration 7
3.3 Stage-2: Distillation of Fused Representation 8
3.4 Training 9
IV. EXPERIMENTS 10
4.1 Implementation details 10
4.2 Experimental setup 10
4.3 Comparison to State-of-the-art Methods 12
4.4 Ablation study 14
V. CONCLUSION 16
VI. References 17
VII. 요약문 22
- URI
-
https://scholar.dgist.ac.kr/handle/20.500.11750/59729
http://dgist.dcollection.net/common/orgView/200000943014
- Degree
- Master
- Department
- Artificial Intelligence Major
- Publisher
- DGIST
File Downloads
- There are no files associated with this item.
공유
Total Views & Downloads
???jsp.display-item.statistics.view???: , ???jsp.display-item.statistics.download???:
