Detail View

Semantically Consistent Visual Segmentation in Dynamic Environments

Citations

WEB OF SCIENCE

Citations

SCOPUS

Metadata Downloads

DC Field Value Language
dc.contributor.advisor 임성훈 -
dc.contributor.author Seunghun Lee -
dc.date.accessioned 2026-01-23T10:54:20Z -
dc.date.available 2026-01-24T06:00:39Z -
dc.date.issued 2026 -
dc.identifier.uri https://scholar.dgist.ac.kr/handle/20.500.11750/59629 -
dc.identifier.uri http://dgist.dcollection.net/common/orgView/200000945113 -
dc.description Visual segmentation, Domain adaptation, Temporal consistency, Video-text alignment -
dc.description.abstract 시각적 세분화는 이미지 이해부터 복잡한 비디오 분석에 이르기까지 다양한 사용자 요구에 의해 주도되는 컴퓨터 비전의 근본적인 작업입니다. 이러한 응용 분야 전반의 핵심 과제는 의미론적 일관성을 유지하는 것이며, 특히 모델이 도메인 변화, 시간적 단절, 복잡한 언어를 특정 비디오 콘텐츠에 정렬해야 하는 어려움에 직면하는 동적이고 실제적인 환경에서 이는 더욱 중요합니다. 우리는 의미론적 불일치의 세 가지 핵심 영역을 점진적으로 다루며, 지도 신호를 지능적으로 정제함으로써 견고한 세분화가 달성될 수 있음을 입증합니다. 첫째, 모델이 합성 데이터로부터 여러 실제 도메인으로 일반화하는 데 실패하는 이미지 수준의 의미론적 세분화를 위한 일반화 문제를 다룹니다. 우리는 단일 네트워크에서 다양한 타겟 도메인 분포를 시뮬레이션하여 광범위한 시각적 스타일을 포괄하는 직접 적응 프레임워크를 제안합니다. 이 프레임워크는 의미론적으로 모호한 영역을 식별하고 필터링하여 모델이 도메인 불변의 일관된 특징을 학습하도록 강제하는 양방향 적응형 영역 선택 전략을 구현함으로써 학습 신호를 동시에 정제합니다. 둘째, 시간적 일관성 유지가 가장 중요한 비디오 인스턴스 세분화로 이 원칙을 확장합니다. 가려짐 현상 중 오래된 특징으로 인한 메모리 오염으로 발생하는 추적 실패를 해결하기 위해, 우리는 새로운 메모리 관리 시스템을 제안합니다. 우리는 특징을 평균화하는 대신 가려짐 중에 최신의 유효한 객체 상태만을 저장하고 이 상태를 유지하는 메모리 메커니즘을 활용하여 일관성을 보장합니다. 또한, 기존 객체와 새로 나타나는 객체를 분리하여 관리함으로써 모호성을 해결하는 연관 전략으로 이를 보완합니다. 셋째, 지시형 세분화에서 비디오와 텍스트 간의 의미론적 정렬이라는 복잡한 과제를 다룹니다. 우리는 모델이 행동 기반 텍스트를 관련 없는 정적 프레임과 연관시키도록 강제되는, '의미론적 모순'이라 명명한 기존 학습의 근본적인 결함을 식별합니다. 우리는 명시적인 시간 주석을 사용하여 교차 양식 신호를 정제하는 시간 기반 학습 프레임워크를 제안합니다. 우리는 언어적 설명이 능동적으로 참(true)인 시공간적 세그먼트에서만 손실을 적용하는 선택적 지도 메커니즘을 통해 이를 달성합니다. 요약하면, 이러한 기여들은 이미지 수준의 일반화에서 시간적 일관성, 그리고 시공간-언어 정렬로 이어지는 일관된 진행 과정을 보여주며, 의미론적 불일치를 방지하기 위한 지도 신호의 세심한 정제가 동적 환경에서 의미론적으로 일관된 시각적 세분화를 달성하기 위한 핵심 원칙임을 확립합니다.|Visual segmentation is a fundamental task in computer vision, driven by diverse user needs ranging from image understanding to complex video analysis. A core challenge across these applications is maintaining se- mantic consistency, especially in dynamic, real-world environments where models are confronted with domain shifts, temporal disruptions, and the difficulty of aligning complex language to specific video content. We pro- gressively address three key areas of semantic inconsistency, demonstrating that robust segmentation is achieved by intelligently purifying the supervisory signal. First, we address generalization for image-level semantic seg- mentation, where models fail to generalize from synthetic data to multiple real-world domains. We introduce a direct adaptation framework that simulates diverse target domain distributions from a single network to cover a wide range of visual styles. This framework simultaneously purifies the learning signal by implementing a bi- directional adaptive region selection strategy, which identifies and filters out semantically ambiguous regions to force the model to learn domain-invariant, consistent features. Second, we extend this principle to video instance segmentation, where maintaining temporal consistency is paramount. To solve tracking failures caused by memory contamination from outdated features during occlusions, we propose a novel memory management system. We ensure consistency by utilizing a memory mechanism that stores only the latest valid object state, crucially holding this state during occlusion rather than averaging features. We complement this with an association strategy that resolves ambiguity by separately managing existing and newly appearing objects. Third, we address the complex challenge of semantic alignment between video and text in referring segmentation. We identify a fundamental flaw in existing training, which we term semantic contradiction, where models are forced to associate action-based text with unrelated static frames. We propose a temporally grounded learning framework that uses explicit temporal annotations to purify the cross-modal signal. We achieve this through a selective supervision mechanism that enforces loss only on the spatio-temporal segments where the linguistic description is actively true. In summary, these contributions demonstrate a coherent progression from image-level generalization to temporal consistency and spatio-temporal-linguistic alignment, establishing that a meticulous refinement of the supervisory signal to prevent semantic inconsistencies is a critical principle for achieving semantically consistent visual segmentation in dynamic environments.
Keywords: Visual segmentation, Domain adaptation, Temporal consistency, Video-text alignment
-
dc.description.tableofcontents I. Introduction 1
1.1 Motivation and Objective 1
1.2 Previous Works 2
1.2.1 Multi-Target Domain Adaptive Semantic Segmentation 2
1.2.1.1 Domain Transfer 2
1.2.1.2 Unsupervised Domain Adaptation for Semantic Segmentation 3
1.2.1.3 Multi-Target Domain Adaptation 3
1.2.2 Temporally Consistent Video Instance Segmentation 4
1.2.2.1 Video Instance Segmentation 4
1.2.2.2 Object Tracking with Memory 4
1.2.3 Temporally Grounded Referring Video Object Segmentation 5
1.2.3.1 Referring Video Object Segmentation 5
1.2.3.2 Temporal Grounding with Vision-Language Models 6
1.3 Structure of the Dissertation 6

II. A Direct Adaptation Strategy for Multi-Target Domain Adaptive Semantic Segmentation 8
2.1 Motivation 8
2.2 A Direct Adaptation Strategy (ADAS) 10
2.2.1 Multi-Target Domain Transfer Network (MTDT-Net) 11
2.2.2 Bi-directional Adaptive Region Selection (BARS) 15
2.3 Experiments 17
2.3.1 Training Details 18
2.3.1.1 Datasets 18
2.3.1.2 Implementation Details 19
2.3.2 Synthetic-to-Real Adaptation 20
2.3.3 Real-to-Real Adaptation 21
2.3.4 Further Study on MTDT-Net and BARS 22
2.4 Summary 23

III. Latest Object Memory Management for Temporally Consistent Video Instance Segmentation 27
3.1 Motivation 27
3.2 Latest Object Memory Management (LOMM) 29
3.2.1 Transformer-based Tracker 29
3.2.2 Latest Object Memory (LOM) 32
3.2.3 Decoupled Object Association (DOA) 32
3.2.4 Training 34
3.2.4.1 Early Training Strategy 34
3.2.4.2 Training Loss 35
3.3 Experiments 36
3.3.1 Implementation Details 37
3.3.2 Main Results 38
3.3.3 Ablation Study 41
3.3.4 Computational Cost 42
3.3.5 Limitation 43
3.4 Summary 43

IV. Temporal Grounding as a Learning Signal for Referring Video Object Segmentation 45
4.1 Motivation 45
4.2 MeViS-M Dataset 47
4.3 Temporally Grounded Learning 50
4.3.1 Baseline Architecture 50
4.3.2 Design Motivation 52
4.3.3 Moment-guided Dual-path Propagation 53
4.3.4 Object-level Selective Supervision 54
4.3.5 Temporal Alignment Module 55
4.4 Experiments 56
4.4.1 Implementation Details 56
4.4.2 Main Results on MeViS 58
4.4.3 Ablation Study 61
4.4.4 Analysis on Temporal Grounding 61
4.4.4.1 Analysis of VLM-based Grounding 62
4.4.4.2 Analysis of Hybrid Grounding 63
4.4.4.3 Comparison of Key Frame Selection Methods 64
4.4.4.4 Temporal Alignment Module 64
4.4.5 Further Study 65
4.4.5.1 Generalization to Other Datasets 65
4.4.5.2 Feature Map Analysis 65
4.4.6 Limitations 66
4.5 Summary 67

V. Conclusion 68
References 70
-
dc.format.extent 81 -
dc.language eng -
dc.publisher DGIST -
dc.title Semantically Consistent Visual Segmentation in Dynamic Environments -
dc.type Thesis -
dc.identifier.doi 10.22677/THESIS.200000945113 -
dc.description.degree Doctor -
dc.contributor.department Department of Electrical Engineering and Computer Science -
dc.contributor.coadvisor Sunghyun Cho -
dc.date.awarded 2026-02-01 -
dc.publisher.location Daegu -
dc.description.database dCollection -
dc.citation XT.ID 이57 202602 -
dc.date.accepted 2026-01-19 -
dc.contributor.alternativeDepartment 전기전자컴퓨터공학과 -
dc.subject.keyword Visual segmentation, Domain adaptation, Temporal consistency, Video-text alignment -
dc.contributor.affiliatedAuthor Seunghun Lee -
dc.contributor.affiliatedAuthor Sunghoon Im -
dc.contributor.affiliatedAuthor Sunghyun Cho -
dc.contributor.alternativeName 이승훈 -
dc.contributor.alternativeName Sunghoon Im -
dc.contributor.alternativeName 조성현 -
Show Simple Item Record

File Downloads

  • There are no files associated with this item.

공유

qrcode
공유하기

Total Views & Downloads

???jsp.display-item.statistics.view???: , ???jsp.display-item.statistics.download???: