Detail View

Markerless 6D Pose Estimation for a Continuum Manipulator using Synthetic Data Generation and Differential Rendering Refinement

Citations

WEB OF SCIENCE

Citations

SCOPUS

Metadata Downloads

Title
Markerless 6D Pose Estimation for a Continuum Manipulator using Synthetic Data Generation and Differential Rendering Refinement
Alternative Title
합성 데이터 생성 및 차분 렌더링 기반 정제를 이용한 연속체 매니퓰레이터의 마커리스 6 자유도 포즈 추정
DGIST Authors
Junhyun ParkMinho Hwang
Advisor
황민호
Issued Date
2026
Awarded Date
2026-02-01
Type
Thesis
Description
Continuum Manipulator, Pose Estimation, Synthetic Dataset, Rendering-based Refinement
Abstract

본 논문은 케이블 구동 내시경 연속체 매니퓰레이터에서 마커를 사용하지 않는 6자유도 포즈 추정 프레임워크를 제안한다. 기존 연속체 매니퓰레이터는 제한된 작업 공간과 케이블 구동 방식에서 기인하는 비선형 변형 및 히스테리시스로 인해 정밀한 포즈 추정과 제어에 근본적인 한계를 가진다. 이를 극복하기 위해 본 논문에서는 세미 액티브 메커니즘을 적용한 확장형 연속체 매니퓰레이터를 설계 및 구현하였다. 제안된 구조는 최소 침습 수술에 요구되는 유연성을 유지하면서도, 기존 연속체 매니퓰레이터 대비 도달 가능한 작업 공간을 527.6% 확장한다. 또한 외부 마커에 의존하지 않고 로봇의 6D 포즈를 실시간으로 추정할 수 있는 시각 기반 포즈 추정 프레임워크를 제안한다. 제안된 매니퓰레이터는 의사 강체 모델 기반의 URDF로 모델링되어 NVIDIA Isaac Sim 환경에 구현되었으며, 이를 통해 포토리얼리스틱 시뮬레이션, 정확한 로봇–카메라 기하 관계 설정, 그리고 대규모 합성 데이터셋 생성을 가능하게 하였다. 해당 데이터셋을 기반으로 분할 마스크, 키포인트, 바운딩 박스 특징을 융합하는 다중 특징 포즈 추정 프레임워크를 개발하였다. 또한 양안 기하학적 일관성을 활용하는 스테레오 어텐션 메커니즘과 렌더링 기반 포즈 정제 모듈을 도입하여, 예측된 포즈로부터 렌더링된 시각 정보와 관측 영상 간의 정합성을 강제함으로써 포즈 추정 정확도를 향상시켰다. 실험 결과, 제안된 방법은 시뮬레이션 환경에서 평균 TCP 병진 오차 0.13 mm 및 회전 오차 1.16°를 달성하였으며, 실제 환경에서는 각각 0.47 mm 및 2.94°의 성능을 보였다. 이는 기존에 게재된 최고 성능의 단안 기반 방법과 비교하여 병진 오차는 62.1%, 회전 오차는 8.1% 감소한 결과이다. 이러한 결과는 제안된 프레임워크가 시뮬레이션과 실제 환경 전반에 걸쳐 강인하고 일반화 가능한 마커리스 포즈 추정을 수행할 수 있음을 입증한다. 본 연구는 연속체 수술 로봇을 위한 폐루프 제어 기반 시각 인지 시스템 구현에 실질적인 기반을 제공한다.|This thesis presents a markerless 6-DoF pose estimation framework for an extensible cable-driven continuum manipulator (CDCM) operating in both simulated and real surgical environments. Conventional continuum manipulators suffer from fundamentally limited pose estimation and control accuracy due to restricted workspace, nonlinear deformation, and hysteresis inherent to tendon–sheath actuation. To overcome these limitations, an extensible CDCM incorporating a semi-active mechanism is designed and implemented. The proposed structure preserves the intrinsic compliance required for minimally invasive surgery while achieving a 527.6% increase in reachable workspace compared to conventional continuum manipulators. To enable real-time markerless pose estimation, the proposed manipulator is modeled using a pseudo-rigid-body URDF and deployed in the NVIDIA Isaac Sim environment. This enables photorealistic simulation, accurate robot–camera geometric configuration, and large-scale synthetic dataset generation. Based on this dataset, a stereo-aware multi-feature pose estimation framework is developed, which fuses segmentation masks, dense keypoints, and bounding box features within a unified architecture. A stereo attention mechanism is introduced to exploit binocular geometric consistency, and a differential rendering-based refinement module further improves pose accuracy by enforcing alignment between rendered visual cues from the predicted pose and observed images. Experimental results demonstrate strong performance across both simulation and real-world environments. The proposed method achieves a mean TCP translation error of 0.13 mm and a rotation error of 1.16° in simulation, and 0.47 mm and 2.94°, respectively, in real-world experiments. Compared to the strongest prior monocular baseline, this corresponds to a 62.1% reduction in translation error and an 8.1% reduction in rotation error. These results confirm that the proposed framework enables accurate, robust, and generalizable markerless pose estimation for deformable continuum manipulators, providing a practical foundation for closed-loop visual perception and control in surgical robotic systems.

더보기
Table Of Contents
Ⅰ. Introduction 1
1.1 Motivation 1
1.2 Challenges 1
1.3 Related Works 2
1.4 Research Overview 2
1.5 Thesis Contribution 4

Ⅱ. Semi-Active Continuum Manipulator 5
2.1 Kinematics Structure of Extensible Continuum Manipulator 6
2.2 Forward Kinematics of the Extensible Segment 7
2.3 Kinematics of the Proposed Manipulator 8
2.4 Workspace Comparison with Conventional Continuum Manipulator 10
2.5 Cable Actuation Equation 11

Ⅲ. Synthetic Data Generation Setup 14
3.1 URDF Creation 15
3.2 Simulation Setup 15

Ⅳ. Pose Estimation Framework 17
4.1 Region-of-Interest Extraction 17
4.2 Multi-Feature Fusion Network 18
4.3 Stereo-Aware Pose Estimation 20
4.4 Loss Formulation 21

Ⅴ. Model Training and Ablation 24
5.1 Synthetic Dataset Generation 24
5.2 Multi-Stage Training Procedure 25
5.3 Ablation Studies on Synthetic Data 26
5.4 Effect of the Refinement Module 28

Ⅵ. Domain Randomization 29
6.1 Real Camera Intrinsic and Extrinsic Calibration 29
6.2 Domain Randomization Dataset Collection 31

Ⅶ. Model Validation in Real Environments 33
7.1 Ground-Truth Data Collection 33
7.2 Validation Results in Real Environments 33

Ⅷ. Conclusion 35
URI
https://scholar.dgist.ac.kr/handle/20.500.11750/59670
http://dgist.dcollection.net/common/orgView/200000945548
DOI
10.22677/THESIS.200000945548
Degree
Master
Department
Department of Robotics and Mechatronics Engineering
Publisher
DGIST
Show Full Item Record

File Downloads

  • There are no files associated with this item.

공유

qrcode
공유하기

Total Views & Downloads

???jsp.display-item.statistics.view???: , ???jsp.display-item.statistics.download???: