Detail View
Mitigating Address Translation Overhead in Near- Data Processing on CXL Memory
WEB OF SCIENCE
SCOPUS
- Title
- Mitigating Address Translation Overhead in Near- Data Processing on CXL Memory
- Alternative Title
- CXL 메모리 환경의 데이터 근접 처리기의 주소 변환에 대한 부하와 완화기법
- DGIST Authors
- Gwangin Kim ; Yeseong Kim
- Advisor
- 김예성
- Issued Date
- 2026
- Awarded Date
- 2026-02-01
- Type
- Thesis
- Description
- compute express link, memory system
- Abstract
-
Modern systems increasingly adopt Compute Express Link (CXL) to expand main memory capacity and enable near-data processing (NDP) inside CXL-attached memory devices. However, existing NDP approaches rely on the Address Translation Service (ATS) and I/O Page Fault (I/O PF) handling to perform virtual-to- physical address translation on the device. These mechanisms introduce substantial latency due to repeated page-table walks, host-side page-fault handling, and frequent PCIe round-trips, preventing NDP units from efficiently accessing host virtual memory. Prior work such as M2NDP partially mitigates host–device communication overhead, but still depends on ATS-based translation and therefore suffers from high translation latency and page-table update overheads. This thesis presents NDSP, a notifier-driven shadow paging mechanism designed to provide low-latency and consistent address translation for NDP in CXL memory devices. NDSP maintains a Shadow Page Table (ShadowPT) inside the device and synchronizes it with the host page table through lightweight, event-driven notifications generated by the OS. By proactively propagating page-table updates—allocation, remapping, unmapping—NDSP eliminates translation-time ATS traffic and avoids I/O PF handling during NDP execution. As a result, NDP units can perform translations locally and consistently, without host intervention. We implement NDSP in a full-system simulation environment and evaluate it using memory-bound OLAP, key-value store, and graph analytics workloads. With a 4 KB page configuration, NDSP achieves up to 16.7× speedup over a baseline ATS-based design and 1.74× speedup over M2NDP. With 2 MB huge pages, NDSP further reduces translation overhead, delivering up to 4.65× and 1.07× speedup over the baseline and M2NDP, respectively. These results demonstrate that NDSP fundamentally overcomes the translation bottlenecks in existing NDP architectures and significantly improves the efficiency of CXL-based near-data processing. Keywords: Shadow Page Table; Near-Data Processing (NDP); Compute Express Link (CXL); Address Translation; Address Translation Service (ATS); Page Request Interface (PRI); Device TLB; OLAP.|본 논문은 CXL 기반 Near-Data Processing(NDP)에서 발생하는 주소 변환(Address Translation) 지연 문제를 분석하고, 이를 해소하기 위한 새로운 주소 변환 기법인 NDSP(Notifier-Driven Shadow Paging)을 제안한다. 기존 NDP 장치는 주소 변환을 위해 Address Translation Service(ATS)와 I/O Page Fault(PRI)에 의존하며, 이로 인해 반복적인 페이지 테이블 탐색, 호스트 개입, PCIe 왕복 지연이 발생한다.
더보기
이러한 구조적 병목은 NDP 유닛이 호스트의 가상 메모리에 효율적으로 접근하는 것을 크게 제한한다. 기존 연구인 M2NDP 는 일부 왕복 비용을 줄였으나, ATS 기반 변환에 근본적으로 의존하기 때문에 높은 변환 지연과 페이지 테이블 변경 처리 비용을 제거하지 못한다.
본 논문이 제안하는 NDSP 는 디바이스 내부에 Shadow Page Table(ShadowPT)을 유지하고, 운영체제가 생성하는 경량 이벤트 기반 알림을 이용하여 호스트 페이지 테이블과 ShadowPT 를 동기화한다. NDSP 는 페이지 할당, 재매핑, 해제와 같은 페이지 테이블 갱신을 사전에 디바이스에 전달하여, NDP 실행 중 ATS 트래픽과 PRI 처리 과정을 제거한다. 이를 통해 NDP 유닛은 주소 변환을 디바이스 로컬에서 즉시 수행할 수 있으며, 실행 경로에서 호스트 개입을 필요로 하지 않는다.
NDSP 는 cycle-정밀(simulation-based) NDP 플랫폼에 구현되었고, OLAP(SSB, TPC-H), Keyvalue store, Graph analytics 워크로드로 평가되었다. 평가 결과, 4 KB 페이지 환경에서 NDSP 는 기존 ATS 기반 구조 대비 최대 16.7 배 성능 향상을 보였고, M2NDP 대비 1.74 배 빠르다. 2 MB 페이지 환경에서는 각각 4.65 배, 1.07 배의 성능 개선을 달성하였다. 이러한 결과는 NDSP 가 기존 NDP 구조의 주소 변환 병목을 근본적으로 제거하며, CXL 메모리 기반 NDP 에서 고성능 확장성을 확보하는 핵심 기법임을 입증한다.
핵심어: CXL, Near-Data Processing, Shadow Page Table, Address Translation, ATS, PRI,
TLB, Page Table Synchronization
- Table Of Contents
-
Ⅰ. Introduction 1
ⅠⅠ. Background and Motivation 4
2.1 Compute Express Link Interconnect 4
2.2 Near-Data Processing 5
2.3 Virtual Memory Management for PCIe Devices 7
2.4 Prior Work and Practical Challenges 7
2.5 Page Table Dynamics 8
2.5.1 Memory Variability and Address Translation in Batch Applications 8
2.5.2 Memory Variability and Address Translation in Key-Value Stores 10
ⅠⅠⅠ. Design 12
3.1 Design Overview 12
3.2 ShadowPT: Device-Side Shadow Page Table 14
3.3 ShadowPT Updater 14
3.3.1 Update Path 15
3.3.2 Invalidate Path 15
3.4 PT Update Producers 15
3.4.1 ndsp_init: Initial Synchronization 15
3.4.2 EaSyAllocator: Eager Allocation and Synchronization 16
3.4.3 SyncManager: Dynamic Update Handling 16
ⅠV. Evaluation 17
4.1 Experimental Setup 17
4.2 Kernel-Based Performance Evaluation 18
4.2.1 Kernel-Level Performance Comparison 18
4.2.2 Impact of Page Size (4 KB vs. 2 MB) 18
4.3 Sensitivity to Dynamic Page-Table Updates 19
4.4 Summary of Evaluation 20
V. Discussion 21
VⅠ. Conclusion 23
- URI
-
https://scholar.dgist.ac.kr/handle/20.500.11750/59726
http://dgist.dcollection.net/common/orgView/200000944685
- Degree
- Master
- Department
- Artificial Intelligence Major
- Publisher
- DGIST
File Downloads
- There are no files associated with this item.
공유
Total Views & Downloads
???jsp.display-item.statistics.view???: , ???jsp.display-item.statistics.download???:
