Detail View

Accelerating On-Device CNN Inference via Fused Operation Offloading

Citations

WEB OF SCIENCE

Citations

SCOPUS

Metadata Downloads

Title
Accelerating On-Device CNN Inference via Fused Operation Offloading
Alternative Title
융합 연산 오프로딩을 위한 온디바이스 CNN 추론 가속
DGIST Authors
Jueun ParkHoonsung Chwa
Advisor
좌훈승
Issued Date
2026
Awarded Date
2026-02-01
Type
Thesis
Description
On-device AI, Operator Fusion, MLIR, IREE
Abstract

This paper proposes a Cost-Aware Static Operator Fusion framework based on the MLIR/IREE infrastructure to address the critical communication bottleneck in heterogeneous edge AI environments. Conventional naïve offloading strategies often degrade performance due to frequent host-accelerator data transfers, while traditional operator fusion techniques focus limitedly on intra-device memory optimization, failing to mitigate inter-device communication costs. To overcome these limitations, our approach introduces a custom compilation pass that utilizes a quantitative Cost Model and a offloading heuristic. This mechanism systematically identifies and fuses operator clusters at compile-time that yield a net positive benefit, thereby minimizing data transfer overhead and maximizing execution efficiency. Experimental results demonstrate that the proposed method effectively eliminates offloading overheads, achieving significant speedups even in bandwidth-constrained environments. Specifically, the framework records a 7.3x speedup for ResNet-18 and a 9.0x speedup for InceptionNet v3 compared to the baseline, proving its robustness and generalizability across diverse architectures.
Keywords: On-Device AI, Operator Fusion, Hardware Offloading, MLIR, IREE|본 논문은 이기종 엣지 AI 환경에서 발생하는 호스트와 가속기 간의 통신 병목 현상을 해결하기 위해, MLIR/IREE 컴파일러 기반의 비용 인식 정적 오퍼레이터 퓨전(Cost-Aware Static Operator Fusion) 프레임워크를 제안한다. 기존의 Naïve 오프로딩 방식은 빈번한 데이터 전송으로 인해 오히려 추론 속도를 저하시키는 문제가 있으며, 전통적인 퓨전 기법은 단일 디바이스 내 메모리 최적화에만 국한되어 이러한 통신 비용을 근본적으로 해결하지 못한다. 제안하는 프레임워크는 통신 오버헤드와 연산 이득을 정량적으로 분석하는 비용 모델을 도입하고, 오프로딩 휴리스틱을 적용하여 컴파일 타임에 최적의 퓨전 대상을 식별한다. 이를 통해 연관된 연산들을 하나의 실행 단위로 융합함으로써 디바이스 간 데이터 이동을 최소화하고 실행 효율을 극대화한다. 실험 결과, 제안하는 기법은 대역폭이 제한된 엣지 환경에서 단순 오프로딩 대비 즉각적인 성능 향상을 보였다. 특히 ResNet-18 과 InceptionNet v3 모델에서 각각 7.3 배 및 9.0 배의 속도 향상을 달성하여, 다양한 모델 구조에서의 범용성과 오프로딩 효율성을 입증하였다.
핵심어: 온디바이스 AI, 오퍼레이터 퓨전, 하드웨어 오프로딩, MLIR, IREE

더보기
Table Of Contents
I. Introduction 1
II. Background 4
2.1 Edge AI & Technical Challenges 4
2.2 DNNs and Computation Graphs 4
2.3 Limitations of Traditional Operator Fusion 5
2.4 Compiler Infrastructure: IREE & MLIR 6
2.5 Data Dependency Analysis using SSA7
III. Motivation 8
3.1 Redefining the Fusion Goal 8
3.2 The Pitfalls of Naïve Offloading 8
3.3 Blind Spots in Modern Compilers9
IV. Methodology 10
4.1 Overall System Flow 10
4.2 Cost-Aware Fusion Algorithm 11
4.2.1 Cost Model Definition 12
4.2.2 Pass 1: Anchor Identification (Fusion Planner) 13
4.2.3 Pass 2: Cluster Development 14
4.2.4 Pass 3: Dispatch Encapsulation 14
V. Evaluation 15
5.1 Experimental Setup 15
5.2 Sensitivity Analysis of Offloading Ratio (k) 16
5.3 Impact of Communication Bandwidth 17
5.3.1 Performance in Basic Environment· 17
5.3.2 Performance in Edge Environment 17
5.4 Ablation Study: Necessity of Selective Fusion 19
5.5 Generalization across Model Architectures 20
VI. Related Work 21
6.1 Static Partitioning 21
6.2 Dynamic Offloading Systems 21
6.3 Traditional Compiler Fusion 22
VII. Conclusion 23
Reference 25
URI
https://scholar.dgist.ac.kr/handle/20.500.11750/59707
http://dgist.dcollection.net/common/orgView/200000945364
DOI
10.22677/THESIS.200000945364
Degree
Master
Department
Department of Electrical Engineering and Computer Science
Publisher
DGIST
Show Full Item Record

File Downloads

  • There are no files associated with this item.

공유

qrcode
공유하기

Total Views & Downloads

???jsp.display-item.statistics.view???: , ???jsp.display-item.statistics.download???: