WEB OF SCIENCE
SCOPUS
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.advisor | 김가인 | - |
| dc.contributor.author | Sangwoo Jung | - |
| dc.date.accessioned | 2025-02-28T21:01:17Z | - |
| dc.date.available | 2025-03-01T06:00:31Z | - |
| dc.date.issued | 2025 | - |
| dc.identifier.uri | http://hdl.handle.net/20.500.11750/57990 | - |
| dc.identifier.uri | http://dgist.dcollection.net/common/orgView/200000844622 | - |
| dc.description | Convolutional Neural Network, Processing-In-Memory, Energy-Scalability, SW-HW Co-Optimization | - |
| dc.description.abstract | Convolutional Neural Networks (CNNs) have demonstrated an outstanding performance in image analysis by learning from image features. However, as image analysis tasks become more complex and diverse, CNN models continue to grow in both structural complexity and model size. In this thesis, we present an SW- HW co-optimization methodology to enable efficient inference of CNN models, especially on embedded platforms with limited hardware resources. To maximize energy efficiency while maintaining the original model accuracy, we propose a specially designed CNN model that consists of two different bit-precision paths. By adjusting the ratio of low-precision and high-precision paths, the proposed network enables to achieve energy scalability, supporting models from low-power models to high-accuracy but large models. Additionally, we introduce an automatic search algorithm based on an evolutionary algorithm that layer-wisely explores the optimal ratio of the two precision paths to satisfy the specified constraints. For the SW-HW co-optimization, we also propose a novel hardware accelerator architecture that can energy-efficiently perform the inference of the dual-precision network. This employs a heterogeneous Processing-in-Memory (PIM) structure designed with two different types of memory. To further enhance energy efficiency, we developed a simulator that can find out the optimal data mapping when the dual-precision networks are deployed onto the heterogeneous PIM architecture. This simulator generates an optimal data mapping strategy based on various performance metrics (latency, memory footprint, and energy consumption). By integrating these proposed techniques, the experimental results show significant improvements in overall performance metrics, demonstrating the effectiveness of the co-design methodology Additionally, a novel heterogeneous PIM architecture that combines digital-based PIM and analog-based PIM is proposed to overcome the challenges and limitations of analog-based PIM. This approach enables the development of inference accelerators that achieve both high energy efficiency and model accuracy. Through this thesis, we demonstrate the potential and scalability of a heterogeneous PIM architecture capable of effectively executing the inference on various deep learning models. Keywords: Convolutional Neural Network, Processing-In-Memory, Energy-Scalability, SW-HW Co- Optimization |본 논문은 이미지들의 인식, 분류, 분석 등에서 뛰어난 성능을 보여주고 있는 딥러닝 기반 컨볼루션 신경망(CNN)의 연산 효율성을 높일 수 있는 새로운 알고리즘 기법을 다룬다. 최근 이미지 분석 작업이 점점 더 복잡하고 다양해짐에 따라 CNN 모델은 구조적 복잡성과 모델 크기 모두에서 계속 성장하고 있다. 이 논문에서는 하드웨어 리소스가 제한된 임베디드 플랫폼을 기반으로, CNN 모델을 효율적으로 추론할 수 있도록 SW-HW 공동 최적화 방법론을 제시힌다. 제안한 CNN 모델은 기존 모델 정확도를 유지하면서 에너지 효율을 극대화하기 위해 서로 다른 두 가지 비트 정밀도 (저정밀 및 고정밀)로 양자화된 경로를 결합한 구조를 가진다. 두 경로의 비율을 조정함으로써, 제안한 CNN 모델은 최소한의 에너지를 가진 소형 모델부터 더 높은 정확도를 가진 에너지 집약적 모델에 이르기까지 다양한 모델을 생성할 수 있는 에너지 확장성을 달성할 수 있다. 또한 유저가 제공하는 다양한 제약 조건들 (에너지 효율성 및 메모리 크기)을 충족하기 위해 두 정밀 경로의 최적 비율을 계층별로 탐색하는 진화 알고리즘 기반 자동 검색 알고리즘을 제안한다. SW-HW 공동 최적화를 위해 이중 정밀 네트워크의 추론을 에너지 효율적으로 수행할 수 있는 새로운 하드웨어 가속기 아키텍처도 제안된다. 이 가속기는 두 가지 유형의 메모리로 설계된 이기종 PIM(Processing-in-Memory) 구조를 사용하게 된다. 에너지 효율성을 더욱 향상시키기 위해 이중 정밀 네트워크가 이기종 PIM 아키텍처에서 연산될 때 최적의 데이터 매핑을 찾을 수 있는 시뮬레이터 또한 설계가 되었다. 이 시뮬레이터는 다양한 성능 지표들 (모델 추론시 필요한 지연 시간, 메모리 크기 및 에너지 소비)을 기반으로 최적의 데이터 매핑 전략을 생성한다. 앞서 제안된 기술들을 통합함으로써 전체 성능 지표에서 상당한 개선을 보여주며, CNN의 실제 배포를 발전시키는 데 있어 이 공동 설계 방법론의 효과를 입증한다. 추가적으로, 아날로그 기반 단일 PIM의 문제점과 한계성을 극복하기 위한 디지털 기반 PIM과 아날로그 기반 PIM을 결합한 새로운 이기종 PIM 구조를 제시함으로써, 높은 에너지 효율성과 모델 정확성을 확보할 수 있는 추론 하드웨어 가속기도 제안된다. 본 논문을 통해, 다양한 딥러닝 모델을 효과적으로 추론할 수 있는 이기종 PIM 구조에 대한 새로운 가능성 및 확장성을 입증하고 이를 제안한다. 핵심어: 컨벌루션 신경망, 메모리 내 프로세싱, 에너지 확장성, SW-HW 공동 최적화 |
- |
| dc.description.tableofcontents | List of Contents Abstract i List of Contents ii List of Tables v List of Figures vii I. Introduction 1 II. Background on Efficient Deep Learning Inference 6 2.1 Deep Compression methods 7 2.1.1 Pruning 7 2.1.2 Quantization 10 2.1.3 Low-Rank Decomposition 16 2.1.4 Network Architecture Search 17 2.2 Processing-In-Memory 19 III. Energy-Scalable Deep Learning Accelerator based on Mixed-Precision Quantization 22 3.1 Motivation 22 3.2 Mixed-precision CNN Model 24 3.2.1 Proposed Model Architecture 24 3.2.2 Experimental Results 25 3.3 Hardware Architecture 29 3.3.1 Proposed Reconfigurable Multiplier 29 3.3.2 Hardware Evaluation 32 3.4 Noise Resilience 35 IV. Dual-Precision and Low-Power CNN Inference Engine Using SRAM- and eDRAM- based Processing-in-Memory Arrays 37 4.1 PIM-aware CNN Model 37 4.1.1 Proposed Model Architecture 38 4.1.2 Experimental Results 40 4.2 Heterogeneous PIM Architecture 40 4.2.1 Motivation 40 4.2.2 Proposed PIM Architecture 42 4.2.3 Operations of PIM Arrays 45 4.2.4 Hardware Evaluation 52 4.3 Discussion 55 V. Software-to-Hardware Co-Optimization Methodology for Highly-Efficient Deep Learning Inference 56 5.1 SW-HW Co-Optimization Methodology 56 5.2 Training Methods for Energy-Scalable CNN Models 57 5.3 Automated Search Algorithm 65 5.4 Experimental Results 70 5.5 Data Mapping Algorithm 74 5.6 Hardware Evaluation 77 5.7 Discussions 80 VI. CAM-CIM: A Hybrid Compute-in-Memory Using Content-Addressable Memory with Subword Split Mapping for Reduced ADC Resolution 83 6.1 Proposed Hybrid CAM-CIM Architecture 84 6.2 Details of CAM Architecture 85 6.3 Details of CIM Architecture 90 6.4 Experimental Results 93 6.5 Hardware Evaluation 95 VII. Conclusion 97 References 99 |
- |
| dc.format.extent | 106 | - |
| dc.language | eng | - |
| dc.publisher | DGIST | - |
| dc.title | An Energy-scalable and Low-power Inference Hardware for Deep Learning | - |
| dc.title.alternative | 딥 러닝을 위한 에너지 확장형 저전력 추론 하드웨어 | - |
| dc.type | Thesis | - |
| dc.identifier.doi | 10.22677/THESIS.200000844622 | - |
| dc.description.degree | Doctor | - |
| dc.contributor.department | Department of Electrical Engineering and Computer Science | - |
| dc.identifier.bibliographicCitation | Sangwoo Jung. (2025). An Energy-scalable and Low-power Inference Hardware for Deep Learning. doi: 10.22677/THESIS.200000844622 | - |
| dc.contributor.coadvisor | Jong-Hyeok Yoon | - |
| dc.date.awarded | 2025-02-01 | - |
| dc.publisher.location | Daegu | - |
| dc.description.database | dCollection | - |
| dc.citation | XT.ID 정52 202502 | - |
| dc.date.accepted | 2025-01-20 | - |
| dc.contributor.alternativeDepartment | 전기전자컴퓨터공학과 | - |
| dc.subject.keyword | Convolutional Neural Network, Processing-In-Memory, Energy-Scalability, SW-HW Co-Optimization | - |
| dc.contributor.affiliatedAuthor | Sangwoo Jung | - |
| dc.contributor.affiliatedAuthor | Gain Kim | - |
| dc.contributor.affiliatedAuthor | Jong-Hyeok Yoon | - |
| dc.contributor.alternativeName | 정상우 | - |
| dc.contributor.alternativeName | Gain Kim | - |
| dc.contributor.alternativeName | 윤종혁 | - |