Detail View
Energy-Efficient Accelerator Design for Lightweight Deep Learning Workloads
WEB OF SCIENCE
SCOPUS
- Title
- Energy-Efficient Accelerator Design for Lightweight Deep Learning Workloads
- Alternative Title
- 경량 딥러닝 워크로드를 위한 에너지 효율적인 가속기 설계
- DGIST Authors
- Seock-Hwan Noh ; Yeseong Kim ; Jaeha Kung
- Advisor
- 김예성
- Co-Advisor(s)
- Jaeha Kung
- Issued Date
- 2025
- Awarded Date
- 2025-08-01
- Type
- Thesis
- Description
- AI Accelerator, Precision-Scalable Multiplier, Scalable MAC Array, Flexible Network-On-Chip, High resource Utilization, Sparsity, Quantization, Convolutional Neural Network (CNN), Natural Language Processing (NLP), Large Language Model (LLM), Neural Scene Rendering (NeRF)
- Abstract
-
“More data, more compute, better performance.” This concise phrase aptly captures the trajectory of modern AI development. Although today’s AI algorithms deliver high performance across a wide range of applications, they do so at the cost of enormous computational demand. Each year, newly introduced high-performance AI models are designed around ever larger datasets and substantially larger compute budgets. Recent models incorporate massive matrix operations with hundreds of millions to trillions of parameters. Such computational loads lengthen processing times, increase memory traffic, and drive up power consumption, thereby escalating system-level operating costs. To mitigate these issues, software-level model-compression techniques, e.g., such as quantization and sparsity, have been actively explored. Yet, for these techniques to translate into real-world efficiency gains, a supporting hardware foundation is essential. Although modern GPUs support multiple precision modes and incorporate specialized cores such as Tensor Cores, they are primarily optimized for regular, dense computations. As a result, hardware inefficiencies and underutilization still arise when handling low-precision operations or workloads with irregular sparsity. Likewise, many recent AI accelerators are optimized for regular matrix operations in CNNs and Transformers, emphasizing fixed dataflows and structured sparsity, and therefore struggle to handle modern workloads that feature dynamic precision, unstructured sparsity, and diverse operation patterns. Addressing these limitations, this dissertation consolidates the hardware-circuit and architectural research performed during the my graduate studies. The work spans the entire hardware stack—from multiplier and MAC-unit circuit design, through compute-array organizations that optimize dataflow and resource utilization, to an AI accelerator architecture capable of flexibly supporting a wide range of precisions and sparsity patterns. The proposed designs achieve high resource utilization and demonstrate superior performance and energy efficiency on compressed AI models. The dissertation presents these hardware designs in the order of circuit, compute-array, and system-architecture levels, highlighting the structural characteristics and performance benefits of each tier.|“More data, more compute, better performance.” 이 간결한 문장은 오늘날 AI 발전의 방향을 잘 요약해 줍니다. 현재의 AI 알고리즘들은 다양한 응용 분야에 적용될 만큼 높은 성능을 보이고 있지만, 이는 막대한 연산량을 전제로 합니다. 나아가, 매년 새롭게 등장하는 고성능 AI 모델들은 이전보다 더 많은 데이터와 더 큰 연산 자원을 기반으로 설계되고 있습니다. 최근의 AI 모델들은 수억~수천억 개의 파라미터를 기반으로 하는 대규모 행렬 연산을 포함합니다. 이러한 연산부담은 긴 처리 시간으로 인해 AI 서비스의 응답시간을 증가시키고, 메모리 접근량 증가, 엄청난 전력 소비로 인한 시스템 운영 비용 등 여러 문제를 야기합니다. 이러한 문제를 해결하기 위해, 소프트웨어 측에서는 데이터 양자화(quantization), 연산 희소성(sparsity) 등을 활용한 모델 경량화 기법들이 활발히 연구되고 있습니다. 하지만 이러한 기법들이 실제 하드웨어 상에서 효율적인 실행으로 이어지기 위해서는, 이를 뒷받침할 수 있는 하드웨어 구조가 필수적입니다. 기존의 범용 하드웨어인 GPU는 다양한 정밀도 모드를 지원하지만, 고정된 연산 유닛 구조로 인해 저정밀도나 비정형 sparsity 기반 연산 수행 시 연산 자원의 활용률이 크게 저하되는 한계가 있습니다. 또한, 최근의 AI 가속기들은 CNN 및 Transformer와 같은 정형 행렬 연산에 최적화된 고정형 데이터플로우와 구조화된 sparsity를 주로 지원하기 때문에, 동적 정밀도, sparsity, 다양한 연산 패턴을 갖는 현대 AI 워크로드를 유연하게 처리하기 어렵습니다. 이러한 종래 가속기들의 한계점을 극복하고, 경량화된 AI 모델들이 갖는 정밀도 가변성과 연산 희소성을 효과적으로 활용하기 위해, 본 논문은 제가 대학원 생활 동안 수행한 다양한 하드웨어 회로 및 아키텍처 연구 결과들을 소개합니다. 곱셈기 및 MAC 유닛 수준의 회로 설계부터, 데이터플로우와 자원 활용 최적화를 위한 연산 배열 구조, 그리고 다양한 정밀도 및 sparsity 특성을 유연하게 처리할 수 있는 AI 가속기 아키텍처에 이르기까지, 하드웨어 스택 전반에 걸쳐 수행한 연구 내용을 정리하였습니다.
더보기
- Table Of Contents
-
List of Contents
Abstract 2
Acknowledgements 3
List of contents 4
List of tables 5
List of figures 8
1. Introduction 10
Acknowledgements 3
List of contents 4
List of tables 5
List of figures 8
2. All-Rounder: Area-Efficient Bit-Scalable Multiplier 13
3. Jack Unit: Multiply-Accumulate (MAC) Unit Supporting Diverse Data Format 22
4. FlexBlock: A Flexibl eDNN Training Accelerator with Multi-Mode Block Floating Point
Support· 33
5. FlexNeRFer: Neural Rendering Accelerator with A Multi-Dataflow, Adaptive Sparsity-Aware
Network-On-Chip 56
6. Conclusion 78
- URI
-
https://scholar.dgist.ac.kr/handle/20.500.11750/59794
http://dgist.dcollection.net/common/orgView/200000895772
- Degree
- Doctor
- Publisher
- DGIST
File Downloads
- There are no files associated with this item.
공유
Total Views & Downloads
???jsp.display-item.statistics.view???: , ???jsp.display-item.statistics.download???:
