Cited time in webofscience Cited time in scopus

A Simple Yet Effective Region-based Quantization on Convolutional Neural Networks

A Simple Yet Effective Region-based Quantization on Convolutional Neural Networks
Namho Kwon
DGIST Authors
Namho KwonJaeha KungSunghoon Im
Sunghoon Im
Issued Date
Awarded Date
Deep Learning, Convolutional Neural Networks, Region-based Quantization, Attention Mechanism
Deep Learning, Convolutional Neural Networks, Region-based Quantization, Attention Mechanism
As the trend of deep learning shifts from server-side to edge-device, many studies have been proposed to reduce memory footprints and computation cost to run existing validated models in these environments. Quantization has become a widely used technique in that models can be converted into low power/performance environments without redesigning existing network architecture or operation. We observed that most of the proposed quantization techniques do not sufficiently reflect information on domains such as objects or backgrounds in image. We devised a new quantization paradigm that additionally uses this domain information to eliminate unnecessary operations while maintaining the accuracy as much as possible compared to the existing methodologies.
In our paradigm, we install an additional branch module that allows model to distinguish between important / unimportant regions in the images at the beginning of the model, and in the subsequent quantization process, global importance criteria generated by branch is used to separate regions. Each region is assigned bit-precision according to its importance, and thus the important region is quantized at a high resolution and the unimportant region is quantized to low resolution. As a result, we were able to maintain a similar level of model accuracy by using more hardware-friendly method compared existing region-based quantization technique.|딥 러닝의 추세가 서버 기반에서 모바일 기기와 같은 말단 기기로 이동함에 따라, 이러한 환경에서 기존의 검증된 모델들을 실행할 수 있도록 메모리 소비량과 연산량을 절감하기 위한 많은 연구가 이루어지고 있다. 양자화는 기존의 네트워크 구조나 연산 방식을 재설계하지 않고도 저전력/저성능 환경으로 모델을 전환할 수 있다는 점에서 널리 사용되고 있다. 우리는 기존의 양자화 기법들의 대부분이 물체나 배경과 같은 이미지 정보를 사용하고 있지 않다는 것을 조사했다. 우리는 이러한 이미지 정보를 추가로 사용하여 기존 방식 대비 정확도를 유지하면서 불필요한 연산을 제거하는 새로운 양자화 패러다임을 고안했다.
제안한 패러다임에서는 모델의 시작 부분에 이미지 내의 중요한 영역과 그렇지 않은 영역을 구분할 수 있는 분기 모듈을 설치하고, 이어지는 양자화 과정에서는 분기 모듈에 의해 생성된 전역 마스크를 이용하여 특징 맵을 영역별로 분리한다. 중요한 영역은 고해상도로 양자화를 진행하여 물체를 구분할 수 있는 능력을 학습하고, 중요하지 않은 영역은 저해상도로 양자화를 진행하여 불필요한 연산을 최대한 감소시킨다. 그 결과, 기존 영역 기반 양자화 기법 대비 유사한 수준의 성능을 더욱 하드웨어 친화적인 방법을 사용하고도 달성할 수 있었다.
Table Of Contents
I. Introduction 1
II. Prior Works 4
2.1 Quantization in Deep Learning 4
2.2 Attention Mechanism 7
III. Module Designs 9
3.1 Global Silhouette with Auxiliary Network 9
IV. Experimental Evaluation 12
4.1 DRQ Analysis 13
4.2 Explore Channel Squeezing Operation 15
4.3 Compressor Algorithms 17
4.4 CIFAR10 Experiments 19
4.5 ImageNet Experiments 21
V. Conclusion 25
5.1 Summarize 25
5.2 Future Works 26
References 27
요약문 30
Information and Communication Engineering
Related Researcher
  • 궁재하 Kung, Jaeha 전기전자컴퓨터공학과
  • Research Interests 딥러닝; 가속하드웨어; 저전력 하드웨어; 고성능 시스템
Files in This Item:

There are no files associated with this item.

Appears in Collections:
Department of Electrical Engineering and Computer Science Theses Master


  • twitter
  • facebook
  • mendeley

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.