Cited time in webofscience Cited time in scopus

Full metadata record

DC Field Value Language
dc.contributor.advisor Kim, Min Soo -
dc.contributor.author An, Kyu Hyeon -
dc.date.accessioned 2017-05-10T08:53:43Z -
dc.date.available 2017-01-18T00:00:00Z -
dc.date.issued 2017 -
dc.identifier.uri http://dgist.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000002324205 en_US
dc.identifier.uri http://hdl.handle.net/20.500.11750/1504 -
dc.description.abstract The one of characteristics is simpeness of structure that provides facile data analysis. The importance of graph processing is growing due to that. However the handling on large-scale graph using existing methods becomes harder due to the increase of data size. The distributed graph system requires a lot of machine for scalability. However network overhead increases linearly and is larger than processing time. Meanwhile GPU is used as coprocessor for handling graph data via thousands of GPU cores. However all of existing methods using GPU fail to process large-scale graphs due to lack of main memory.
In this paper, we propose the method GStream 2.0 that handles large-scale graphs which is larger than main memory using a single machine. Proposed method is streaming the graph data from secondary storage to GPU memory and launches graph algorithm on GPU device. Through streaming graph data via slotted page format which is partitioning graph data with fixed size, proposed method handles large-scale graph which is larger than GPU device memory. Performance is improved by avoiding intermediate data transfer and proposed method is using the array for result of algorithm which is sorted in GPU device memory. For supporting graph algorithm based on edge attribute, we extend slotted page format. Finally, we propose the extended model for 2-hop neighborhood algorithm.
Through experiments, we show that GStream 2.0 significantly outperforms the major methods and the state-of-the-art methods. ⓒ 2017 DGIST
-
dc.description.tableofcontents Ⅰ. INTRODUCTION 1--
Ⅱ. PRELIMINARIES 5--
Ⅲ. MAIN CONCEPT OF GSTREAM 2.0 7--
3.1 Main concept of GStream 2.0 7--
3.2 Asynchronous multiple streaming 9--
3.3 Major types of graph algorithms 11--
3.4 Algorithm of the framework 12--
Ⅳ. THE STRATEGY OF GSTREAM 2.0 16--
4.1 Strategy for performance 16--
4.2 Strategy for scalability 18--
Ⅴ. EXTENDED SLOTTED PAGE FORMAT 21--
5.1 Extended slotted page format for trillion-scale graph 21--
5.2 Extended slotted page format for edge attributes 22--
Ⅵ. EXTENDED PROCESSING MODEL OF GSTREAM 2.0 24--
Ⅶ. EXPERIMENTAL EVALUATION 26--
7.1 Experimental setup 26--
7.2 Comparison with Distributed Methods 29--
7.3 Comparison with CPU-based Methods 29--
7.4 Comparison with GPU-based Methods 31--
7.5 Characteristics of GStream 2.0 33--
7.6 Additional graph algorithms 35--
7.7 Experiment for edge attribute 36--
Ⅷ. CONCLUSION 37
-
dc.format.extent 41 -
dc.language eng -
dc.publisher DGIST -
dc.subject Graph processing -
dc.subject GPUs -
dc.subject SSDs -
dc.subject Stream -
dc.subject Parallel programming -
dc.subject 그래프 처리 -
dc.subject 병렬 프로그래밍 -
dc.title A large-scale graph processing method for multi-at-tribute graphs using GPUs and SSDs -
dc.title.alternative 복수 개의 GPU와 SSD를 이용한 대규모의 다중 속성 그래프 처리 방법 -
dc.type Thesis -
dc.identifier.doi 10.22677/thesis.2324205 -
dc.description.alternativeAbstract 그래프 데이터의 특성 중의 하나인 구조의 간단함 때문에 데이터 분석을 쉽게 처리할 수 있어, 그래프 데이터 처리의 중요성이 커지고 있다. 하지만 그래프 데이터의 사이즈가 증가함에 따라 기존 방법들의 큰 규모의 그래프 처리는 점점 힘들어지고 있다. 분산 그래프 시스템은 확장성을 위해 많은 컴퓨터가 필요하지만 그에 비례해 네트워크 오버헤드가 그래프 처리 시간을 능가하게 된다. 이와 별도로 많은 계산 장치를 가진 GPU를 그래프 처리를 위한 보조처리장치로 사용하는 방법들이 제안 되었다. 하지만 이전에 제안된 GPU를 이용한 방법들은 메인 메모리의 부족으로 인해 큰 규모의 그래프 처리가 불가능했다.
본 논문에서 제안 된 GStream 2.0은 한대의 머신에서 메인 메모리보다 큰 규모의 그래프를 처리할 수 있다. 제안된 방법은 보조기억장치에 저장된 그래프 데이터를 GPU 메모리로 스트리밍 하고, GPU 장치를 이용해 그래프 알고리즘을 실행한다. 그래프 데이터를 고정된 크기의 Page로 나누는 Slotted Page Format을 사용하여 스트리밍 하기에 GPU 메모리 보다 큰 그래프를 처리 할 수 있다. 연산의 결과를 저장하는 배열을 GPU 메모리에서 관리하는 하여 기존의 분산 방법들에서 성능 저하의 원인이 된 중간 데이터 교환을 없애 성능을 향상시킨다. 간선의 속성을 추가하도록 데이터 구조를 확장하여 간선의 속성을 사용하는 그래프 알고리즘을 지원한다. 또한, 인접 노드들의 인접 노드들이 필요한 알고리즘에 대해서도 지원하도록 확장하였다.
실험을 통해 GStream 2.0은 다른 주류 방법과 최신 방법들을 비교하였다. 다른 방법들 보다 성능이 뛰어남을 보였고, 다른 방법들이 지원하지 못하는 크기의 데이터도 처리함을 보여주었다. ⓒ 2017 DGIST
-
dc.description.degree Master -
dc.contributor.department Information and Communication Engineering -
dc.contributor.coadvisor Hwang, Dae Hee -
dc.date.awarded 2017. 2 -
dc.publisher.location Daegu -
dc.description.database dCollection -
dc.date.accepted 2017-01-18 -
dc.contributor.alternativeDepartment 대학원 정보통신융합공학전공 -
dc.contributor.affiliatedAuthor An, Kyu Hyeon -
dc.contributor.affiliatedAuthor Kim, Min Soo -
dc.contributor.affiliatedAuthor Hwang, Dae Hee -
dc.contributor.alternativeName 안규현 -
dc.contributor.alternativeName 김민수 -
dc.contributor.alternativeName 황대희 -
Files in This Item:
000002324205.pdf

000002324205.pdf

기타 데이터 / 1.31 MB / Adobe PDF download
Appears in Collections:
Department of Electrical Engineering and Computer Science Theses Master

qrcode

  • twitter
  • facebook
  • mendeley

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE