Cited time in webofscience Cited time in scopus

Full metadata record

DC Field Value Language
dc.contributor.advisor Kim, Min Soo -
dc.contributor.author Han, Dong Hyoung -
dc.date.accessioned 2017-05-10T08:53:04Z -
dc.date.available 2016-02-12T00:00:00Z -
dc.date.issued 2016 -
dc.identifier.uri http://dgist.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000002229871 en_US
dc.identifier.uri http://hdl.handle.net/20.500.11750/1474 -
dc.description.abstract The size of scientific data has been increasing rapidly in a variety of do-mains. The scientific data is represented as array data and is managed by a diverse scientific data format such as HDF, NetCDF and MDSplus. Even though the existing array DBMSs such as SciDB and RasDaMan manage array data, there are challenges in loading data into the array DBMS. The data loading process of the distributed array DBMS incurs the significant overheads since the inefficient four transformation steps of file format incur the expensive disk I/O.
In this paper, we propose a distributed in-situ analysis method DISCAN that can process a scientific query efficiently and directly over raw scientific array data in distributed array DBMSs. Our approach eliminates unnecessary write opera-tions during the data loading and processes only the data required in query. Our in-situ processing consists of two phases, HDF merger and DISCAN. HDF merger is responsible for managing raw scientific data in order to distribute the scientific data to nodes. DISCAN is composed of Local Map that transforms the raw scientific data into the internal data representation of DBMS and Global Map that replaces the transformed data according to a partitioning policy of the DBMS. DISCAN reads only the data required during query processing using the well-defined scientific data format libraries. We evaluate the performance of DISCAN across real-world scien-tific dataset. Experimental results show that DISCAN outperforms the processing query after data loading of the distributed array DBMS by up to more than 60 times. ⓒ 2016 DGIST
-
dc.description.tableofcontents 1. INTRODUCTION 1--
2. PRELIMINARIES 6--
2.1 Array DBMS 6--
2.2 Data loading 9--
3. RELATED WORK 12--
4. DISCAN 17--
4.1 In-situ processing 17--
4.2 Modification of a query plan 23--
4.3 Distributed in-situ scan operator 27--
5. PERFORMANCE EVALUATION 31--
6. CONCLUSIONS 40--
7. REFERENCES 41
-
dc.format.extent 43 -
dc.language eng -
dc.publisher DGIST -
dc.subject In-situ processing -
dc.subject data loading -
dc.subject array DBMS -
dc.subject scientific data format -
dc.subject 데이터 로딩 -
dc.subject 과학 기술 데이터 -
dc.subject 분산 환경 시스템. In-situ 분석방법 -
dc.subject array 데이터베이스 -
dc.title A Distributed In-situ Analysis Method for Large-scale Scientfic Data -
dc.title.alternative 분산 환경 기반 시스템에서 과학 기술 빅데이터 in-situ 분석 방법 -
dc.type Thesis -
dc.identifier.doi 10.22677/thesis.2229871 -
dc.description.alternativeAbstract 최근 과학 기술 데이터에 대한 분석 수요가 크게 증가하면서 SciDB 와 같은 array DBMS 들이 널리 사용되기 시작했지만, 이들 시스템들은 데이터 로딩의 오버헤드가 매우 크고 로딩을 완전히 끝내기 전에는 데이터 분석을 할 수 없다는 문제점을 가지고 있다. 데이터를 DBMS 에 로딩하지 않고 RAW 데이터에 대해 in-situ 분석방식을 적용한다면 과학 기술 데이터의 분석의 속도와 편의성을 크게 향상 시킬 수 있다.
본 논문은 분산 환경 기반의 과학 기술 데이터에 대한 in-situ 분석 방법을 thestate-of-the-art distributed array DBMS 에 적용하는 방법을 다룬다. In-situ 분석방법을 적용하기 위해 HDF merger 와 in-situ scan operator 인 DISCAN 을 구현한다. HDF merger 는 다수의 RAW 파일들을 SciDB 의 instance 에서 disk I/O 성능을 최대한 활용하기 위해 instance 당 하나의 파일로 병합하다. DISCAN 은 SciDB 에서 질의를 분석 시 동작하는 것으로 로컬에서 RAW 파일의 데이터를 SciDB 내부 자료 구조로 변환하는 Local Map 과 instance 들간에 chunk 들을 재배치하는 Global Map 으로 구성된다.
DISCAN 은 질의에 따라 데이터 로딩 후 질의처리 하는 것에 비해 최대 6123% 성능을 개선한다. 또한, 대한민국 근해 적조 탐색을 위한 실제 질의에 대해서도 모든 데이터 셋을 로딩하지 않아도 되며 부분적인 데이터 접근을 통해 75 배 이상의 성능을 개선한다. ⓒ 2016 DGIST
-
dc.description.degree Master -
dc.contributor.department Information and Communication Engineering -
dc.contributor.coadvisor Kang, Won Seok -
dc.contributor.coadvisor Choi, Jihwan P. -
dc.date.awarded 2016. 2 -
dc.publisher.location Daegu -
dc.description.database dCollection -
dc.date.accepted 2016-02-12 -
dc.contributor.alternativeDepartment 대학원 정보통신융합공학전공 -
dc.contributor.affiliatedAuthor Han, Dong Hyoung -
dc.contributor.affiliatedAuthor Kim, Min Soo -
dc.contributor.affiliatedAuthor Kang, Won Seok -
dc.contributor.affiliatedAuthor Choi, Jihwan P. -
dc.contributor.alternativeName 한동형 -
dc.contributor.alternativeName 김민수 -
dc.contributor.alternativeName 강원석 -
dc.contributor.alternativeName 최지환 -
Files in This Item:
000002229871.pdf

000002229871.pdf

기타 데이터 / 1.58 MB / Adobe PDF download
Appears in Collections:
Department of Electrical Engineering and Computer Science Theses Master

qrcode

  • twitter
  • facebook
  • mendeley

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE