Cited 0 time in webofscience Cited 0 time in scopus

학습 데이터의 분포 특성에 기초하여 학습 데이터를 생성하는 방법 및 장치

Title
학습 데이터의 분포 특성에 기초하여 학습 데이터를 생성하는 방법 및 장치
Translated Title
METHOD AND APPARATUS OF GENERATING TRAINING DATA BASED ON DISTRIBUTION CHARACTERISTICS OF TRAINING DATA
Country
KO
Application Date
2017-12-13
Application No.
10-2017-0171587
Registration Date
2021-05-03
Registration No.
10-2249818
Assignee
(재)대구경북과학기술원(100/100)
URI
http://hdl.handle.net/20.500.11750/13535
https://doi.org/10.8080/1020170171587 [KIPRIS]
Abstract
좋은 인공지능 분류기를 생성하기 위해서는, 인공지능 학습에 사용되는 학습 데이터의 품질, 개수, 학습 데이터간의 비율 등이 매우 중요하다. 특히 클래스간의 학습 데이터의 불균형이 발생할 경우, 상대적으로 적은 양의 학습 데이터로 학습한 클래스의 경우 성능이 저하되는 문제가 발생한다. 이를 해결하기 위하여, 부족한 학습 데이터의 개수를 오버샘플링(oversampling)하여 그 개수는 늘리는 방법을 많이 사용한다. 본인의 학습 데이터 정보만으로 오버샘플링하는 방법이 대표적인 방법이다. 그러나 분류기는 학습 데이터들 간의 상호 분포와 관련성이 매우 밀접한데, 이를 반영하지 못하는 단점이 있다. 이를 개선하기 위하여, 본인의 학습 데이터 및 다른 클래스의 학습 데이터 정보를 모두 사용하여 오버샘플링하는 방법이 있다. 그러나 주변에 본인의 학습 데이터와 다른 학습 데이터만 존재하거나, 또는 주변에 본인의 학습 데이터가 많이 존재할 경우에는 오버샘플링을 하지 않기 때문에, 데이터의 분포를 충분히 활용하지 못하는 단점이 있다. 특히 어떤 데이터는 조밀하게(dense) 존재할 수 있고, 또한 어떤 데이터는 듬성하게(sparse) 존재할 수도 있는데, 이러한 데이터 분포의 특성을 고려하면 분포의 특성상 좋은 학습 데이터로 활용될 수 있다. 또한 기존 방법에는 오버샘플링을 할 때, 각각의 학습 데이터에 대한 가중치가 없이 단순히 필요한 개수에 맞추어서 새로운 학습 데이터를 생성하였다. 그러나 각각의 학습 데이터의 특성 및 주변 상황을 분석하여 가중치를 주어, 중요한 학습 데이터에는 많은 새로운 학습 데이터가 생성되도록 할 필요가 있다.
Files:
There are no files associated with this item.
Collection:


qrcode mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE