Analysis of behavior variation according to the reward engineering in reinforcement learning.
Issued Date
2020-12-22
Citation
손종욱. (2020-12-22). 강화 학습에서 보상 함수 변화에 따른 동작의 다양성 분석. 2020 한국소프트웨어종합학술대회 (KSC 2020), 733–735.
Type
Conference Paper
Abstract
시뮬레이션 환경에서 학습된 에이전트를 실제 환경에 적용하는 경우 두 환경의 차이에 의해 여러 가지 성능 저하 문제가 발생한다 이를 해결하기 위한 여러 가지 해결책 중에서 본 논문에서는 . domain randomization 기법을 활용하여 에피소드 마다 에이전트의 물리적 성능을 일정 범위에서 무작위로 선택하여 학습시킴으로써 실제 환경에서 하드웨어 성능 오차가 발생하더라도 정상적으로 동작할 수 있는 에이전트를 학습하는 방법을 제시하고 이를 실험하여 결과를 분석한다.