Cited time in webofscience Cited time in scopus

Minimum Time Circuit Driving RC Car with Reinforcement Learning

Title
Minimum Time Circuit Driving RC Car with Reinforcement Learning
Author(s)
Minhyeok Kwon
DGIST Authors
Minhyeok KwonYongsoon EunSehoon Oh
Advisor
은용순
Co-Advisor(s)
Sehoon Oh
Issued Date
2023
Awarded Date
2023-02-01
Type
Thesis
Description
Reinforcement learning, Minimum time driving, Autonomous driving, Path planning, Tire slip model
Abstract
This thesis focuses on designing vehicle controllers that can be used in racing races. Due to the recent Fourth Industrial Revolution's influence, much research is being conducted in the field of autonomous driving, but most research assumes road driving conditions, so throttle and steering control input cannot be increased. However, the throttle and steering control input is needed to be increased for designing a controller for racing. The objective of the car race is to complete one lap around a predefined track within the minimum time. In other words, this thesis focuses on driving the car on the circuit in one lap in the shortest time. For this purpose, the vehicle's velocity should be increased; if the velocity is increased, various problems, such as the vehicle slipping, will occur.
Furthermore, these problems are hard to predict in real-time. Reinforcement Learning (RL) is one of the desirable methods for designing controllers in unpredictable situations. Therefore, with an RC scale car, we use RL to find a controller that can make the car complete one lap on the track in the least time.

To apply reinforcement learning to this problem, we first set up a Reinforcement Learning (RL) environment. The RL environment should be defined with observations, action values, compensation functions, and episodes and designed so that they are fit for purpose. Before designing these, we defined a track coordinate system that reflects the relationship between the vehicle and the track. Furthermore, we designed the observed and behavioral values based on the coordinate. Specifically, the action value is the reference value of the velocity, which is expressed in the track coordinate system. The reward function and episodes are designed to reflect the goal of completing one lap as fast as possible without colliding with the track boundary. This thesis sets two RL environments: a simulation environment and an experimental one. The simulation environment was implemented on a computer simulation using vehicle dynamics, and the experimental environment was written and implemented with the VICON Motion Tracker using a 1\slash27 scale RC car.

The experiments are conducted based on these environments, and the experiments are divided into two processes: training and testing. The training process is conducted only in the simulated environment. After that, an RL agent is obtained, and the test process is conducted in both the simulation and the experimental environment. As a result, the trained controller performed well in both environments. This controller was trained only in a virtual environment, so it performed very well.; \noindent 본 학위논문은 레이싱 경주에 쓸 수 있는 차량 제어기를 설계하는 것에 관심을 가진다. 최근 4차 산업 혁명의 영향으로 자율 주행 분야에서 많은 연구들이 진행되고 있지만 대부분의 연구가 도로 주행 상황을 가정하고 이루어지기 때문에 속도나 조향 제어를 크게 할 수 없다. 하지만 레이싱 경주에 쓸 제어기를 설계하는 것이면 속도나 조향 제어를 보다 크게 해야 한다. 레이싱 경주의 목적이 정해진 트랙을 최소 시간 내에 한 바퀴를 도는 것이다. 다른 말로 하면 이 연구는 최소 시간에 서킷을 한 바퀴 주행하는 것에 관심을 가지고 있다는 의미이다. 이를 위해서는 차량의 속도를 빠르게 해야 하고, 속도를 빠르게 하면 차량이 미끄러지는 등의 여러 문제들이 발생하게 된다. 그리고 이런 문제들은 실시간으로 예측하기 힘들다. 예측하기 힘든 상황에서 제어기를 설계하는 유용한 방법 중에 강화학습이 있다. 따라서 RC 스케일 차를 이용하여 트랙 위에서 최소 시간 내에 한 바퀴를 주파하도록 하는 제어기를 강화학습을 이용해서 찾고자 한다.

이 문제에 강화학습을 적용하기 위해서는 먼저 강화학습 환경이 설정되어 있어야 한다. 그리고 강화학습 환경은 관측 값, 행동 값, 보상함수, 에피소드 등이 정의되어 있어야 하고, 이들이 그 목적에 부합하도록 설계되어야 한다. 이들을 설계하기 전 차량과 트랙의 관계를 나타내는 트랙 좌표계를 만들었고, 이들을 기반으로 관측 값, 행동 값을 설계하였다. 특히 행동 값은 속도의 참조 값을 출력으로 내보내는데 이 참조 값이 트랙 좌표계로 나타낸 참조 값이다. 그리고 보상함수와 에피소드는 벽에 충돌하지 않고 최대한 빨리 한 바퀴를 완주하는 목표가 잘 반영되게 설계하였다. 본 학위논문은 강화학습 환경을 시뮬레이션 환경과 실험 환경 두 개로 나누었다. 시뮬레이션 환경은 차량 동역학을 이용해 컴퓨터 시뮬레이션 상에서 구현하였고, 실험 환경은 1\slash27 스케일의 RC 카를 이용해 VICON Motion Tracker와 함께 쓰면서 구현하였다.

이 환경들을 기반으로 실험을 했고, 실험은 훈련과 테스트 총 2가지의 과정으로 나누었다. 훈련 과정은 시뮬레이션 환경에서만 진행하였다. 그 이후 강화학습 에이전트를 얻어낸 다음 시뮬레이션 환경과 실험 환경에서 테스트를 진행하였다. 결과적으로 훈련된 제어기는 두 환경 모두에서 좋은 성능을 보여주었다. 이 제어기가 가상환경에서만 훈련되었던 것을 감안한다면 아주 좋은 성능을 보여줬다고 말할 수 있다.
Table Of Contents
1. Introduction 1
1.1. Background 1
1.2. Motivation 2
1.3. Related Works 2
1.4. Contribution 3
1.5. Thesis Outline 4
2. Preliminary 5
2.1. Reinforcement Learning 5
3. Reinforcement Learning Environment 9
3.1. Simulation Environment 9
3.1.1. Dynamics 9
3.1.2. Simulation Configuration 11
3.2. Physical Environment 12
3.2.1. Implementation 12
3.2.2. Observation and Anction 12
4. Hierarchical Controller 17
4.1. Hierarchical Controller 17
4.1.1. High-level Controller 18
4.1.2. Low-level Controller 19
4.2. Coordinate 22
4.3. Distance Measurement 24
4.4. Track Design 26
5. Reward and Episode Design 27
5.1. Episode Termination 27
5.2. Reward Function 28
5.3. Episode Initialization 30
5.4. Position Initialization 32
6. Experiment 35
6.1. Experiment Setting 35
6.1.1. System Configuration 35
6.1.2. Training and Testing 35
6.1.3. Network Structure 37
6.2. Result 38
6.3. Lateral Controller Modification 40
7. Conclusion 47
URI
http://hdl.handle.net/20.500.11750/45747

http://dgist.dcollection.net/common/orgView/200000652238
DOI
10.22677/THESIS.200000652238
Degree
Master
Department
Department of Electrical Engineering and Computer Science
Publisher
DGIST
Related Researcher
  • 은용순 Eun, Yongsoon
  • Research Interests Resilient control systems; Control systems with nonlinear sensors and actuators; Quasi-linear control systems; Intelligent transportation systems; Networked control systems
Files in This Item:

There are no files associated with this item.

Appears in Collections:
Department of Electrical Engineering and Computer Science Theses Master

qrcode

  • twitter
  • facebook
  • mendeley

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE