[강화학습]모두를 위한 RL - 1

less than 1 minute read

Reinforcement Learning은 크게 두 가지로 나누어진다

environment
- environment 에서 살아가는 Actor가 있다

기본적으로 Reinforcement Learning의 세팅은 Actor가 환경속에서 행동을 하게 된다. 액터가 행동하면 환경속에서 상태가 변경 됨. 우리가 이 환경을 관찰하는 정보가 달라지는데 이거를 observation 또는 State라고 한다. 이 행동의 끝에는 운이 좋다면 reward(치즈)를 받게 된다.

RL을 사용해서 픽셀의 정보만 입력받는다. 학습의 결과로 왼쪽, 오른쪽으로 움직일까를 학습을 통해 배우게 된다. 이 하나의 알고리즘을 통해 50여개의 게임에 적용을 해보았더니 절반 이상의 게임들을 잘하는 게이머들보다 잘한다.

RL 적용분야

Junsu Park

[강화학습]모두를 위한 RL - 1

You may also enjoy

생성모델

조건부 확률

loss함수와 crossentropy

[Pytorch] gather()