RL1 RLeran [1/3] ( ^∇^)✎..... Intro 강화학습(Reinforcement Learning)의 기본 아이디어는 "일단 해보자"는 것이다. 그리고 강화학습의 목표는 "Maximize Reward"이다. 이 아이디어와 목표가 합쳐지면? 일단 해보면서, 더 많은 보상을 받을 수 있는 답을 찾아내는 것이 된다. 위 그림은 강화학습의 과정에서 발생하는 에피소드의 흐름을 나타내고 있다. 가장 큰 그림을 보면, 이 햄토리는 관찰의 결과에 따라 환경을 조작하는 행동을 하고 있다. 조금 더 자세히 들여다보면, 이 관찰과 행동을 하기 위해서는 어떤 상태에서 어떻게 행동해야 더 많은 보상을 받고 더 적은 패널티을 받을 수 있는지를 아는 판단력이 필요하다는 것을 알 수 있다. 여기서 "관찰과 행동"이라는 그 과정을 반복하면 행동에 .. 2022. 12. 23. 이전 1 다음