자세히는 잘 모릅니다만 Continuous Markov Decision Process일 경우에 정성적으로 설명하자면 reinforcement learning(저는 전통 전자과라서 제어 이론과 칼만 필터에 익숙함) 은 state space equation(x_{t+1} = Ax_t + Bu_t + n) 과 observation equation (z_t = Cx_t + w_t) 으로 나누어 지는데 초기 조건만 주어지면 state space equation과 observation equation에 따라서 움직이기 때문인 것 같습니다. 예를 들면 인공위성이 움직이는 궤적 같은 것이지요. 하지만 state space equation과 observation equation을 모를 때에는 A, B, C를 구해야 하기 때문에 이를 training set으로 구해야 한다고 알고 있습니다.
x