기존의 머신러닝과 강화학습

Ma 74.***.82.238

데이터가 필요없다는말 – Training , Test 같은 기존 Supervised Learning에서 처럼 데이터를 feed 해줄 필요가 없다는말
하지만 MDP(Markov Decision process)에 대한 정보 즉, State와 Agent의 필요함.
Q-learning 같은경우 Reward도 정의 해야되고 간단한 게임에는 이게 쉬운데 자율주행차 처럼 복잡한 경우엔 머리 터짐