1. 강화학습으로 풀 수 있는 문제Markov Model로 추상화된 환경에서 Prediction과 Control 문제를 풀 수 있다. Prediction이란 Model based 또는 Planning라고 불리며, 여러 번의 시뮬레이션을 통해 해당 State의 가치를 계산하는 것이다. Control은 Reward를 최고로 하는 최고의 policy를 찾는 것이다.Policy: State에서 어떤 Action을 취할지에 관한 확률 분포 함수(PDF)이다.State: Markov Model에서 노드로 추상화된 상태이다.Action: State에서 다른 노드로 이동하기 위해 할 수 있는 행동들의 집합이다.즉, State에서 Policy를 보고 어떤 Action을 할 확률을 알 수 있다.위 그림을 예시로 들면Pre..