MDP1 [Reinforcement Learning] Dynamic Programming의 풀이 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents1. Bellman Optimality Equation환경에 대한 정보(\(P\), \(R\))가 주어졌을 때 MDP문제를 풀기위해서는 dynamic programming을 이용하여 풀이할 수 있다고 했습니다. 최적 상태가치 함수와 최적 행동가치 함수를 아래와 같이 쓸 수 있다고 해봅시다. 최적 상태가치 함수 : 상태 s에서 시작했을 때, 앞으로 얻을 수 있는 보상의 기댓값 중 가장 큰 값입니다. 즉, 가능한 모든 정책 중에서 상태 s를 가장 가치있게 만드는 정책을 따랐을 때의 가치입니다.$$ V^*(s) = \max_{\pi} V_{\pi}(s) $$그런데 이 값은 현재.. 2025. 6. 11. 이전 1 다음 반응형