Baseline1 [Reinforcement Learning] REINFORCE 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of ContentsPolicy 기반 알고리즘의 일반론에 대해서 알아봤으니 구체적 방법론들을 알아보겠습니다. 지난번 포스팅에서 유도한대로 정책경사관점에서의 목적함수의 미분값은\[\nabla_{\theta} J(\theta) = \mathbb{E}_{\pi} \left[ \nabla_{\theta} \log \pi_{\theta}(A_t|S_t) Q^{\pi}(S_t, A_t) \right]\]입니다. 이 식에는 여전히 행동가치함수가 담겨있죠. REINFORCE 알고리즘에서는 이것을 샘플링기반의 MC방식으로 접근합니다. 몬테카를로 방법을 사용하기 때문에 'Monte Carlo Policy Gr.. 2025. 6. 27. 이전 1 다음 반응형