Policy Gradient3 [Reinforcement Learning] Rethinking Policy Gradient 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이번 포스팅에서는 policy gradient와 MLE추정을 비교해보면서 그 의미를 살펴보겠습니다. 2021.10.30 - [Data & Research] - [Statistics] 선형 회귀분석 (Simple Linear regression) 1. 최대가능도 추정 (Maximum Likelihood Estimation) - "맹목적인 모방"만약 우리에게 '전문가'가 수행한 아주 좋은 궤적 \(\tau = (s_0, a_0, r_1, \dots)\)가 주어졌다고 가정해봅시다. MLE의 목표는 우리 정책 \(\pi_\theta\)가 이 전문가의 궤적을 그대로 따라 할 확률을.. 2025. 6. 28. [Reinforcement Learning] REINFORCE 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of ContentsPolicy 기반 알고리즘의 일반론에 대해서 알아봤으니 구체적 방법론들을 알아보겠습니다. 지난번 포스팅에서 유도한대로 정책경사관점에서의 목적함수의 미분값은\[\nabla_{\theta} J(\theta) = \mathbb{E}_{\pi} \left[ \nabla_{\theta} \log \pi_{\theta}(A_t|S_t) Q^{\pi}(S_t, A_t) \right]\]입니다. 이 식에는 여전히 행동가치함수가 담겨있죠. REINFORCE 알고리즘에서는 이것을 샘플링기반의 MC방식으로 접근합니다. 몬테카를로 방법을 사용하기 때문에 'Monte Carlo Policy Gr.. 2025. 6. 27. [Reinforcement Learning] Policy Gradient 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of ContentsPolicy Gradient Theorem정책 기반 강화학습의 핵심은 정책을 직접 파라미터 \(\theta\)로 표현하고, 보상의 기댓값을 최대로 만드는 \(\theta\)를 찾는 것입니다. 정책 경사도 정리(Policy Gradient Theorem)는 이 과정의 수학적 근간을 제공합니다. 이 정리를 한 번 유도해볼까요? 목적 함수 \(J(\theta)\)는 \(V^{\pi_{\theta}}(s_0)\)로 정의할 수 있습니다. 우리가 구해야 할 것은 이 목적 함수의 미분값, \(\nabla_{\theta} J(\theta)\) 입니다.\[ J(\theta) = V^{\p.. 2025. 6. 25. 이전 1 다음