actor-critic algorithm1 [Reinforcement Learning] Actor-Critic Algorithm 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of ContentsActor-Critic은 정책 기반 방법의 높은 분산 문제를 해결하기 위해 탄생한, 정책 기반 학습과 가치 기반 학습을 결합한 하이브리드 알고리즘입니다. 1. Actor-Critic의 탄생 배경: REINFORCE의 한계정책 경사도(Policy Gradient)에 기반한 REINFORCE 알고리즘의 업데이트 규칙은 다음과 같았습니다.\[ \theta \leftarrow \theta + \alpha G_t \nabla_{\theta} \log \pi_{\theta}(A_t|S_t) \]이 식의 가장 큰 문제는, 업데이트의 크기와 방향을 결정하는 가중치로 몬테카를로 리턴 \(.. 2025. 6. 29. 이전 1 다음 반응형