분류 전체보기246 [Reinforcement Learning] Rethinking Policy Gradient 이번 포스팅에서는 policy gradient와 MLE추정을 비교해보면서 그 의미를 살펴보겠습니다. 2021.10.30 - [Data & Research] - [Statistics] 선형 회귀분석 (Simple Linear regression) 1. 최대가능도 추정 (Maximum Likelihood Estimation) - "맹목적인 모방"만약 우리에게 '전문가'가 수행한 아주 좋은 궤적 \(\tau = (s_0, a_0, r_1, \dots)\)가 주어졌다고 가정해봅시다. MLE의 목표는 우리 정책 \(\pi_\theta\)가 이 전문가의 궤적을 그대로 따라 할 확률을 최대로 만드는 파라미터 \(\theta\)를 찾는 것입니다. 이는 궤적의 로그 가능도(log-likelihood), 즉 \(\log .. 2025. 6. 28. [Reinforcement Learning] REINFORCE Policy 기반 알고리즘의 일반론에 대해서 알아봤으니 구체적 방법론들을 알아보겠습니다. 지난번 포스팅에서 유도한대로 정책경사관점에서의 목적함수의 미분값은\[\nabla_{\theta} J(\theta) = \mathbb{E}_{\pi} \left[ \nabla_{\theta} \log \pi_{\theta}(A_t|S_t) Q^{\pi}(S_t, A_t) \right]\]입니다. 이 식에는 여전히 행동가치함수가 담겨있죠. REINFORCE 알고리즘에서는 이것을 샘플링기반의 MC방식으로 접근합니다. 몬테카를로 방법을 사용하기 때문에 'Monte Carlo Policy Gradient'라고도 불립니다. \(Q^{\pi}(S_t, A_t)\)는 그 정의를 풀어헤쳐보면 상태 \(S_t\)에서 행동 \(A_t\.. 2025. 6. 27. [Reinforcement Learning] Policy Gradient Policy Gradient Theorem정책 기반 강화학습의 핵심은 정책을 직접 파라미터 \(\theta\)로 표현하고, 보상의 기댓값을 최대로 만드는 \(\theta\)를 찾는 것입니다. 정책 경사도 정리(Policy Gradient Theorem)는 이 과정의 수학적 근간을 제공합니다. 이 정리를 한 번 유도해볼까요? 목적 함수 \(J(\theta)\)는 \(V^{\pi_{\theta}}(s_0)\)로 정의할 수 있습니다. 우리가 구해야 할 것은 이 목적 함수의 미분값, \(\nabla_{\theta} J(\theta)\) 입니다.\[ J(\theta) = V^{\pi_{\theta}}(s_0) \implies \nabla_{\theta} J(\theta) = \nabla_{\theta} V^{\p.. 2025. 6. 25. [Reinforcement Learning] 가치기반 강화학습 vs. 정책기반 강화학습 가치 기반 vs. 정책 기반 강화학습강화학습에서 최적 정책을 찾는 접근법은 크게 '가치 기반(Value-Based)' 학습과 '정책 기반(Policy-Based)' 학습으로 나뉩니다. 두 방법은 목표는 같지만, 목표에 도달하는 방식과 철학에 근본적인 차이가 있습니다. 1. 가치 기반 강화학습 (Value-Based Reinforcement Learning)가치 기반 학습의 목표는 최적 행동 가치 함수 \(Q^*(s, a)\)를 정확하게 추정하는 것입니다. 행동 가치 함수는 특정 상태에서 특정 행동을 했을 때 미래에 받을 총 보상의 기댓값, 즉 '행동의 가치'를 의미합니다.정책(Policy): 가치 기반 학습은 정책을 직접적으로 학습하지 않습니다. 대신, 추정된 Q함수에 기반한 암시적인(implicit) .. 2025. 6. 24. [Reinforcement Learning] Q-learning (Off-policy TD Control) 1. Q-learning의 핵심 아이디어Q-learning은 벨만 최적 방정식의 샘플 기반 버전이라고 보면 됩니다(참고로 SARSA같은 경우에는 벨만 기대 방정식을 기반으로했고 때문에 정책이 기댓값 계산에 영향을 받았습니다). "궁극적으로 최적 정책은 환경에 의존적인 것이고 환경을 충분히 잘 탐험한다면 최적 정책을 찾을 수 있다. 그리고 환경을 탐험하는데 동원되는 정책은 무엇이든 상관없다." 의 컨셉입니다. 먼저, 벨만 최적 방정식을 기댓값 형태로 다시 표현해 보겠습니다.\[ Q^*(s,a) = \mathbb{E}_{s' \sim P} \left[ R_s^a + \gamma \max_{a'} Q^*(s',a') \right] \]이 식의 기댓값 \(\mathbb{E}_{s' \sim P}[\dots]\.. 2025. 6. 23. [Reinforcement Learning] Off-policy Learning 이전 포스팅에서 알아본 On-policy learning은 직관적이지만 때로는 비효율적이거나 적용하기 어려운 경우가 있습니다. 이런 경우 Off-policy learning을 고려하게 되는데요 1. Off-policy의 필요성1) 탐색과 활용의 분리 (데이터 효율성 증대)최적의 정책을 찾기 위해서는 충분한 탐색(Exploration)이 필수적입니다. 하지만 우리가 궁극적으로 배우고 싶은 '최적 정책'은 탐색 없이 가장 좋은 길만 가는 탐욕적 정책(Greedy Policy)입니다. Off-Policy는 이 문제를 해결합니다. 행동 정책(\(\mu\))은 ε-Greedy 처럼 자유롭게 탐색을 하며 데이터를 모으고, 이 데이터를 바탕으로 타겟 정책(\(\pi\))인 순수한 탐욕적 정책의 가치를 학습할 수 있습.. 2025. 6. 22. 이전 1 2 3 4 ··· 41 다음