Off-policy3 [Reinforcement Learning] The Cliff Walking Problem 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이번 포스팅에서는 지난 포스팅에서 살펴봤던 대표적인 강화학습 알고리즘에 대해서 Gemini의 도움을 받아 만들어진 간단한 예시에서 어떤식으로 실제 코딩이 작동하는지 살펴보도록 하겠습니다. 1. '위험한 절벽' (The Cliff Walking Problem)모든 알고리즘을 테스트할 간단한 격자 환경(Grid World)을 설정하겠습니다.환경: 3x5 크기의 격자.상태(States): 15개의 상태 (0~14).시작점(S): 10번 칸 (좌측 하단)목표(G): 14번 칸 (우측 하단)절벽(Cliff): 11, 12, 13번 칸. 이곳에 빠지면 큰 음의 보상을 받고 시작점.. 2025. 7. 1. [Reinforcement Learning] Off-policy Gradient 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents1. On-Policy 학습의 한계On-Policy 정책 경사도의 업데이트 규칙은 다음과 같이 현재 정책 \(\pi_{\theta}\)에 대한 기댓값으로 표현됩니다.\[ \nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ \nabla_{\theta} \log p_{\theta}(\tau) R(\tau) \right] \]이 식의 의미는 그래디언트를 계산하는 데 사용되는 샘플 궤적 \(\tau\)가 반드시 현재 파라미터 \(\theta\)를 가진 정책 \(\pi_{\theta}\)로부터 샘플링되어야 .. 2025. 6. 29. [Reinforcement Learning] Off-policy Learning 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이전 포스팅에서 알아본 On-policy learning은 직관적이지만 때로는 비효율적이거나 적용하기 어려운 경우가 있습니다. 이런 경우 Off-policy learning을 고려하게 되는데요 1. Off-policy의 필요성1) 탐색과 활용의 분리 (데이터 효율성 증대)최적의 정책을 찾기 위해서는 충분한 탐색(Exploration)이 필수적입니다. 하지만 우리가 궁극적으로 배우고 싶은 '최적 정책'은 탐색 없이 가장 좋은 길만 가는 탐욕적 정책(Greedy Policy)입니다. Off-Policy는 이 문제를 해결합니다. 행동 정책(\(\mu\))은 ε-Greedy 처럼.. 2025. 6. 22. 이전 1 다음