q-learning1 [Reinforcement Learning] Q-learning (Off-policy TD Control) 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents1. Q-learning의 핵심 아이디어Q-learning은 벨만 최적 방정식의 샘플 기반 버전이라고 보면 됩니다(참고로 SARSA같은 경우에는 벨만 기대 방정식을 기반으로했고 때문에 정책이 기댓값 계산에 영향을 받았습니다). "궁극적으로 최적 정책은 환경에 의존적인 것이고 환경을 충분히 잘 탐험한다면 최적 정책을 찾을 수 있다. 그리고 환경을 탐험하는데 동원되는 정책은 무엇이든 상관없다." 의 컨셉입니다. 먼저, 벨만 최적 방정식을 기댓값 형태로 다시 표현해 보겠습니다.\[ Q^*(s,a) = \mathbb{E}_{s' \sim P} \left[ R_s^a + \gam.. 2025. 6. 23. 이전 1 다음 반응형