policy-based1 [Reinforcement Learning] 가치기반 강화학습 vs. 정책기반 강화학습 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents가치 기반 vs. 정책 기반 강화학습강화학습에서 최적 정책을 찾는 접근법은 크게 '가치 기반(Value-Based)' 학습과 '정책 기반(Policy-Based)' 학습으로 나뉩니다. 두 방법은 목표는 같지만, 목표에 도달하는 방식과 철학에 근본적인 차이가 있습니다. 1. 가치 기반 강화학습 (Value-Based Reinforcement Learning)가치 기반 학습의 목표는 최적 행동 가치 함수 \(Q^*(s, a)\)를 정확하게 추정하는 것입니다. 행동 가치 함수는 특정 상태에서 특정 행동을 했을 때 미래에 받을 총 보상의 기댓값, 즉 '행동의 가치'를 의미합니다... 2025. 6. 24. 이전 1 다음 반응형