bootstrapping1 [Reinforcement Learning] Temporal Difference policy Evaluation(Prediction) 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이번에는 시간차 학습 (Temporal Difference, TD) 방법으로 policy evaluation하는 방법을 알아보겠습니다. 시간차학습이란 모델을 모르는 환경에서 경험을 통해 가치 함수를 추정하는 방법입니다. 몬테카를로(MC)의 샘플 기반 학습 아이디어와 동적 계획법(DP)의 부트스트래핑(Bootstrapping) 아이디어를 결합한 형태입니다.1. TD 학습의 기본 원리TD 학습을 이해하기 위해 먼저 MC와 업데이트 목표(리턴)를 어떻게 다르게 정의하는지 비교해 보겠습니다.MC의 업데이트 목표 (실제 보상): 에피소드가 끝난 후 얻어지는 전체 보상의 합입니다.\.. 2025. 6. 20. 이전 1 다음 반응형