본문 바로가기

Temporal Difference2

[Reinforcement Learning] Temporal Difference policy Evaluation(Prediction) 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이번에는 시간차 학습 (Temporal Difference, TD) 방법으로 policy evaluation하는 방법을 알아보겠습니다. 시간차학습이란 모델을 모르는 환경에서 경험을 통해 가치 함수를 추정하는 방법입니다. 몬테카를로(MC)의 샘플 기반 학습 아이디어와 동적 계획법(DP)의 부트스트래핑(Bootstrapping) 아이디어를 결합한 형태입니다.1. TD 학습의 기본 원리TD 학습을 이해하기 위해 먼저 MC와 업데이트 목표(리턴)를 어떻게 다르게 정의하는지 비교해 보겠습니다.MC의 업데이트 목표 (실제 보상): 에피소드가 끝난 후 얻어지는 전체 보상의 합입니다.\.. 2025. 6. 20.
[Reinforcement Learning] Generalized Policy Iteration 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents자, 이전 포스팅에서는 환경에 대한 정보를 알고 있을 때 Dynamic Programming의 방식으로 가치함수와 상태가치함수를 찾아내고 이를 바탕으로 최적의 정책을 찾아내는 작업을 살펴봤습니다. 그런데 말씀드렸다시피 우리가 실제 세상에서 다루는 많은 문제들이 환경에 대한 정보를 갖고 있지 않은 상황들입니다. 이런 상황에서는 그저 "부딪혀보면서" 배울 수 밖에 없는 건데요. 이렇게 환경에 대해 알 수 없을 때는 앞 선 포스팅에서 배운 Policy Iteration을 사용할 수 없습니다. 대신 이 컨셉은 그대로 가져가되 구체적 계산법을 조금 다른측면에서 가져갈 수는 있죠. .. 2025. 6. 13.
반응형