본문 바로가기

분류 전체보기253

[Reinforcement Learning] Off-policy Learning 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이전 포스팅에서 알아본 On-policy learning은 직관적이지만 때로는 비효율적이거나 적용하기 어려운 경우가 있습니다. 이런 경우 Off-policy learning을 고려하게 되는데요 1. Off-policy의 필요성1) 탐색과 활용의 분리 (데이터 효율성 증대)최적의 정책을 찾기 위해서는 충분한 탐색(Exploration)이 필수적입니다. 하지만 우리가 궁극적으로 배우고 싶은 '최적 정책'은 탐색 없이 가장 좋은 길만 가는 탐욕적 정책(Greedy Policy)입니다. Off-Policy는 이 문제를 해결합니다. 행동 정책(\(\mu\))은 ε-Greedy 처럼.. 2025. 6. 22.
[Reinforcement Learning] SARSA (On-policy TD Control) 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents1. SARSA: On-Policy TD ControlSARSA라는 이름은 Q값을 한 번 업데이트하는 데 필요한 데이터 튜플(tuple)의 순서에서 유래했습니다.\((S, A, R, S', A')\)이는 State, Action, Reward, 다음 State, 그리고 그 다음의 Action을 의미합니다.SARSA의 핵심 업데이트 규칙은 다음과 같습니다. TD(0)의 \(V\)함수 업데이트 규칙을 \(Q\)함수로 확장한 형태입니다.\[ Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \left[ R_{t+1} + \gamma Q(S_{t+1}.. 2025. 6. 22.
[Reinforcement Learning] Monte Carlo Control 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents지난 포스팅들에서는 환경에 대한 정보를 알 수 없을 때 (Generalized) Policy evaluation하는 방법인 Monte Carlo 방법, Temporal Difference 방법에 대해서 알아보았습니다. 그럼 이번에는 환경에 대한 정보를 알 수 없을 때 (Generalized) Policy improvement하는 방법에 대해서 알아보고 최종적으로 (Generalized) Policy Iteration을 어떻게 수행하는지에 대해서 알아보려 합니다. 본 내용에 들어가기에 앞 서 2가지 정도 짚어볼 포인트가 있습니다. (1) Policy Improvement를.. 2025. 6. 21.
[Reinforcement Learning] Temporal Difference policy Evaluation(Prediction) 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이번에는 시간차 학습 (Temporal Difference, TD) 방법으로 policy evaluation하는 방법을 알아보겠습니다. 시간차학습이란 모델을 모르는 환경에서 경험을 통해 가치 함수를 추정하는 방법입니다. 몬테카를로(MC)의 샘플 기반 학습 아이디어와 동적 계획법(DP)의 부트스트래핑(Bootstrapping) 아이디어를 결합한 형태입니다. 1. TD 학습의 기본 원리TD 학습을 이해하기 위해 먼저 MC와 업데이트 목표(리턴)를 어떻게 다르게 정의하는지 비교해 보겠습니다.MC의 업데이트 목표 (실제 보상): 에피소드가 끝난 후 얻어지는 전체 보상의 합입니다... 2025. 6. 20.
[Reinforcement Learning] Monte Carlo policy Evaluation(Prediction) 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이전 포스팅에서 살펴본 것처럼 Monte Carlo방법은 에피소드를 여러번 시뮬레이션 해서 그 평균값을 계산하는 방식으로 가치함수를 추정하겠다는 발상입니다. 이 추정치는 unbiased estimator이기 때문에 시뮬레이션 횟수가 늘어나면 실제 값에 다가갈 뿐 아니라 추정치의 분산도 줄어듭니다. 이전 포스팅에서 예시를 들긴 했는데 사실 Monte Carlo evaluation도 몇 가지 방법이 존재합니다. 1. Monte Carlo policy evaluation (basic)어떤 상태 \(s\)의 가치를 그 상태를 방문했을 때 얻었던 모든 보상(\(G_t\))들의 평.. 2025. 6. 19.
[Reinforcement Learning] Generalized Policy Iteration 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents자, 이전 포스팅에서는 환경에 대한 정보를 알고 있을 때 Dynamic Programming의 방식으로 가치함수와 상태가치함수를 찾아내고 이를 바탕으로 최적의 정책을 찾아내는 작업을 살펴봤습니다. 그런데 말씀드렸다시피 우리가 실제 세상에서 다루는 많은 문제들이 환경에 대한 정보를 갖고 있지 않은 상황들입니다. 이런 상황에서는 그저 "부딪혀보면서" 배울 수 밖에 없는 건데요. 이렇게 환경에 대해 알 수 없을 때는 앞 선 포스팅에서 배운 Policy Iteration을 사용할 수 없습니다. 대신 이 컨셉은 그대로 가져가되 구체적 계산법을 조금 다른측면에서 가져갈 수는 있죠. .. 2025. 6. 13.