본문 바로가기

Reinforcement Learning2

[Reinforcement Learning] Monte Carlo policy Evaluation(Prediction) 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이전 포스팅에서 살펴본 것처럼 Monte Carlo방법은 에피소드를 여러번 시뮬레이션 해서 그 평균값을 계산하는 방식으로 가치함수를 추정하겠다는 발상입니다. 이 추정치는 unbiased estimator이기 때문에 시뮬레이션 횟수가 늘어나면 실제 값에 다가갈 뿐 아니라 추정치의 분산도 줄어듭니다. 이전 포스팅에서 예시를 들긴 했는데 사실 Monte Carlo evaluation도 몇 가지 방법이 존재합니다. 1. Monte Carlo policy evaluation (basic)어떤 상태 \(s\)의 가치를 그 상태를 방문했을 때 얻었던 모든 보상(\(G_t\))들의 평.. 2025. 6. 19.
[Reinforcement Learning] 강화학습 문제의 세팅 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents간단하게지만 추천시스템과 Graph Neural Networks의 기본적인 내용을 다루었으니 강화학습 부분도 정리를 시작하겠습니다. 일단 강화학습이 어떤 상황을 다루는지부터 살펴보겠습니다. 가장 먼저 알아야할 개념은 Markov Decision Process (MDP)입니다. MDP는 에이전트(Agent)가 환경(Environment)과 상호작용하며 보상(Reward)을 최대로 얻기 위한 순차적인 의사결정 과정을 묘사합니다. 상태 (State, S): 에이전트가 관찰하는 세상의 특정 모습. 예를 들어, 체스 게임에서 기물들의 현재 위치.행동 (Action, A): 에이전트.. 2025. 6. 8.
반응형