value function1 [Reinforcement Learning] 강화학습 문제의 세팅 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents간단하게지만 추천시스템과 Graph Neural Networks의 기본적인 내용을 다루었으니 강화학습 부분도 정리를 시작하겠습니다. 일단 강화학습이 어떤 상황을 다루는지부터 살펴보겠습니다. 가장 먼저 알아야할 개념은 Markov Decision Process (MDP)입니다. MDP는 에이전트(Agent)가 환경(Environment)과 상호작용하며 보상(Reward)을 최대로 얻기 위한 순차적인 의사결정 과정을 묘사합니다. 상태 (State, S): 에이전트가 관찰하는 세상의 특정 모습. 예를 들어, 체스 게임에서 기물들의 현재 위치.행동 (Action, A): 에이전트.. 2025. 6. 8. 이전 1 다음 반응형