[Reinforcement Learning] SARSA (On-policy TD Control)
2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents1. SARSA: On-Policy TD ControlSARSA라는 이름은 Q값을 한 번 업데이트하는 데 필요한 데이터 튜플(tuple)의 순서에서 유래했습니다.\((S, A, R, S', A')\)이는 State, Action, Reward, 다음 State, 그리고 그 다음의 Action을 의미합니다.SARSA의 핵심 업데이트 규칙은 다음과 같습니다. TD(0)의 \(V\)함수 업데이트 규칙을 \(Q\)함수로 확장한 형태입니다.\[ Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha \left[ R_{t+1} + \gamma Q(S_{t+1}..
2025. 6. 22.