value based1 [Reinforcement Learning] The Cliff Walking Problem 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이번 포스팅에서는 지난 포스팅에서 살펴봤던 대표적인 강화학습 알고리즘에 대해서 Gemini의 도움을 받아 만들어진 간단한 예시에서 어떤식으로 실제 코딩이 작동하는지 살펴보도록 하겠습니다. 1. '위험한 절벽' (The Cliff Walking Problem)모든 알고리즘을 테스트할 간단한 격자 환경(Grid World)을 설정하겠습니다.환경: 3x5 크기의 격자.상태(States): 15개의 상태 (0~14).시작점(S): 10번 칸 (좌측 하단)목표(G): 14번 칸 (우측 하단)절벽(Cliff): 11, 12, 13번 칸. 이곳에 빠지면 큰 음의 보상을 받고 시작점.. 2025. 7. 1. 이전 1 다음 반응형