본문 바로가기

Data & Research97

[TensorFlow/Keras 기초] callback함수 2025.03.15 - [Data & Research] - [ML & DL 기초] Table of Contents콜백(Callback) 함수를 사용하면 학습 과정 중에 특정 시점(예: 에포크 시작/종료, 배치 시작/종료)에 원하는 동작을 수행하도록 할 수 있습니다. 기본적인 사용방식은 아래와 같습니다. # 1. 필요한 콜백 임포트from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint# 2. 콜백 객체 생성early_stopping = EarlyStopping(monitor='val_loss', patience=10)model_checkpoint = ModelCheckpoint( filepath='best_model.keras', .. 2025. 7. 3.
[Deep Learning] Batch/Layer Normalization 2025.03.15 - [Data & Research] - [ML & DL 기초] Table of Contents1. Batch NormalizationBatch Normalization의 핵심 아이디어는 내부 공변량 변화(Internal Covariate Shift) 문제를 해결하는 것입니다. 공변량 변화란 모델의 입력 데이터 분포가 훈련 시와 테스트 시에 달라지는 현상을 말합니다. 딥러닝 모델은 여러 층으로 구성되어 있는데, 학습 과정에서 이전 층의 파라미터가 변하면 현재 층에 들어오는 입력값의 분포가 계속해서 바뀌게 됩니다. 그런데, 이것은 딥러닝 학습의 입장에서 꽤나 문제가 된다는 건데요.1) 학습 속도 저하: 각 층은 계속해서 변하는 새로운 분포의 입력에 적응해야 하므로 학습률(learning .. 2025. 7. 2.
[TensorFlow/Keras 기초] Keras 구현의 3가지 방식 2025.03.15 - [Data & Research] - [ML & DL 기초] Table of ContentsKeras의 딥러닝 구조 구현 방식은 3가지가 있습니다. 구체적 방법과 예시는 Gemini의 도움을 받아서 아래 소개하도록 하겠습니다.1. Sequential APISequential API는 이름 그대로 레이어를 순차적으로 쌓는(linear stack) 방식입니다. 코드가 매우 간결하고 직관적이지만, 다중 입력/출력이나 레이어 공유 등 복잡한 구조를 만드는 데에는 한계가 있습니다.특징: 간단함, 직관적임용도: 단순한 모델을 빠르게 프로토타이핑할 때2. Functional APIFunctional API는 레이어를 함수처럼 호출하여 입출력을 직접 연결하는 방식입니다. 다중 입력/출력, 레이어 .. 2025. 7. 1.
[Reinforcement Learning] The Cliff Walking Problem 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of Contents이번 포스팅에서는 지난 포스팅에서 살펴봤던 대표적인 강화학습 알고리즘에 대해서 Gemini의 도움을 받아 만들어진 간단한 예시에서 어떤식으로 실제 코딩이 작동하는지 살펴보도록 하겠습니다. 1. '위험한 절벽' (The Cliff Walking Problem)모든 알고리즘을 테스트할 간단한 격자 환경(Grid World)을 설정하겠습니다.환경: 3x5 크기의 격자.상태(States): 15개의 상태 (0~14).시작점(S): 10번 칸 (좌측 하단)목표(G): 14번 칸 (우측 하단)절벽(Cliff): 11, 12, 13번 칸. 이곳에 빠지면 큰 음의 보상을 받고 시작점.. 2025. 7. 1.
[Reinforcement Learning] Table of Contents 2025.06.08 - [Data & Research] - [Reinforcement Learning] 강화학습 문제의 세팅2025.06.11 - [Data & Research] - [Reinforcement Learning] Dynamic Programming의 풀이2025.06.13 - [Data & Research] - [Reinforcement Learning] Generalized Policy Iteration2025.06.19 - [Data & Research] - [Reinforcement Learning] Monte Carlo policy Evaluation(Prediction)2025.06.20 - [Data & Research] - [Reinforcement Learning] Tempo.. 2025. 6. 29.
[Reinforcement Learning] Actor-Critic Algorithm 2025.06.29 - [Data & Research] - [Reinforcement Learning] Table of ContentsActor-Critic은 정책 기반 방법의 높은 분산 문제를 해결하기 위해 탄생한, 정책 기반 학습과 가치 기반 학습을 결합한 하이브리드 알고리즘입니다. 1. Actor-Critic의 탄생 배경: REINFORCE의 한계정책 경사도(Policy Gradient)에 기반한 REINFORCE 알고리즘의 업데이트 규칙은 다음과 같았습니다.\[ \theta \leftarrow \theta + \alpha G_t \nabla_{\theta} \log \pi_{\theta}(A_t|S_t) \]이 식의 가장 큰 문제는, 업데이트의 크기와 방향을 결정하는 가중치로 몬테카를로 리턴 \(.. 2025. 6. 29.