Load Balancing1 [LLM Application] Mixture of Experts (MoE) Mixture of Expert라는 개념이 나오기 전, 모델의 output의 직전 단계에서는 Feed-Forward Network가 latent space의 정보를 취합하는 역할을 했습니다. 즉, 항상 FFN의 모든 가중치가 활성화되어 output을 내는 것입니다. 이렇게 하는 대신 여러 개의 전문가(expert) 네트워크(보통 동일한 구조의 서브네트워크)를 두고, 입력마다 어떤 전문가를 사용할지(또는 얼마나 섞을지)를 결정하는 게이트(gating) 네트워크를 학습시켜 계산을 스파스하게 배분하는 구조가 Mixture of Experts입니다. 파라미터 수는 크게 늘리되(전문가들이 많아도), 실제 연산량(FLOPs)은 게이트가 선택한 소수의 전문가만 실행하므로 효율적으로 큰 모델을 구현할 수 있다는 점이 .. 2025. 11. 7. 이전 1 다음 반응형