clm1 [LLM Application] Transformer/BERT/GPT 기반 모델의 특성 최근 사용되고 있는 다양한 초거대 언어모델(LLM)의 기반은 대부분 이 3가지 구조에 기반을 두고 있죠. Encoder/Decoder를 포함하고 있는 Transformer, Decoder부분을 떼어낸 Pre-trained 모델이 GPT, Encoder 부분을 떼어난 Pre-trained 모델이 BERT입니다. 1. Transformer의 특성(1) Quadratic 계산 복잡도 문제Transformer 핵심은 셀프 어텐션(Self-Attention) 메커니즘입니다. 이 메커니즘은 시퀀스 내의 모든 토큰이 다른 모든 토큰과 상호작용(Attention)한다는 것을 가정합니다. 이는 시퀀스 길이 \(n\)에 대해 \(O(n^2 \cdot d)\)의 계산 복잡도를 가짐을 의미합니다. 이 문제 때문에 Trans.. 2025. 11. 6. 이전 1 다음 반응형