TextSplitter1 [LLM Applications] Tokenizer와 TextSplitter 2025.04.03 - [Data & Research] - [Langchain & Langgraph] Table of Contents단어 자체로 엄밀히 구분되는 개념이라기 보다는 코딩의 기능 상의 구분을 정리해놓고자 포스팅하는 내용입니다. 저는 Tokenize작업과 TextSplit 작업에 혼동을 좀 일으켰던 것 같은데 두 가지가 어떻게 다른지 간단하게만 정리하겠습니다. 1. TokenizerLLM 모델 내부/전처리 단계에서 쓰이는 개념. 문장을 모델이 이해할 수 있는 단위인 토큰(token) 으로 변환예: "Hello world!" → ["Hello", " world", "!"] → [15339, 3186, 0]모델마다 토큰화 방식이 다름 (OpenAI, HuggingFace, Anthropic 등).. 2025. 10. 19. 이전 1 다음 반응형