1. 토큰 개념
인공지능 LLM(Large Language Model)에서 토큰은 텍스트를 구성하는 기본 단위입니다
쉽게 말해, 문장을 단어 또는 문장 부분으로 나눈 단위라고 생각하면 됩니다
토큰은 모델이 텍스트를 학습하고 처리하는 데 기본 단위로 사용됩니다
2. 영어 토큰과 한글 토큰의 차이
영어와 한글은 문자 체계와 특성이 다르기 때문에 토큰화 방식에도 차이가 있습니다
영어: 일반적으로 공백 기준으로 단어를 토큰으로 분리합니다
예를 들어, "Hello, world
"는 "Hello", ",", "world", "
" 4개의 토큰으로 분리됩니다
한글: 한글은 공백 없이 문장이 이어지기 때문에, 형태소 분석기를 사용하여 토큰을 분리합니다
형태소 분석기는 단어를 어근, 접사, 조사 등으로 분해하여 토큰을 만듭니다
예를 들어, "안녕하세요"는 "안녕", "하", "세요" 3개의 토큰으로 분리됩니다
3. 토큰 수 차이
영어와 한글의 토큰 수 차이는 문자 체계와 형태소 분석기의 차이로 인해 발생합니다
영어: 일반적으로 한 단어가 한 토큰으로 처리되기 때문에, 영어는 비교적 토큰 수가 적습니다
한글: 한 단어가 여러 토큰으로 분리되기 때문에, 한글은 영어보다 토큰 수가 많습니다
예를 들어, "안녕하세요"는 영어 "Hello"보다 3배 많은 토큰을 가지고 있습니다
4. 테스트 결과
A4 한 페이지 분량의 영문 텍스트는 대략 800~900 토큰으로 처리됩니다
반면, 한글 텍스트는 인코딩 방식에 따라 1,200~2,800 토큰으로 처리됩니다
즉, 한글 텍스트는 영문 텍스트보다 1
5~3배 정도 많은 토큰을 필요로 합니다
5. 영향
토큰 수 차이는 LLM 모델을 사용할 때 다음과 같은 영향을 미칠 수 있습니다
모델 처리 속도: 토큰 수가 많을수록 모델이 텍스트를 처리하는 데 더 많은 시간이 소요됩니다
즉, 한글 텍스트는 영문 텍스트보다 처리 속도가 느릴 수 있습니다
모델 비용: LLM 모델은 일반적으로 토큰 수 기준으로 요금을 청구합니다
즉, 한글 텍스트는 영문 텍스트보다 처리 비용이 더 높을 수 있습니다