LLM 임베딩 완전 정복: 시각적이고 직관적인 안내서

이 글은 LLM(대형 언어 모델)에서 임베딩이 무엇인지, 어떻게 발전해왔는지, 실제로 어떻게 구현되고 활용되는지, 그리고 최신 임베딩의 구조와 시각화까지 빠르게 이해할 수 있도록 핵심만을 쉽고 명확하게 설명합니다. 임베딩의 역사적 배경부터 전통적 방법, Word2Vec, BERT, 그리고 최신 LLM 임베딩의 실제 예시와 그래프 분석까지 시간순으로 꼼꼼하게 다룹니다. 임베딩이 왜 중요한지, 좋은 임베딩의 조건은 무엇인지, 그리고 실제로 임베딩을 다루는 방법까지 한 번에 파악할 수 있습니다.

1. 임베딩이란 무엇인가?

임베딩은 LLM의 의미적 뼈대로, 원시 텍스트를 모델이 이해할 수 있는 숫자 벡터로 변환하는 관문입니다. 예를 들어, LLM에게 코드 디버깅을 요청하면, 입력된 단어와 토큰이 고차원 벡터 공간으로 변환되어 의미적 관계가 수학적 관계로 바뀝니다.

임베딩은 텍스트뿐 아니라 이미지, 오디오, 그래프 데이터 등 다양한 데이터에 적용할 수 있지만, 이 글에서는 텍스트 임베딩에 집중합니다. 임베딩의 역사는 오래되었으며, 다양한 방식이 발전해왔습니다.

"임베딩은 데이터를 벡터로 변환하는 과정입니다. 이 글에서는 텍스트 임베딩에 집중합니다."

임베딩에는 정적(Static) 임베딩과 동적(컨텍스추얼) 임베딩이 있습니다. 정적 임베딩은 입력 토큰에 고정된 벡터를 할당하는 반면, 동적 임베딩은 모델의 깊은 층을 거치며 입력의 문맥을 반영해 벡터가 변화합니다. 이 두 가지를 구분하는 것이 중요합니다.

2. 좋은 임베딩의 조건

임베딩이 LLM의 언어 사전 역할을 하듯, 좋은 임베딩은 모델이 인간 언어를 더 잘 이해하고 소통할 수 있게 해줍니다. 그렇다면 좋은 임베딩의 조건은 무엇일까요?

의미적 표현(Semantic Representation)

임베딩이 단어 간의 의미적 관계를 잘 포착해야 합니다. 예를 들어, "고양이"와 "개"는 "개"와 "딸기"보다 벡터 공간에서 더 가까워야 합니다.

차원(Dimensionality)

임베딩 벡터의 크기도 중요합니다. 너무 작으면 정보가 부족하고, 너무 크면 과적합 위험이 있습니다. 예를 들어, GPT-2의 임베딩 크기는 최소 768입니다.

3. 전통적 임베딩 기법

임베딩의 초기 방법들은 대규모 말뭉치에서 단어의 등장 빈도나 동시 등장 빈도에 기반한 통계적 방법을 사용했습니다. 대표적인 예가 TF-IDF입니다.

TF-IDF (단어 빈도-역문서 빈도)

TF(단어 빈도): 한 문서에서 특정 단어가 얼마나 자주 등장하는지
IDF(역문서 빈도): 전체 문서 중 해당 단어가 얼마나 희귀한지

TF-IDF는 두 값을 곱해 단어의 중요도를 계산합니다. 예를 들어, "고양이"가 10개 문서 중 2개에만 등장하고, 한 문서에서 5번 등장했다면, TF-IDF 점수는 0.05 × 1.61 ≈ 0.08이 됩니다.

"TF-IDF 점수는 해당 단어가 문서 내에서 얼마나 중요한지, 그리고 전체 말뭉치에서 얼마나 드문지를 동시에 반영합니다."

TF-IDF 임베딩의 한계는 대부분의 단어가 비슷한 위치에 몰려 있고, 의미적 유사성이 반영되지 않는다는 점입니다. 즉, "숫자"와 "사과"가 의미적으로 가까워도 벡터 공간에서는 아무런 관련이 없습니다.

4. Word2Vec: 의미를 담은 임베딩의 시작

Word2Vec은 TF-IDF보다 진보된 방식으로, 단어의 주변 단어(문맥)를 이용해 임베딩을 학습합니다. 대표적인 구조는 CBOW(연속 단어 집합)와 Skipgram이 있습니다.

CBOW: 주변 단어로 중심 단어를 예측
Skipgram: 중심 단어로 주변 단어를 예측

Word2Vec은 입력 단어를 원-핫 벡터로 변환해 임베딩 레이어(은닉층)를 통과시키고, 이 은닉층의 가중치가 곧 임베딩이 됩니다.

word2vec 아키텍처 다이어그램

"Word2Vec의 은닉층이 바로 임베딩입니다. 이 층의 가중치가 단어 벡터를 의미합니다."

Word2Vec 임베딩은 의미적 유사성을 잘 포착합니다. 예를 들어, "이탈리아 - 로마 + 런던 = 영국"과 같은 연산이 가능합니다.

"italy - rome + london = england"

또한, 네거티브 샘플링 기법을 통해 대규모 어휘에서도 효율적으로 학습할 수 있습니다.

Word2Vec 임베딩은 TensorFlow Embedding Projector에서 2D/3D로 시각화해 의미적 군집을 확인할 수 있습니다.

word2vec 임베딩 시각화

5. BERT: 문맥을 반영하는 동적 임베딩

BERT는 트랜스포머 기반의 인코더 전용 모델로, NLP의 혁신을 이끈 대표적 모델입니다. BERT의 구조는 다음과 같습니다.

토크나이저: 텍스트를 정수 시퀀스로 변환
임베딩 레이어: 토큰을 벡터로 변환
인코더: 셀프 어텐션 기반 트랜스포머 블록
태스크 헤드: 분류, 생성 등 목적에 맞는 출력

BERT는 사전학습 단계에서 마스킹 언어 모델링(문장 내 일부 단어 가리기)과 다음 문장 예측(두 문장이 연속인지 분류)을 동시에 학습합니다.

"BERT는 입력 문장의 모든 단어가 서로의 문맥을 반영하도록 임베딩을 동적으로 업데이트합니다."

BERT의 임베딩은 컨텍스추얼(문맥 기반) 임베딩의 대표적 예시입니다.

BERT 아키텍처 다이어그램

6. 현대 LLM에서의 임베딩

LLM(대형 언어 모델)에서 임베딩은 토큰을 벡터로 변환하는 첫 단계이자, 전체 모델의 성능에 큰 영향을 미치는 핵심 요소입니다.

임베딩의 위치

정적 임베딩: 입력 토큰을 벡터로 변환(토큰 임베딩 + 위치 임베딩)
동적 임베딩: 트랜스포머 층을 거치며 문맥에 따라 벡터가 변화

예를 들어, "bank"라는 단어가 "river bank"와 "bank robbery"에서 각각 다른 의미를 갖게 되는 것은 동적 임베딩 덕분입니다.

LLM 임베딩 구조 개요

임베딩의 학습

LLM은 임베딩을 자체적으로 학습하며, 이는 모델의 목적과 데이터에 최적화됩니다.

"LLM은 Word2Vec 같은 사전학습 임베딩 대신, 입력 레이어의 임베딩을 직접 학습해 최적화합니다."

임베딩 레이어의 구현

PyTorch에서는 torch.nn.Embedding을 사용해 임베딩 레이어를 구현합니다. 이 레이어는 토큰 인덱스를 받아 해당 임베딩 벡터를 반환하는 룩업 테이블 역할을 합니다.

임베딩 레이어 시각화

7. 임베딩 실전: DeepSeek-R1-Distill-Qwen-1.5B

실제 LLM의 임베딩 레이어는 어떻게 생겼을까요?
DeepSeek-R1-Distill-Qwen-1.5B 모델의 임베딩을 직접 추출해 살펴봅니다.

모델과 토크나이저 로드
임베딩 레이어 추출 및 저장
임베딩 레이어만 별도로 불러와 입력 토큰을 벡터로 변환
코사인 유사도를 이용해 특정 단어와 가장 유사한 임베딩 찾기

예시 문장: "HTML coders are not considered programmers"

토큰 ID	토큰	임베딩 벡터(1536차원 일부)
151646		-0.027466, 0.002899, ...
5835	HTML	-0.018555, 0.000912, ...
20329	#cod	-0.026978, -0.012939, ...
...	...	...

"임베딩은 1536차원 벡터로, 각 토큰마다 고유한 벡터가 할당됩니다."

또한, 임베딩 벡터 간의 코사인 유사도를 계산해 가장 비슷한 단어를 찾을 수 있습니다.

8. 임베딩의 그래프 분석

임베딩을 그래프로 시각화하면, 각 토큰을 노드로 보고, 벡터가 가까운 토큰끼리 엣지로 연결할 수 있습니다.

예를 들어, "AI agents will be the most hot topic of artificial intelligence in 2025."라는 문장을 토큰화하고, 각 토큰의 임베딩과 가장 유사한 20개 임베딩을 연결하면 다음과 같은 임베딩 그래프가 만들어집니다.

"토큰 'list'는 '_list', 'List' 등 다양한 변형과도 임베딩이 매우 유사합니다."

이런 그래프 분석을 통해 임베딩의 의미적 군집과 변형 토큰 간의 관계를 한눈에 파악할 수 있습니다.

9. 마치며

임베딩은 자연어 처리와 LLM의 핵심 구성 요소로, 그 중요성은 시간이 지나도 변하지 않습니다. 이 글에서는 임베딩의 기본 개념부터 전통적 방법, Word2Vec, BERT, 그리고 최신 LLM 임베딩의 실제 예시와 시각화까지 시간순으로 꼼꼼하게 살펴보았습니다.

임베딩은 쉽고 직관적이면서도, 모델의 성능과 의미 이해에 결정적인 역할을 합니다. 앞으로도 임베딩의 기본 원리를 이해하는 것이 NLP와 LLM을 다루는 데 큰 도움이 될 것입니다.

"임베딩은 쉽고, 강력하며, 앞으로도 LLM의 핵심으로 남을 것입니다."

궁금한 점이나 피드백이 있다면 언제든 커뮤니티에 남겨주세요! 🚀