LLM Embeddings Demystified: A Visual and Intuitive Guide preview image

This article LLM(large language model)에서 embedding이 무엇인지, 어떻게 발전해왔는지, 실제로 어떻게 구현되고 활용되는지, 그리고 최신 embedding의 구조와 시각화까지 빠르게 이해할 수 있도록 핵심만을 쉽고 명확하게 설명. embedding의 역사적 배경부터 전통적 방법, Word2Vec, BERT, 그리고 최신 LLM embedding의 실제 예시와 그래프 분석까지 시간순으로 꼼꼼하게 다룹니다. embedding이 왜 중요한지, 좋은 embedding의 조건은 무엇인지, 그리고 실제로 embedding을 다루는 방법까지 한 번에 파악할 수 .


1. embedding이란 무엇인가?

embedding은 LLM의 의미적 뼈대로, 원시 텍스트를 모델이 이해할 수 있는 숫자 벡터로 변환하는 관문. For example, LLM에게 코드 debugging을 요청하면, 입력된 단어와 token이 고차원 벡터 공간으로 변환되어 의미적 관계가 수학적 관계로 바뀝니다.

embedding은 텍스트뿐 아니라 이미지, 오디오, 그래프 data 등 다양한 data에 적용할 수 있지만, In this article, 텍스트 embedding에 집중. embedding의 역사는 오래되었으며, 다양한 방식이 발전해왔습니다.

"embedding은 data를 벡터로 변환하는 과정. In this article, 텍스트 embedding에 집중."

embedding에는 정적(Static) embedding동적(컨텍스추얼) embedding이 . 정적 embedding은 입력 token에 고정된 벡터를 할당하는 반면, 동적 embedding은 모델의 깊은 층을 거치며 입력의 문맥을 반영해 벡터가 변화. 이 두 가지를 구분하는 것이 중요.


2. 좋은 embedding의 조건

embedding이 LLM의 언어 사전 역할을 하듯, 좋은 embedding은 모델이 인간 언어를 더 잘 이해하고 소통할 수 있게 해줍니다. 그렇다면 좋은 embedding의 조건은 무엇일까요?

의미적 표현(Semantic Representation)

embedding이 단어 간의 의미적 관계를 잘 포착해야 . For example, "고양이"와 "개"는 "개"와 "딸기"보다 벡터 공간에서 더 가까워야 .

차원(Dimensionality)

embedding 벡터의 크기도 중요. 너무 작으면 정보가 부족하고, 너무 크면 과적합 위험이 . For example, GPT-2의 embedding 크기는 최소 768.


3. 전통적 embedding 기법

embedding의 초기 방법들은 대규모 말뭉치에서 단어의 등장 빈도나 동시 등장 빈도에 기반한 통계적 방법을 사용. 대표적인 예가 TF-IDF.

TF-IDF (단어 빈도-역문서 빈도)

  • TF(단어 빈도): 한 문서에서 특정 단어가 얼마나 자주 등장하는지
  • IDF(역문서 빈도): 전체 문서 중 해당 단어가 얼마나 희귀한지

TF-IDF는 두 값을 곱해 단어의 중요도를 계산. For example, "고양이"가 10개 문서 중 2개에만 등장하고, 한 문서에서 5번 등장했다면, TF-IDF 점수는 0.05 × 1.61 ≈ 0.08이 .

"TF-IDF 점수는 해당 단어가 문서 내에서 얼마나 중요한지, 그리고 전체 말뭉치에서 얼마나 드문지를 동시에 반영."

TF-IDF embedding의 한계는 대부분의 단어가 비슷한 위치에 몰려 있고, 의미적 유사성이 반영되지 않는다는 점. In other words, "숫자"와 "사과"가 의미적으로 가까워도 벡터 공간에서는 아무런 관련이 없습니다.


4. Word2Vec: 의미를 담은 embedding의 시작

Word2Vec은 TF-IDF보다 진보된 방식으로, 단어의 주변 단어(문맥)를 이용해 embedding을 학습. 대표적인 구조는 CBOW(연속 단어 집합)와 Skipgram이 .

  • CBOW: 주변 단어로 중심 단어를 예측
  • Skipgram: 중심 단어로 주변 단어를 예측

Word2Vec은 입력 단어를 원-핫 벡터로 변환해 embedding 레이어(은닉층)를 통과시키고, 이 은닉층의 가중치가 곧 embedding이 .

word2vec 아키텍처 다이어그램

"Word2Vec의 은닉층이 바로 embedding. 이 층의 가중치가 단어 벡터를 의미."

Word2Vec embedding은 의미적 유사성을 잘 포착. For example, "이탈리아 - 로마 + 런던 = 영국"과 같은 연산이 가능.

"italy - rome + london = england"

Also, 네거티브 샘플링 기법을 통해 대규모 어휘에서도 효율적으로 학습할 수 .

Word2Vec embedding은 TensorFlow Embedding Projector에서 2D/3D로 시각화해 의미적 군집을 확인할 수 .

word2vec 임베딩 시각화


5. BERT: 문맥을 반영하는 동적 embedding

BERT는 트랜스포머 기반의 인코더 전용 모델로, NLP의 혁신을 이끈 대표적 모델. BERT의 구조는 다음과 같습니다.

  1. 토크나이저: 텍스트를 정수 시퀀스로 변환
  2. embedding 레이어: token을 벡터로 변환
  3. 인코더: 셀프 어텐션 기반 트랜스포머 블록
  4. 태스크 헤드: 분류, 생성 등 목적에 맞는 출력

BERT는 사전학습 단계에서 마스킹 언어 모델링(문장 내 일부 단어 가리기)과 다음 문장 예측(두 문장이 연속인지 분류)을 동시에 학습.

"BERT는 입력 문장의 모든 단어가 서로의 문맥을 반영하도록 embedding을 동적으로 업데이트."

BERT의 embedding은 컨텍스추얼(문맥 기반) embedding의 대표적 예시.

BERT 아키텍처 다이어그램


6. 현대 LLM에서의 embedding

LLM(large language model)에서 embedding은 token을 벡터로 변환하는 첫 단계이자, 전체 모델의 성능에 큰 영향을 미치는 핵심 요소.

embedding의 위치

  • 정적 embedding: 입력 token을 벡터로 변환(token embedding + 위치 embedding)
  • 동적 embedding: 트랜스포머 층을 거치며 문맥에 따라 벡터가 변화

For example, "bank"라는 단어가 "river bank"와 "bank robbery"에서 각각 다른 의미를 갖게 되는 것은 동적 embedding 덕분.

LLM 임베딩 구조 개요

embedding의 학습

LLM은 embedding을 자체적으로 학습하며, 이는 모델의 목적과 data에 최적화.

"LLM은 Word2Vec 같은 사전학습 embedding 대신, 입력 레이어의 embedding을 직접 학습해 최적화."

embedding 레이어의 구현

PyTorch에서는 torch.nn.Embedding을 사용해 embedding 레이어를 구현. 이 레이어는 token 인덱스를 받아 해당 embedding 벡터를 반환하는 룩업 테이블 역할을 .

임베딩 레이어 시각화


7. embedding 실전: DeepSeek-R1-Distill-Qwen-1.5B

실제 LLM의 embedding 레이어는 어떻게 생겼을까요?
DeepSeek-R1-Distill-Qwen-1.5B 모델의 embedding을 직접 추출해 살펴.

  1. 모델과 토크나이저 로드
  2. embedding 레이어 추출 및 저장
  3. embedding 레이어만 별도로 불러와 입력 token을 벡터로 변환
  4. 코사인 유사도를 이용해 특정 단어와 가장 유사한 embedding 찾기

예시 문장: "HTML coders are not considered programmers"

token IDtokenembedding 벡터(1536차원 일부)
151646-0.027466, 0.002899, ...
5835HTML-0.018555, 0.000912, ...
20329#cod-0.026978, -0.012939, ...
.........

"embedding은 1536차원 벡터로, 각 token마다 고유한 벡터가 할당."

Also, embedding 벡터 간의 코사인 유사도를 계산해 가장 비슷한 단어를 찾을 수 .


8. embedding의 그래프 분석

embedding을 그래프로 시각화하면, 각 token을 노드로 보고, 벡터가 가까운 token끼리 엣지로 연결할 수 .

For example, "AI agents will be the most hot topic of artificial intelligence in 2025."라는 문장을 token화하고, 각 token의 embedding과 가장 유사한 20개 embedding을 연결하면 다음과 같은 embedding 그래프가 만들어집니다.

"token 'list'는 '_list', 'List' 등 다양한 변형과도 embedding이 매우 유사."

Such 그래프 분석을 통해 embedding의 의미적 군집과 변형 token 간의 관계를 한눈에 파악할 수 .


9. Closing

embedding은 자연어 처리와 LLM의 핵심 구성 요소로, 그 중요성은 시간이 지나도 변하지 . In this article, embedding의 기본 개념부터 전통적 방법, Word2Vec, BERT, 그리고 최신 LLM embedding의 실제 예시와 시각화까지 시간순으로 꼼꼼하게 살펴보았습니다.

embedding은 쉽고 직관적이면서도, 모델의 성능과 의미 이해에 결정적인 역할을 . 앞으로도 embedding의 기본 원리를 이해하는 것이 NLP와 LLM을 다루는 데 큰 도움이 될 것.

"embedding은 쉽고, 강력하며, 앞으로도 LLM의 핵심으로 남을 것."

궁금한 점이나 feedback이 있다면 언제든 커뮤니티에 남겨주세요! 🚀

Related writing

Related writing