🧠 서론: 언어 없이도 생각할 수 있을까?
인간의 사고와 추론은 꼭 언어를 필요로 하지 않는다는 주장이 있습니다. 오히려 생각을 언어로 바꾸는 과정이 오히려 느려질 수 있다는 것이죠. 최근에는 인공지능(AI)도 언어에 의존하지 않고 더 효율적으로 '생각'할 수 있다는 흥미로운 증거가 나오고 있습니다.
"많은 연구자들이 궁금해합니다. '과연 순수하게 잠재 공간(latent space)에서만 추론할 수 있을까?'"
— 마이크 크눕(Mike Knoop), AI 추상적 추론 벤치마크 공동 개발자
🤖 LLM(대형 언어모델)은 어떻게 정보를 처리할까?
1. LLM의 기본 구조
- LLM은 실제로는 수학적 공간(latent space)에서 정보를 처리합니다.
- 이 모델들은 딥러닝 신경망으로 만들어져, 입력된 텍스트를 숫자 시퀀스(임베딩)로 변환해 계산합니다.
- 이 수치적 계산이 이루어지는 공간을 잠재 공간(latent space)이라고 부릅니다.
2. 토큰과 임베딩
- LLM은 단어가 아니라 토큰(단어, 단어 조각, 문자 등) 단위로 작동합니다.
- 입력 텍스트는 토큰으로 쪼개지고, 각 토큰은 임베딩이라는 숫자 벡터로 변환됩니다.
- 여러 층(layer)을 거치며 임베딩이 점점 더 복잡하게 연결되고, 마지막에 히든 스테이트(hidden state)가 만들어집니다.
"히든 스테이트는 외부에 노출되지 않기 때문에 '숨겨진' 상태라고 부릅니다. 이 안에 다음에 올 토큰을 예측하는 데 필요한 모든 정보가 담겨 있죠."
3. 반복적인 토큰 생성
- 모델은 예측한 토큰을 입력에 추가하고, 다시 임베딩-레이어-히든스테이트 과정을 반복합니다.
- 이 과정은 종료 토큰이 나올 때까지 계속됩니다.
4. 체인 오브 쏘트(Chain of Thought)
- LLM은 답을 내기 전에 추론 과정을 토큰 시퀀스로 보여줍니다.
- 이 과정을 체인 오브 쏘트라고 하며, 모델의 정확도를 높여줍니다.
"체인 오브 쏘트는 모델이 어떻게 생각하는지 보여줄 뿐 아니라, 훨씬 더 정확한 답을 내게 해줍니다."
5. 한계점
- 임베딩 ↔ 토큰 변환을 반복하는 과정에서 비효율과 정보 손실이 발생할 수 있습니다.
- "잠재 공간에서 추론하려면 이 단계를 건너뛰어야 합니다."
— 시보 하오(Shibo Hao), UC 샌디에이고 대학원생
🥥 Coconut: 언어로 바꾸지 않고 생각하는 LLM
1. 새로운 시도: Coconut 모델
- 하오와 동료들은 GPT-2를 변형해, 히든 스테이트를 바로 입력 임베딩으로 되돌려보내는 구조를 만들었습니다.
- 즉, 토큰으로 변환하지 않고 계속 수치적 공간에서만 정보를 처리합니다.
- 이 모델을 Coconut(Chain of Continuous Thought)이라고 명명했습니다.
"연속적(continuous) 또는 잠재적(latent) 추론에서는 생각을 굳이 언어로 바꿀 필요가 없습니다. 생각 속의 불확실성을 유지하다가, 마지막에 확신을 가지고 답을 내릴 수 있죠. 근본적으로 다른 추론 방식입니다."
— 시보 하오
2. 성능 비교
- 논리 추론 테스트: Coconut과 기존 GPT-2 모두 98.8% 정확도, 하지만 Coconut은 토큰 사용량이 1/10에 불과.
- 선택지 많은 문제: Coconut이 토큰 1/3만 사용, 정확도도 97%로 기존 모델(77.5%)보다 훨씬 높음.
- 수학 문제: Coconut은 토큰을 적게 쓰지만 정확도는 34%로 기존 모델(43%)보다 낮음.
"Coconut이 처음부터 잠재 공간 추론 방식으로 훈련됐다면 더 잘했을 거라 생각합니다."
— 시보 하오
3. 한계와 개선점
- Coconut은 잠재 공간에서 몇 번만 반복할 수 있도록 제한이 있었음.
- "이상적으로는, 모델이 스스로 언제 추론을 끝낼지 결정해야 합니다."
— 시보 하오
🔁 Getting Loopy: 반복적으로 생각하는 LLM
1. 골드스타인 팀의 새로운 접근
- 톰 골드스타인(Tom Goldstein) 팀은 트랜스포머 레이어를 반복적으로 사용할 수 있는 구조를 고안했습니다.
- 8개의 레이어 중 4개를 반복 블록으로 묶어, 필요할 때마다 여러 번 사용할 수 있게 했습니다.
- 반복 블록의 출력을 다시 입력으로 넣어, 계속 잠재 공간에서만 추론이 이루어집니다.
"모든 현대 LLM은 고정된 레이어 수를 갖고 있습니다. 이건 근본적으로 한계가 있습니다."
— 톰 골드스타인
2. 모델의 특징
- 문제 난이도에 따라 반복 횟수를 스스로 조절함.
- 쉬운 문제는 빨리 끝내고, 어려운 문제는 더 오래 반복함.
"이건 우리가 따로 훈련시킨 게 아니라, 자연스럽게 나타난 행동입니다. 쉬운 문제일수록 모델이 그걸 알아차린 것 같아요."
— 요나스 가이핑(Jonas Geiping), 공동 저자
3. 성능
- OLMo-7B(더 큰 모델)보다 수학 문제에서 훨씬 높은 정확도(28% vs 4%)를 기록.
- "우리 모델이 훨씬 앞섭니다."
— 톰 골드스타인
🧐 한계와 미래 전망
1. 현실적인 도전
- 기존 LLM 구조에 잠재 공간 추론을 도입하려면 대대적인 재설계가 필요.
- "대형 기업들은 이미 기존 구조에 많은 투자를 했기 때문에, 당장 바꾸긴 어려울 겁니다."
— 시보 하오
2. 잠재 공간 추론의 위험성
- LLM이 텍스트 기반 데이터로 훈련되기 때문에, 언어를 벗어난 추론은 인간의 사고와 동떨어질 수 있음.
- "연속 공간으로 이동하면, 실제로 도움이 되지 않는 온갖 가능성이 열릴 수 있습니다."
— 루크 제틀모이어(Luke Zettlemoyer), 워싱턴대 교수
3. 새로운 가능성
- 그럼에도 불구하고, 잠재 공간 추론은 LLM의 '생각' 방식을 완전히 바꿀 수 있는 잠재력을 가짐.
"이런 연구의 목표 중 하나는, 정말로 추론의 방식을 바꾸는 데 있습니다. 큰 변화를 가져올 수 있는 기회가 있죠."
— 루크 제틀모이어
핵심 키워드 정리
- 잠재 공간(latent space)
- 임베딩(embedding)
- 히든 스테이트(hidden state)
- 체인 오브 쏘트(chain of thought)
- Coconut 모델
- 반복 블록(recurrent block)
- 효율성, 정보 손실, 추론 방식의 변화
📝 정리
- 인간처럼, AI도 언어 없이 더 효율적으로 생각할 수 있다는 가능성이 실험적으로 입증되고 있습니다.
- 잠재 공간에서의 추론은 정보 손실을 줄이고, 더 빠르고 정확한 결과를 낼 수 있습니다.
- 아직은 한계와 도전이 많지만, AI의 추론 방식에 혁신적인 변화를 가져올 수 있는 연구로 주목받고 있습니다.
"누가 알겠어요, 이런 방식이 어떤 새로운 패턴을 발견하게 해줄지?"
— 루크 제틀모이어
✨ 앞으로 AI가 '생각'하는 방식이 어떻게 바뀔지, 기대해봐도 좋을 것 같죠?