🧠 서론: 언어 없이도 생각할 수 있을까?

인간의 사고와 추론은 꼭 언어를 필요로 하지 않는다는 주장이 있습니다. 오히려 생각을 언어로 바꾸는 과정이 오히려 느려질 수 있다는 것이죠. 최근에는 인공지능(AI)도 언어에 의존하지 않고 더 효율적으로 '생각'할 수 있다는 흥미로운 증거가 나오고 있습니다.

"많은 연구자들이 궁금해합니다. '과연 순수하게 잠재 공간(latent space)에서만 추론할 수 있을까?'"
— 마이크 크눕(Mike Knoop), AI 추상적 추론 벤치마크 공동 개발자


🤖 LLM(대형 언어모델)은 어떻게 정보를 처리할까?

1. LLM의 기본 구조

  • LLM은 실제로는 수학적 공간(latent space)에서 정보를 처리합니다.
  • 이 모델들은 딥러닝 신경망으로 만들어져, 입력된 텍스트를 숫자 시퀀스(임베딩)로 변환해 계산합니다.
  • 이 수치적 계산이 이루어지는 공간을 잠재 공간(latent space)이라고 부릅니다.

2. 토큰과 임베딩

  • LLM은 단어가 아니라 토큰(단어, 단어 조각, 문자 등) 단위로 작동합니다.
  • 입력 텍스트는 토큰으로 쪼개지고, 각 토큰은 임베딩이라는 숫자 벡터로 변환됩니다.
  • 여러 층(layer)을 거치며 임베딩이 점점 더 복잡하게 연결되고, 마지막에 히든 스테이트(hidden state)가 만들어집니다.

"히든 스테이트는 외부에 노출되지 않기 때문에 '숨겨진' 상태라고 부릅니다. 이 안에 다음에 올 토큰을 예측하는 데 필요한 모든 정보가 담겨 있죠."

3. 반복적인 토큰 생성

  • 모델은 예측한 토큰을 입력에 추가하고, 다시 임베딩-레이어-히든스테이트 과정을 반복합니다.
  • 이 과정은 종료 토큰이 나올 때까지 계속됩니다.

4. 체인 오브 쏘트(Chain of Thought)

  • LLM은 답을 내기 전에 추론 과정을 토큰 시퀀스로 보여줍니다.
  • 이 과정을 체인 오브 쏘트라고 하며, 모델의 정확도를 높여줍니다.

"체인 오브 쏘트는 모델이 어떻게 생각하는지 보여줄 뿐 아니라, 훨씬 더 정확한 답을 내게 해줍니다."

5. 한계점

  • 임베딩 ↔ 토큰 변환을 반복하는 과정에서 비효율정보 손실이 발생할 수 있습니다.
  • "잠재 공간에서 추론하려면 이 단계를 건너뛰어야 합니다."
    — 시보 하오(Shibo Hao), UC 샌디에이고 대학원생

🥥 Coconut: 언어로 바꾸지 않고 생각하는 LLM

1. 새로운 시도: Coconut 모델

  • 하오와 동료들은 GPT-2를 변형해, 히든 스테이트를 바로 입력 임베딩으로 되돌려보내는 구조를 만들었습니다.
  • 즉, 토큰으로 변환하지 않고 계속 수치적 공간에서만 정보를 처리합니다.
  • 이 모델을 Coconut(Chain of Continuous Thought)이라고 명명했습니다.

"연속적(continuous) 또는 잠재적(latent) 추론에서는 생각을 굳이 언어로 바꿀 필요가 없습니다. 생각 속의 불확실성을 유지하다가, 마지막에 확신을 가지고 답을 내릴 수 있죠. 근본적으로 다른 추론 방식입니다."
— 시보 하오

2. 성능 비교

  • 논리 추론 테스트: Coconut과 기존 GPT-2 모두 98.8% 정확도, 하지만 Coconut은 토큰 사용량이 1/10에 불과.
  • 선택지 많은 문제: Coconut이 토큰 1/3만 사용, 정확도도 97%로 기존 모델(77.5%)보다 훨씬 높음.
  • 수학 문제: Coconut은 토큰을 적게 쓰지만 정확도는 34%로 기존 모델(43%)보다 낮음.

"Coconut이 처음부터 잠재 공간 추론 방식으로 훈련됐다면 더 잘했을 거라 생각합니다."
— 시보 하오

3. 한계와 개선점

  • Coconut은 잠재 공간에서 몇 번만 반복할 수 있도록 제한이 있었음.
  • "이상적으로는, 모델이 스스로 언제 추론을 끝낼지 결정해야 합니다."
    — 시보 하오

🔁 Getting Loopy: 반복적으로 생각하는 LLM

1. 골드스타인 팀의 새로운 접근

  • 톰 골드스타인(Tom Goldstein) 팀은 트랜스포머 레이어를 반복적으로 사용할 수 있는 구조를 고안했습니다.
  • 8개의 레이어 중 4개를 반복 블록으로 묶어, 필요할 때마다 여러 번 사용할 수 있게 했습니다.
  • 반복 블록의 출력을 다시 입력으로 넣어, 계속 잠재 공간에서만 추론이 이루어집니다.

"모든 현대 LLM은 고정된 레이어 수를 갖고 있습니다. 이건 근본적으로 한계가 있습니다."
— 톰 골드스타인

2. 모델의 특징

  • 문제 난이도에 따라 반복 횟수를 스스로 조절함.
  • 쉬운 문제는 빨리 끝내고, 어려운 문제는 더 오래 반복함.

"이건 우리가 따로 훈련시킨 게 아니라, 자연스럽게 나타난 행동입니다. 쉬운 문제일수록 모델이 그걸 알아차린 것 같아요."
— 요나스 가이핑(Jonas Geiping), 공동 저자

3. 성능

  • OLMo-7B(더 큰 모델)보다 수학 문제에서 훨씬 높은 정확도(28% vs 4%)를 기록.
  • "우리 모델이 훨씬 앞섭니다."
    — 톰 골드스타인

🧐 한계와 미래 전망

1. 현실적인 도전

  • 기존 LLM 구조에 잠재 공간 추론을 도입하려면 대대적인 재설계가 필요.
  • "대형 기업들은 이미 기존 구조에 많은 투자를 했기 때문에, 당장 바꾸긴 어려울 겁니다."
    — 시보 하오

2. 잠재 공간 추론의 위험성

  • LLM이 텍스트 기반 데이터로 훈련되기 때문에, 언어를 벗어난 추론은 인간의 사고와 동떨어질 수 있음.
  • "연속 공간으로 이동하면, 실제로 도움이 되지 않는 온갖 가능성이 열릴 수 있습니다."
    — 루크 제틀모이어(Luke Zettlemoyer), 워싱턴대 교수

3. 새로운 가능성

  • 그럼에도 불구하고, 잠재 공간 추론은 LLM의 '생각' 방식을 완전히 바꿀 수 있는 잠재력을 가짐.

"이런 연구의 목표 중 하나는, 정말로 추론의 방식을 바꾸는 데 있습니다. 큰 변화를 가져올 수 있는 기회가 있죠."
— 루크 제틀모이어


핵심 키워드 정리

  • 잠재 공간(latent space)
  • 임베딩(embedding)
  • 히든 스테이트(hidden state)
  • 체인 오브 쏘트(chain of thought)
  • Coconut 모델
  • 반복 블록(recurrent block)
  • 효율성, 정보 손실, 추론 방식의 변화

📝 정리

  • 인간처럼, AI도 언어 없이 더 효율적으로 생각할 수 있다는 가능성이 실험적으로 입증되고 있습니다.
  • 잠재 공간에서의 추론은 정보 손실을 줄이고, 더 빠르고 정확한 결과를 낼 수 있습니다.
  • 아직은 한계와 도전이 많지만, AI의 추론 방식에 혁신적인 변화를 가져올 수 있는 연구로 주목받고 있습니다.

"누가 알겠어요, 이런 방식이 어떤 새로운 패턴을 발견하게 해줄지?"
— 루크 제틀모이어


✨ 앞으로 AI가 '생각'하는 방식이 어떻게 바뀔지, 기대해봐도 좋을 것 같죠?

함께 읽으면 좋은 글

Harvest창업 · AI한국어

(스티브 블랭크) 당신의 스타트업은 아마 ‘시작부터’ 이미 죽어 있었을지도 모른다

이 글은 2년 이상 된 스타트업이라면, 창업 당시의 가정과 시장이 이미 크게 바뀌어 사업 계획·기술 스택·팀 구성이 구식이 되었을 가능성이 높다고 경고합니다. 특히 2025년 이후 AI 중심 투자 쏠림, 바이브 코딩과 에이전트형 AI로 인해 소프트웨어 개발의 속도·비용·경쟁구도가 바뀌면서,...

2026년 4월 15일더 읽기
HarvestAI한국어

집에서 에이전트 구축하기: 홈스쿨링, 육아 그리고 그 이상

이 영상은 스타트업 창업가이자 네 아이의 엄마인 제시 제넷이 AI 에이전트를 활용해 홈스쿨링과 육아, 가사 관리 등 다양한 역할을 수행하는 방법을 소개합니다. 제시 제넷은 AI가 교육, 가사, 심지어 코딩까지 어떻게 삶을 변화시키고 있는지, 그리고 미래 육아와 기술의 결합에 대한 흥미로운...

2026년 4월 14일더 읽기
Harvest창업 · AI한국어

Anthropic의 클로드 코드 유출: Conwary를 통한 AI 플랫폼 전쟁과 행동 잠금 현상

이 영상은 Anthropic의 클로드 코드 유출 사건의 본질이 단순한 소스 코드 유출이나 보안 취약점이 아니며, 오히려 Anthropic이 "Conway"라는 상시 작동(always-on) AI 에이전트를 통해 추진하고 있는 거대한 플랫폼 전략을 드러낸다고 주장합니다. Conway는 사용자...

2026년 4월 8일더 읽기