🧠 서론: 언어 없이도 생각할 수 있을까?

인간의 사고와 추론은 꼭 언어를 필요로 하지 않는다는 주장이 있습니다. 오히려 생각을 언어로 바꾸는 과정이 오히려 느려질 수 있다는 것이죠. 최근에는 인공지능(AI)도 언어에 의존하지 않고 더 효율적으로 '생각'할 수 있다는 흥미로운 증거가 나오고 있습니다.

"많은 연구자들이 궁금해합니다. '과연 순수하게 잠재 공간(latent space)에서만 추론할 수 있을까?'"
— 마이크 크눕(Mike Knoop), AI 추상적 추론 벤치마크 공동 개발자


🤖 LLM(대형 언어모델)은 어떻게 정보를 처리할까?

1. LLM의 기본 구조

  • LLM은 실제로는 수학적 공간(latent space)에서 정보를 처리합니다.
  • 이 모델들은 딥러닝 신경망으로 만들어져, 입력된 텍스트를 숫자 시퀀스(임베딩)로 변환해 계산합니다.
  • 이 수치적 계산이 이루어지는 공간을 잠재 공간(latent space)이라고 부릅니다.

2. 토큰과 임베딩

  • LLM은 단어가 아니라 토큰(단어, 단어 조각, 문자 등) 단위로 작동합니다.
  • 입력 텍스트는 토큰으로 쪼개지고, 각 토큰은 임베딩이라는 숫자 벡터로 변환됩니다.
  • 여러 층(layer)을 거치며 임베딩이 점점 더 복잡하게 연결되고, 마지막에 히든 스테이트(hidden state)가 만들어집니다.

"히든 스테이트는 외부에 노출되지 않기 때문에 '숨겨진' 상태라고 부릅니다. 이 안에 다음에 올 토큰을 예측하는 데 필요한 모든 정보가 담겨 있죠."

3. 반복적인 토큰 생성

  • 모델은 예측한 토큰을 입력에 추가하고, 다시 임베딩-레이어-히든스테이트 과정을 반복합니다.
  • 이 과정은 종료 토큰이 나올 때까지 계속됩니다.

4. 체인 오브 쏘트(Chain of Thought)

  • LLM은 답을 내기 전에 추론 과정을 토큰 시퀀스로 보여줍니다.
  • 이 과정을 체인 오브 쏘트라고 하며, 모델의 정확도를 높여줍니다.

"체인 오브 쏘트는 모델이 어떻게 생각하는지 보여줄 뿐 아니라, 훨씬 더 정확한 답을 내게 해줍니다."

5. 한계점

  • 임베딩 ↔ 토큰 변환을 반복하는 과정에서 비효율정보 손실이 발생할 수 있습니다.
  • "잠재 공간에서 추론하려면 이 단계를 건너뛰어야 합니다."
    — 시보 하오(Shibo Hao), UC 샌디에이고 대학원생

🥥 Coconut: 언어로 바꾸지 않고 생각하는 LLM

1. 새로운 시도: Coconut 모델

  • 하오와 동료들은 GPT-2를 변형해, 히든 스테이트를 바로 입력 임베딩으로 되돌려보내는 구조를 만들었습니다.
  • 즉, 토큰으로 변환하지 않고 계속 수치적 공간에서만 정보를 처리합니다.
  • 이 모델을 Coconut(Chain of Continuous Thought)이라고 명명했습니다.

"연속적(continuous) 또는 잠재적(latent) 추론에서는 생각을 굳이 언어로 바꿀 필요가 없습니다. 생각 속의 불확실성을 유지하다가, 마지막에 확신을 가지고 답을 내릴 수 있죠. 근본적으로 다른 추론 방식입니다."
— 시보 하오

2. 성능 비교

  • 논리 추론 테스트: Coconut과 기존 GPT-2 모두 98.8% 정확도, 하지만 Coconut은 토큰 사용량이 1/10에 불과.
  • 선택지 많은 문제: Coconut이 토큰 1/3만 사용, 정확도도 97%로 기존 모델(77.5%)보다 훨씬 높음.
  • 수학 문제: Coconut은 토큰을 적게 쓰지만 정확도는 34%로 기존 모델(43%)보다 낮음.

"Coconut이 처음부터 잠재 공간 추론 방식으로 훈련됐다면 더 잘했을 거라 생각합니다."
— 시보 하오

3. 한계와 개선점

  • Coconut은 잠재 공간에서 몇 번만 반복할 수 있도록 제한이 있었음.
  • "이상적으로는, 모델이 스스로 언제 추론을 끝낼지 결정해야 합니다."
    — 시보 하오

🔁 Getting Loopy: 반복적으로 생각하는 LLM

1. 골드스타인 팀의 새로운 접근

  • 톰 골드스타인(Tom Goldstein) 팀은 트랜스포머 레이어를 반복적으로 사용할 수 있는 구조를 고안했습니다.
  • 8개의 레이어 중 4개를 반복 블록으로 묶어, 필요할 때마다 여러 번 사용할 수 있게 했습니다.
  • 반복 블록의 출력을 다시 입력으로 넣어, 계속 잠재 공간에서만 추론이 이루어집니다.

"모든 현대 LLM은 고정된 레이어 수를 갖고 있습니다. 이건 근본적으로 한계가 있습니다."
— 톰 골드스타인

2. 모델의 특징

  • 문제 난이도에 따라 반복 횟수를 스스로 조절함.
  • 쉬운 문제는 빨리 끝내고, 어려운 문제는 더 오래 반복함.

"이건 우리가 따로 훈련시킨 게 아니라, 자연스럽게 나타난 행동입니다. 쉬운 문제일수록 모델이 그걸 알아차린 것 같아요."
— 요나스 가이핑(Jonas Geiping), 공동 저자

3. 성능

  • OLMo-7B(더 큰 모델)보다 수학 문제에서 훨씬 높은 정확도(28% vs 4%)를 기록.
  • "우리 모델이 훨씬 앞섭니다."
    — 톰 골드스타인

🧐 한계와 미래 전망

1. 현실적인 도전

  • 기존 LLM 구조에 잠재 공간 추론을 도입하려면 대대적인 재설계가 필요.
  • "대형 기업들은 이미 기존 구조에 많은 투자를 했기 때문에, 당장 바꾸긴 어려울 겁니다."
    — 시보 하오

2. 잠재 공간 추론의 위험성

  • LLM이 텍스트 기반 데이터로 훈련되기 때문에, 언어를 벗어난 추론은 인간의 사고와 동떨어질 수 있음.
  • "연속 공간으로 이동하면, 실제로 도움이 되지 않는 온갖 가능성이 열릴 수 있습니다."
    — 루크 제틀모이어(Luke Zettlemoyer), 워싱턴대 교수

3. 새로운 가능성

  • 그럼에도 불구하고, 잠재 공간 추론은 LLM의 '생각' 방식을 완전히 바꿀 수 있는 잠재력을 가짐.

"이런 연구의 목표 중 하나는, 정말로 추론의 방식을 바꾸는 데 있습니다. 큰 변화를 가져올 수 있는 기회가 있죠."
— 루크 제틀모이어


핵심 키워드 정리

  • 잠재 공간(latent space)
  • 임베딩(embedding)
  • 히든 스테이트(hidden state)
  • 체인 오브 쏘트(chain of thought)
  • Coconut 모델
  • 반복 블록(recurrent block)
  • 효율성, 정보 손실, 추론 방식의 변화

📝 정리

  • 인간처럼, AI도 언어 없이 더 효율적으로 생각할 수 있다는 가능성이 실험적으로 입증되고 있습니다.
  • 잠재 공간에서의 추론은 정보 손실을 줄이고, 더 빠르고 정확한 결과를 낼 수 있습니다.
  • 아직은 한계와 도전이 많지만, AI의 추론 방식에 혁신적인 변화를 가져올 수 있는 연구로 주목받고 있습니다.

"누가 알겠어요, 이런 방식이 어떤 새로운 패턴을 발견하게 해줄지?"
— 루크 제틀모이어


✨ 앞으로 AI가 '생각'하는 방식이 어떻게 바뀔지, 기대해봐도 좋을 것 같죠?

Related writing

Related writing

HarvestAIKorean

에이전트가 ‘코딩’하고, 연구가 ‘루프’를 돌기 시작한 시대: 안드레이 카파시 대담 요약

안드레이 카파시는 최근 몇 달 사이 코딩 에이전트의 도약으로 인해, 사람이 직접 코드를 치기보다 “에이전트에게 의도를 전달하는 일”이 핵심이 됐다고 말합니다. 그는 이 흐름이 오토리서치(AutoResearch)처럼 “실험–학습–최적화”를 사람이 거의 개입하지 않고 굴리는 자율 연구 루프로...

Mar 21, 2026Read more
HarvestAIKorean

Claude 코드 서브 에이전트 vs 에이전트 팀: 무엇이 다를까요?

이 영상은 Shaw Talebi가 Claude 코드의 서브 에이전트와 에이전트 팀 기능을 자세히 설명하고, 실제 작업에 이 두 접근 방식을 비교하는 실험 결과를 공유합니다. 영상은 Claude 코드의 기본 개념부터 시작하여 AI 에이전트가 직면하는 문맥 처리의 한계, 그리고 이를 극복하기...

Mar 16, 2026Read more
HarvestAIKorean

한 명이 앤트로픽의 전체 성장 마케팅을 담당했다고? 클로드 코드로 가능했던 놀라운 이야기!

이 이야기는 2026년 기준으로 앤트로픽이라는 380억 달러 규모의 거대 기업에서 단 한 명의 비기술직 직원이 무려 10개월 동안 전체 성장 마케팅 팀의 역할을 수행했던 놀라운 사례를 다룹니다. 이 한 명의 마케터는 유료 검색 광고, 소셜 미디어 광고, 앱 스토어 최적화, 이메일 마케팅,...

Mar 11, 2026Read more