대형 언어 모델은 정말 인과 추론을 할 수 있을까?

대형 언어 모델(LLM)들이 다양한 인과추론(원인과 결과를 파악하는 능력) 과제에서 인간을 능가하는 수준의 성능을 보여주지만, 진정으로 인과 관계를 이해한다고 보기는 어렵다는 연구 결과가 속속 등장하고 있습니다. 이 글에서는 LLM의 인과 추론 능력, 한계, 그리고 앞으로의 연구 방향을 시간순으로 상세히 정리합니다.
핵심 결론은 LLM은 인과적 "앵무새"처럼 행동하며, 실제로는 통계적 상관관계 패턴을 반복할 뿐 깊은 인과적 이해에 이르지 못한다는 점입니다.

1. 인과 추론이란 무엇인가?

우리 인간은 주변에서 일어난 일을 보고 "왜 그런 일이 일어났을까?"를 곧잘 추론합니다.
예를 들어, 약을 먹고 건강이 나아지면 "약 때문이구나"라고 생각하거나, 비구름을 보고 "곧 비가 오겠다"고 예측하죠.
이렇게 원인과 결과를 파악하고 예측하는 힘이 바로 인과 추론입니다.

이런 능력은 과학, 의학, 정책 등에서 매우 중요하며,

"원인을 제대로 알면, 효과적으로 문제에 개입하고 잘못된 원인에 헛된 노력을 쏟지 않을 수 있습니다."

2. 인과 추론 과제의 종류

인과 추론에도 여러 종류가 있습니다:

인과 발견 : 관찰 데이터만으로 변수들 간에 실제 원인-결과 관계를 찾기
효과 추정 : 원인이 결과에 미친 영향의 크기를 계량적으로 구하기
반사실 추론 : 현실과 달랐더라면 어땠을지 상상하기
실제 인과 판단 : 특정 사건에 실제로 영향을 미친 원인을 가려내기

"만약 내가 담배를 피우지 않았다면, 난 여전히 암에 걸렸을까?" (반사실 추론의 예시)

이런 모든 작업은 단순한 암기나 상관관계 찾기를 넘어서
상황을 다양하게 바꾸어 생각해볼 수 있는 사고력을 요구합니다.

3. LLM의 인과 추론 성능은 어느 정도일까?

연구자들은 GPT-3와 GPT-4 등 최신 LLM들이 다양한 인과 추론 벤치마크에서 얼마나 잘하는지 실험했습니다.
그 결과는 기대 이상으로 놀라웠습니다!

쌍(pairwise) 인과 발견:
100개가 넘는 실제 사례에서 변수 두 개씩 짝지어 원인-결과를 맞추는 과제에서 LLM의 정확도는 97%.

"물리학, 생물학, 역학 등 다양한 분야를 넘나들며, 이전 최고 알고리즘(83%)을 훌쩍 넘겼다."
전체 인과 그래프 복원:
여러 변수가 있을 때 전반적인 인과관계 네트워크를 그릴 때도 GPT-4가 최신 딥러닝 방식만큼이나 정확한 구조를 만들어냈습니다.
반사실 추론:
GPT-4는 "만약 그 일이 일어나지 않았다면?"이라는 상황도 92% 정확도로 정답을 고름.
필요/충분 원인 식별:
"이 사건이 일어나려면 꼭 필요한 원인(필요 원인)"과 "이것만으로 충분히 사건을 만들 수 있는 최소 원인"도 86%의 정확도로 맞춤.
정상성 평가:
일반적인 상황(기본값, 규범 위배 등)이었는지 판단하는 더 난이도 높은 과제에서도 70% 언저리의 정확도를 기록했습니다.

"LLM들은 데이터 분석 없이 문제 설명(프롬프트)만 읽고도 상식과 배경지식을 총동원해 높은 성적을 거뒀다."

4. LLM 인과 추론의 한계와 문제점

하지만 완벽하진 않습니다. 대표적 LLM인 GPT-3, GPT-4는 모두 특정 영역에서 약점이 뚜렷하게 드러났죠.

예기치 않은 실패:
- 문맥 오해: 훈련 데이터에 흔하지 않던 상황에선 원인관계를 잘못 해석해 완전히 틀린 답을 내기도 함
- 논리적 오류: 어떤 경우에는 논리적으로 타당한 답변을 하다가도, 비슷한 문제에서 순식간에 실수를 범함
불안정/취약성:
- 질문 방식에 지나치게 민감:
  질문을 어떻게 말하느냐에 따라 답이 크게 달라진다.
  
  "똑같은 질문에 두 번 물으면 매번 다른 대답이 돌아온다"
  "언어적 힌트에 의존하다보니, 진정한 인과 메커니즘을 이해했다기보다는 프롬프트의 문장 구조에 좌우된다."
벤치마크별 성능 차:
예를 들어, GPT-4는 반사실 문제, 인과 그래프 그리기에서는 탁월하지만, 규범성 평가(normality) 등에서는 여전히 빈틈이 많습니다.

5. LLM은 진짜로 인과를 이해하지 못한다

LLM이 "인과 관계"를 논할 때 정말 원리까지 파악해서 말하는 걸까요?
정답은, "인과적 앵무새"에 가깝다는 겁니다!

"LLM은 겉보기에 인과적 답변을 하지만, 실제로는 훈련 데이터 속 거대한 통계적 상관관계만을 복사(repeat)할 뿐이다."

상관관계와 인과관계 혼동:
LLM은 통계적으로 반복적으로 나타난 "패턴"을 그대로 모방하는 기술입니다.
실제로 어떤 일이 왜 일어났는지(인과적 메커니즘)는 알지 못하죠.
Meta SCMs 개념:
Zečević 외 연구진은 "메타 인과 모델(meta SCMs)"이라는 개념을 통해 LLM의 인과적 답변이 실제로는
실질적 인과 이해가 아닌, 반복된 상관 패턴의 재활용임을 보여줬습니다.

"LLM은 실제 인과 관계를 구성하지 않고 그저 학습된 인과 진술을 반복해 말한다. (앵무새처럼)"

6. LLM 인과 추론 연구의 미래 방향

이제 연구자들은 LLM의 약점을 보완하는 여러 연구를 제안하고 있습니다.

인과 추론 능력의 실체 분석 : LLM이 어떻게 인과 정보를 응용하는지, 인간의 상식/도메인 지식과 결합하는 방법을 더 깊이 연구
더 강하고 일관된 성능 확보:
외부 도구와의 결합, 더 다양한 프롬프트 설계, 여러 LLM을 조합해 신뢰성 높이기
전통적 인과 분석기법과 결합:
LLM이 방대한 도메인 지식 DB 역할을 하여 인과 분석 준비 과정 자체를 자동화할 수 있음
설명 가능한 인과 추론 및 실제적 인과성 판단 지원:
법률, 정보분석, 기계 학습 등 다양한 분야에서 LLM이 전문가의 "근거 설명"을 지원할 잠재력
인간-LLM 협력:
예를 들어 인간이 생성한 인과 그래프를 LLM이 피드백해주거나, LLM이 자동으로 후보 인과 관계를 제안하는 등 협력적 분석 체계 제안

7. 결론

최근 LLM은 여러 인과 추론 과제에서 인간과 기존 알고리즘을 넘어서는 놀라운 결과를 내고 있습니다. 그렇지만 이 모델들은 여전히 "진짜로 인과를 이해하지는 못하고, 보고 배운 패턴만 반복한다"는 한계가 분명합니다.

앞으로 LLM은 "쉽고 유연한 자연어 기반 인과 추론 도구"로서 인간 전문가를 보조할 수는 있지만,
딥러닝만으로 인과의 복잡한 원리까지 파악할 수 있다는 환상은 경계해야 합니다.
인간과 LLM, 전통적 인과 추론 기법이 서로 보완하며 더 안전하고 신뢰할 수 있는 인과 추론 AI를 만들어가는 것이 미래의 방향입니다.