PyWhy-LLM: 대형 언어 모델을 활용한 실제 인과 추론의 혁신

이 영상은 PyWhy 커뮤니티의 첫 번째 'Causality in Practice' 시리즈 세션으로, 마이크로소프트의 Emre Kiciman이 pywhy-llm 라이브러리를 중심으로 대형 언어 모델(LLM)을 인과 추론에 접목하는 최신 시도와 가능성을 소개합니다. 영상은 '왜 도메인 지식이 인과 추론의 핵심이며, 그 취득이 얼마나 쉽지 않은지', LLM이 어떻게 이 문제를 보완하는지, 그리고 pywhy-llm이 제공하는 실질적 프로토콜/기능을 튜토리얼 형식으로 구체적으로 보여줍니다. 마지막으로 커뮤니티의 의견·참여를 독려하며 라이브러리의 미완성 단계와 앞으로의 발전 방향을 논의합니다.

1. 시리즈 개요 및 도입

이날 세션은 'Causality in Practice'라는 새 연속 강연의 첫 시간으로 시작됩니다. 참가자들은 단순히 도구의 사용법만이 아니라, 도구의 근간인 인과성의 원리와 실제 현장에서 부딪히는 문제들까지 심도 있게 다루는 것을 목표로 합니다.

"많은 커뮤니티 피드백에서, 우리가 만드는 툴뿐 아니라 그 배경의 인과론도 다뤄달라는 요청이 많았어요. 그래서 각종 최신 인과 연구, 실습 강의, 외부 전문가 발표를 함께 다루는 시리즈를 준비하게 됐죠."

이번 첫 강연의 주인공 Emre Kiciman은 PyWhy와 다양한 인과성 프로젝트에서 활약한 오랜 동료 연구자로, 대형 언어 모델과 인과 추론이 어떻게 접목될 수 있는지를 중점적으로 소개합니다. 팀즈(Teams)에서 진행된 이 온라인 강연은 발표 후 실시간 질의응답으로 이어집니다.

2. LLM과 인과 추론이 만나는 지점 – 문제의식

영상의 주요 주제는 인과 추론에서 핵심이지만 가장 어려운 부분 – '도메인 지식의 확보'입니다.

"인과 추론이 실제로 어렵게 만드는 건 바로 '도메인 지식'이에요. 즉, 인과 그래프 자체는 어디서 오는가? 라는 근본적인 질문이죠."

그는 과거 잘못된 인과적 해석으로 벌어진 실례들을 들며, 공통 교란 변수나 데이터의 본질적 한계를 설명합니다.

예시 1: 야간 조명이 근시를 유발한다는 주장
1999년 '자녀가 밤에 야간 조명 아래 있으면 근시가 더 많이 생긴다'는 연구가 대대적으로 보도되었으나, 후속 연구에서 부모의 근시가 조명 사용에 영향을 미친 교란변수로 밝혀져 인과관계가 무효화됨.

"작은 불빛이 아이의 근시 원인이라는 결론이 실제로는 가족력이라는 숨겨진 변수를 간과한 결과였다는 거죠."

예시 2: 비타민 C, E가 심장질환을 줄인다는 주장
사회경제적 지위 등 여러 교란 변수가 함께 작용함을 간과한 결과, 무작위 비교군(RCT)에서는 이 효과가 사라짐.

"많은 건강 claims들이 실제 RCT에서는 재현되지 않거나 오히려 반대 결과가 나오는 경우가 많았어요. 교란 변수를 빠뜨렸기 때문이죠."

예시 3: 코로나19 초기 CT 스캔 판별 AI의 실패
AI가 실제로는 환자가 누운 상태/앉은 상태, 혹은 어린이 환자 구분 등에만 반응하는 등, 잘못된 데이터 구조와 숨겨진 규칙들 때문에 현장에서 무용지물이 된 사례를 들려줍니다.

이런 사례들은 모두 인과 추론에서의 '도메인 지식'이 제대로 반영되지 못할 때, 관찰 데이터에서 인과성을 오판할 수 있음을 보여줍니다. Emre는 바로 이 지점을 LLM이 지원할 수 있다고 봅니다.

"LLM은 인터넷상 방대한 텍스트, 전문가 지식에 기반해, 우리가 일일이 찾고 확인하기 힘든 연관성·배경지식까지 자연스럽게 활용할 수 있다는 큰 강점이 있죠."

3. pywhy-llm: LLM 내장 프로토콜로 인과 분석을 돕다

이제 pywhy-llm 라이브러리가 무엇이고, 어떻게 인과 추론 각 단계에서 LLM을 '조력자'로 활용하는지 소개합니다.

주요 설계철학 및 지원 단계

측정/모델링 단계
- LLM이 '문제에 관련된 인과적 변수 관계 파악', '잠재적 교란 변수를 제안'
- 기존엔 데이터 과학자가 여러 도메인 전문가와 반복적 논의를 해야만 했던 부분을 LLM이 지원
식별 단계
- '적절한 인과 분석 방법(백도어, 프론트도어, 도구변수 등) 추천'
- 그래프 분석이 복잡하거나, 전문가 직관이 필요한 부분에서 보조
검증 단계
- LLM이 생성한 인과 그래프에 대한 비평/수정 제안, 부정적 대조군이나 잠재 교란변수 자동 탐지
효과 추정 단계
- 기존 라이브러리(econml 등)와 연동, 코드 생성과 같은 자동화·보조에 집중

"pywhy-llm은 실험적이며, 간단한 인터페이스-복잡한 인터페이스가 공존할 수 있도록 설계됐어요. 앞으로도 다양한 확장, 심화 구현이 가능하도록 열린 구조를 갖추고 있습니다."

4. pywhy-llm 코드/노트북 실습: 어떻게 동작하나?

여기서는 pywhy-llm이 실제 어떻게 작동하는지 데모와 함께 상세히 설명합니다.

프로토콜 구조
- 'Suggesters' 폴더에 각 인과 분석 단계별(모델링, 식별, 검증, 효과 추정) 프로토콜이 정의되어 있음
- 예를 들어, 모델링 단계에서는
  - 변수 쌍 간의 인과 방향 제안(pairwise relationship)
  - 다수 변수로 인과 그래프 전체 제안
  - 특정 처치-결과 쌍에 대해 잠재 교란변수 제시 등
예제 실행
1. 아이스크림 판매와 온도 관계
  - 두 변수('아이스크림 판매', '온도')를 입력
  - LLM이 "온도가 아이스크림 판매에 영향을 준다"라고 추론
    
    "최종 답은 B, 즉 '온도가 아이스크림 판매를 유발한다'로 나왔어요."
2. 아이스크림 판매와 상어 공격
  - LLM이 "둘은 서로 영향을 주지 않는다"고 판단
    
    "결론은 C, 즉 어느 쪽도 서로의 원인이 아니다."
3. 잠재 교란변수 제안 예시
  - "아이스크림 판매 → 상어 공격"의 교란변수?
    
    "해수욕장 방문객 수, 계절, 수온, 공휴일, 상어 개체수, 해수욕 조건, 관광 시즌..." 등 다양한 교란변수를 자동 제안
4. 인과 분석 방법 제안
  - 예를 들어 '흡연이 신생아 체중에 미치는 영향'을 알고 싶을 때, "시가렛세(담배세금)" 변수를 도구변수로 활용할 수 있음을 지목
프롬프트 엔지니어링의 유연성
- 변수 설명을 더 길게 넣을 수 있고, 특정 도메인 전문가 역할도 부여 가능
- LLM 실수(변수 해석 오류, 모호성 등)에 대해, 추가 질의-사용자 확인 루프도 설계

"예를 들어 데이터 칼럼명이 'sex'여서, LLM이 이를 '성별'이 아니라 '성적 활동력'으로 오해하는 등 실제로 해석 오류가 발생한 사례도 있죠. 이런 모호성을 명시하는 구조도 LLM 활용의 중요한 포인트입니다."

5. 커뮤니티 논의 및 발전 방향

현재 pywhy-llm은 매우 실험적인 초기 단계임을 강조합니다.

"오류도 있고, 개선이 많이 필요해요. 일부 고급 구현 버전에서는 버그가 남아있는 상태지만, 누구나 가볍게 실습하고 기여할 수 있게 최대한 단순하게 인터페이스를 설계했습니다."

질의응답에서는 커뮤니티의 다양한 의견이 오갔습니다.

순환적 인과관계(피드백 루프)
- 시간적 데이터·순환 관계 지원이 본격적으로 필요함
파이썬/오픈AI/LangChain 등 다양한 LLM 프레임워크와의 연동
- "특정 라이브러리로 제한하지 말고, 서로 다른 백엔드(예: Langchain, babyAGI, AutoGen 등)를 쉽게 확장·연결하는 구조가 더 유용할 것"
자동 그래프 파싱, 결과 설명서 자동 생성, 다양한 field-specific template 적용 가능성
- 실제 사용자 워크플로우를 원활히 지원할 방법 논의

"앞으로 많은 기여와 의견, 실험적 코드를 환영합니다. 빠르게 발전하는 분야이니, 일단 방법을 시도하고 나중에 더 나은 방식으로 교체하는 속도가 중요해요!"

마무리

영상 끝에서는 pywhy-llm이 아직 완성도가 낮은 실험적 라이브러리임을 거듭 강조하지만, LLM 기반 인과 추론 자동화의 큰 가능성과 함께 커뮤니티의 주도적 참여를 적극 초대합니다. 향후 2주마다 계속 이어질 연속 세미나 일정, 개발 최신 소식들은 PyWhy Discord·GitHub를 통해 공유 예정임을 안내하며 세션이 마무리됩니다.

"여러분의 실험, 피드백, 코드 기여를 기대합니다! 기대 이상으로 다양한 협력, 혁신이 이어지길 바랍니다. 앞으로도 두 주마다 계속 만나요!"

주요 키워드:

인과 추론(Causal inference)
도메인 지식(Domain knowledge)의 중요성
LLM(대형 언어 모델)을 통한 인과 추론 지원
pywhy-llm 라이브러리
실험적 프로토콜, 워크플로우 자동화
커뮤니티 기여 및 발전 가능성

마치며

pywhy-llm은 LLM을 활용해 인과 추론의 고질적 난제(도메인 지식화, 전문가 협업 부담)를 획기적으로 완화할 수 있는 새 실험적 시도를 보여줍니다. 완성도는 낮지만 열린 구조와 실용적 예제가 인상적이며, 커뮤니티의 활발한 실험·기여가 더욱 중요한 시점임을 영상은 힘주어 강조합니다. 🎉

1. 시리즈 개요 및 도입

2. LLM과 인과 추론이 만나는 지점 – 문제의식

3. pywhy-llm: LLM 내장 프로토콜로 인과 분석을 돕다

주요 설계철학 및 지원 단계

4. pywhy-llm 코드/노트북 실습: 어떻게 동작하나?

5. 커뮤니티 논의 및 발전 방향

마무리

마치며

함께 읽으면 좋은 글

에이전트가 ‘코딩’하고, 연구가 ‘루프’를 돌기 시작한 시대: 안드레이 카파시 대담 요약

스타트업의 다음 시대정신을 찾아서: Beyond Product 요약

Software 3.0 시대, 조직의 생산성을 끌어올리는 AI 하네스 구축하기