LLM을 활용한 인과추론: PyWhy-LLM 라이브러리의 실전 적용과 실험

이 영상은 Microsoft의 수석 연구원 Emre Kiciman이 PyWhy-LLM 라이브러리 개발 동기와 실제 활용 사례를 소개하는 세션입니다. 시연을 통해 LLM이 인과추론 과정의 핵심적인 '도메인 지식 확보'를 어떻게 지원할 수 있는지 친근하게 설명합니다. LLM의 잠재력, 아직 남은 도전과제, 그리고 개발 초기 단계에서의 실험적 구조까지 핵심 내용을 자세히 다룹니다.

1. 'PyWhy 인과실전' 시리즈 소개 및 세션 개요

강의는 PyWhy 커뮤니티의 새로운 연속 세션의 첫 시간으로 시작합니다. 이번 시리즈는 PyWhy의 라이브러리뿐만 아니라, 기초 인과추론 이론, 실전 적용, 그리고 최근의 흥미로운 연구 동향까지 폭넓게 다루겠다는 취지로 기획되었습니다.

"이번 강연 시리즈는 인과추론과 머신러닝을 실전적으로 어떻게 연결할 수 있는지에 중점을 둡니다."

강연자는 LLM(대형언어모델)과 인과추론이 어떻게 연결되는지 낯설게 느껴질 수 있지만, 오늘 발표를 통해 그 접점을 설명하겠다고 밝혔습니다.

진행 방식도 안내합니다. 발표 45분 동안 질문은 Teams 채팅에 남기면 발표가 끝난 뒤 실시간 Q&A로 답변하는 구조입니다.

2. 인과분석 실무의 고질적 문제와 LLM의 가능성

Emre는 인과추론 분석에서 중요한 부분이 도메인 지식임을 강조합니다. 인과 그래프, 가정 설정 등에서 항상 전문가의 판단이 큰 비중을 차지한다는 점을 짚습니다.

"실제 인과 분석을 할 때 가장 핵심적인 도전은 어디서 도메인 지식을 얻을 것인가라는 점입니다."

이어 대표적인 관찰 연구의 실패 사례를 소개하며, 도메인 지식의 부재가 얼마나 결정적인 문제인지 구체적으로 설명합니다. 대표 사례는 다음과 같습니다.

야간 조명과 근시: 1999년 연구에서는 "아이방에 야간등을 켜고 자면 근시가 올 확률이 커진다"고 결론.

"이후 추가 연구에서 이 결과가 재현되지 않았고, 실제로는 근시 부모가 야간등을 사용할 확률이 높아서 생긴 허위 상관이었다는 게 밝혀졌습니다."
비타민과 심혈관 질환: 각종 비타민이 심혈관 질환을 줄인다는 관찰결과가 있었으나, 무작위 대조군 실험에서 대부분 반박.
코로나19와 의료 인공지능: 팬데믹 초기에 흉부 엑스레이로 코로나 진단을 시도했으나, 실제로는 환자의 자세(앉음/누움), 소아 데이터 등 외부 요인이 혼입하여 쓸 수 없는 진단기가 양산됐다는 실제 최신 사례도 덧붙입니다.

이 같은 문제는 "데이터 생성과정에 대한 도메인 지식을 제대로 반영하지 않아 벌어지는 오류"로 귀결됩니다.

3. PyWhy-LLM: LLM을 인과추론 보조자로

이러한 배경에서 PyWhy-LLM 라이브러리의 등장 배경과 지향점을 설명합니다.

"PyWhy-LLM은 LLM의 방대한 지식을 활용해 그동안 사람 전문가에게만 의존하던 부분을 보완하고자 만든, 실험적 인과추론 지원 도구입니다."

LLM은 대규모 텍스트로부터 이미 수많은 도메인 상식을 내재하고 있기에, 인과분석의 각 단계에서 다음과 같은 역할을 할 수 있습니다.

모델링 및 설계:
- 변수 간 인과관계(원인-결과) 제안
- 아직 생각하지 못한 '잠재적 교란변수' 제치기
- 변수 리스트, 설명 제공
  
  "보통 이 단계에서는 분석가가 여러 전문가와 인터뷰를 반복해야 하는데, LLM이 일차적으로 빠르고 편리한 브레인스토밍 도우미가 될 수 있습니다."
식별(identification):
- 적절한 '도구변수', 'back-door', 'front-door' 변수 제안
검증(validation):
- 인과 그래프에 대한 비판, 대안, 네거티브컨트롤 제안 등
추정(estimation):
- 기존 분석 알고리즘과 연계해 쓸 수 있도록 코드 자동화

여기서 LLM이 제안하는 답은 "기존 PyWhy 라이브러리, 네트워크X 그래프" 등 실무 환경과 자연스럽게 연동되도록 설계됐습니다.

4. PyWhy-LLM 코드 구조 및 주요 예시 시연

이어서 Emre는 PyWhy-LLM의 실제 코드 구조와 사용법을 상세하게 시연합니다.

라이브러리의 suggesters 폴더 아래, 인과분석의 네 가지 단계별로 프로토콜이 정의되어 있습니다.
예를 들어, 모델링 단계에서는:
1. 두 변수("아이스크림 판매량" vs "기온")가 어떤 인과관계인지 판단 요청
2. 여러 변수 리스트를 입력해 인과그래프(네트워크X 호환)로 변환
3. 특정 '처치-결과' 쌍에 대해 잠재적 교란변수 제안
이렇게 LLM의 답변은

"기온이 아이스크림 판매량에 영향을 줍니다(B), 아이스크림 판매량과 상어 공격 사건은 서로 인과관계가 없습니다(C)" 와 같은 선택지로 반환되고, 코드는 이를 실무 분석에 사용할 수 있는 구조로 변환합니다.
LLM이 오해하기 쉬운 변수명(예: 'sex'라는 컬럼명)이 나오면,

"LLM이 '성'을 환자의 성별 정보가 아닌, 성적 활동 여부로 잘못 해석한 경우가 있었다" 처럼 실제 발생하는 해프닝도 소개하며, 이럴 땐 추가로 '응답의 모호성 체크' 기능을 넣어 개선할 수 있다고 안내합니다.

또한 "지금은 Guidance라는 라이브러리가 내부적으로 사용되고 있으나, 이후 LangChain 등 다양한 연결도 열려 있다"고 밝힙니다.

질의응답 시간에 참가자는 "시계열 데이터 피드백루프 같은 복잡한 구조, 여러 분석가들이 선호하는 파이프라인의 유연성"에 대해 질문했으며, Emre는 "여전히 개발 초기임을 감안해 유연한 구조와 계속된 실험을 지향한다"고 설명합니다.

5. 더 복잡한 활용과 앞으로의 방향

고도화된 활용을 위한 확장 아이디어와, 커뮤니티의 참여에 관한 논의도 이어집니다.

예를 들어,

"Pandas DataFrame, Causal Model 등에 바로 질문하고, 분석 방법 추천 등도 LLM-에이전트로 만들면 어떻겠느냐" 는 의견에 Emre는, "PyWhy-LLM의 기본 설계 자체가 각 분석 단계를 쪼개서 유연하게 바꿀 수 있고, LangChain, autogen 등 다양한 프레임워크와 호환·실험해보려 한다" 고 답하며, 커뮤니티의 실험적 시도 역시 대환영이라고 힘주어 말합니다.

또한 PyWhy-LLM은 아직 개발 초기의 실험 라이브러리임을 재차 강조합니다.

"사용해 보고 이슈나 버그, 구조에 대한 의견, 혹은 직접 코드 기여 등 모든 형태의 피드백을 환영합니다. 지금은 실험 단계이니 다양하게 바꿔보고, 느슨하게 구조를 잡은 상태입니다."

6. 정리 및 안내

세션 말미에는 앞으로의 개발 계획 및 커뮤니티 소통 방식을 안내합니다.

코드 전체는 곧 GitHub에 PR로 업데이트될 예정
피드백·이슈 제기는 GitHub, Discord 등 PyWhy 커뮤니티 채널에서 적극적으로 받고 있음
향후 강연 일정, 다음 발표자 등은 Discord에서 공지

"앞으로 2주마다 새로운 강연이 계속될 예정이니, 관심 있는 분들은 Discord 채널을 통해 소식을 확인해 주세요!"

마무리

이번 세션은 기존 인과추론의 숙제였던 '전문가 의존성'을 LLM으로 완화하려는 PyWhy-LLM의 출발점과 실제 예시를 폭넓고 친절하게 소개했습니다. 분석가들은 실험적 라이브러리라는 점을 염두에 두되, 적극적으로 테스트하고 발전에 함께 참여할 수 있습니다.

"PyWhy-LLM은 아직 실험 중이지만, 앞으로 인과추론 실무를 크게 변화시킬 잠재력이 있다"
는 메시지와 함께, 커뮤니티 중심의 발전을 강조하는 훈훈한 분위기로 마무리됩니다. 🚀

1. 'PyWhy 인과실전' 시리즈 소개 및 세션 개요

2. 인과분석 실무의 고질적 문제와 LLM의 가능성

3. PyWhy-LLM: LLM을 인과추론 보조자로

4. PyWhy-LLM 코드 구조 및 주요 예시 시연

5. 더 복잡한 활용과 앞으로의 방향

6. 정리 및 안내

마무리

Related writing

에이전트가 ‘코딩’하고, 연구가 ‘루프’를 돌기 시작한 시대: 안드레이 카파시 대담 요약

Software 3.0 시대, 조직의 생산성을 끌어올리는 AI 하네스 구축하기

ChatGPT에서 1위가 되는 법 (레딧을 활용해서!)