에이전트가 ‘코딩’하고, 연구가 ‘루프’를 돌기 시작한 시대: 안드레이 카파시 대담 요약

안드레이 카파시는 최근 몇 달 사이 코딩 에이전트의 도약으로 인해, 사람이 직접 코드를 치기보다 "에이전트에게 의도를 전달하는 일"이 핵심이 됐다고 말합니다. 그는 이 흐름이 오토리서치(AutoResearch)처럼 "실험–학습–최적화"를 사람이 거의 개입하지 않고 굴리는 자율 연구 루프로 확장될 거라고 보고, 그 과정에서 생기는 한계(평가 가능한 지표, 모델의 '울퉁불퉁함')도 솔직히 짚습니다. 또한 일자리/오픈소스/로보틱스/교육까지 이어지는 "에이전트 시대의 2차 효과"를 큰 그림으로 연결합니다.

1. "코딩이란 말이 이제 맞지도 않아요": 에이전트로 바뀐 개발 감각(00:00~06:15)

대담은 카파시의 강렬한 체감에서 시작합니다. 그는 더 이상 "코딩한다"고 표현하기 어렵다고 말해요. 이제는 하루 16시간 동안 키보드로 코드를 치는 게 아니라, 에이전트들에게 자신의 의도를 '표현'하고 일을 분배하는 시간이 됐다는 겁니다.

"이제 '코딩'이라는 동사가 맞지도 않아요. 저는 하루 16시간 동안 에이전트들에게 제 의지를 표현하죠. '현실화(Manifest)'하는 거예요."

카파시는 특히 2025년 12월(그가 말한 'December') 즈음에 뭔가 "뒤집히는 순간"이 있었다고 회상합니다. 예전에는 본인이 코드의 80%를 직접 쓰고 에이전트가 20% 보조했다면, 그때 이후로는 에이전트가 80% 이상을 담당하게 됐고, 지금은 그 비율이 더 커졌다고요. 심지어 "12월 이후로는 코드 한 줄도 직접 안 친 것 같다"고 말합니다.

"12월부터는… 제가 직접 타이핑한 코드가 거의 없어요. 변화가 너무 커요."

진행자 사라 구오도, 주변 팀이 "마이크를 켜고 에이전트에게 속삭이며" 개발하는 모습을 보고 처음엔 이상했지만, 이제는 그게 앞서 있었던 방식이었다고 인정합니다.

카파시가 느끼는 핵심 병목은 더 이상 컴퓨팅 파워가 아니라 '나 자신'입니다. 예전 PhD 시절엔 GPU가 놀면 불안했는데, 이제는 토큰(token) 처리량이 남아돌면 불안하다는 표현이 인상적입니다.

"예전엔 GPU가 안 돌면 불안했어요. 지금은 토큰이에요. '내 토큰 처리량이 최대치인가?'가 신경 쓰이죠."

그리고 이 상황이 "중독적"인 이유도 설명합니다. 잘 쓰면 성과가 바로 나오니, 결국 "안 되면 능력이 부족해서가 아니라 내가 조합을 못해서(스킬 이슈)"라고 느끼게 되고, 더 파고들게 된다는 겁니다.

"안 되면 '기능이 없는 게 아니라 내가 못 쓰는 거(스킬 이슈)'처럼 느껴져요. 그래서 더 중독적이죠."

2. 코딩 에이전트 '숙련'이란 무엇인가: 멀티 에이전트, 매크로 액션, 그리고 '클로(Claw)'(06:15~11:16)

카파시가 말하는 숙련의 방향은 단순합니다. 스택을 올라가는 것—즉, "한 번의 채팅 세션에서 코드 조금 생성"이 아니라, 여러 에이전트가 협업하는 운영 방식으로 가는 겁니다.

그는 사람의 작업 단위가 점점 "라인/함수"가 아니라, 저장소(repository)를 통째로 움직이는 '매크로 액션'이 된다고 설명합니다.

"이제는 '여기 한 줄'이 아니라 '새 기능 하나'를 에이전트 1에게 통째로 맡기고, 다른 기능은 에이전트 2에게 맡기고… 저장소를 매크로 단위로 조작하는 거죠."

여기서 그가 자주 언급하는 개념이 '클로(Claw)'입니다. 카파시가 말하는 클로는 "대화형 도구"를 넘어, 지속적으로 루프를 돌며 사용자가 보고 있지 않아도 샌드박스 안에서 일을 진행하는 반(半)자율 실행층에 가깝습니다. 또한 일반 에이전트의 단순 요약형 메모리보다 더 정교한 기억/지속성 시스템이 중요하다고 봅니다.

"클로는… 내가 중간에 끼어 있는 대화가 아니라, 자기 샌드박스에서 계속 루프를 돌면서 내가 안 보고 있어도 뭔가를 해요."

그는 피터(피터 스타인버그)를 예로 들며, 화면에 여러 에이전트를 띄워놓고 20분 단위로 결과를 받는 운영 방식(멀티 레포/멀티 태스크)을 "미래의 기본형"처럼 이야기합니다.

또 흥미롭게도, 에이전트의 '성격(퍼소나)'이 생산성에 큰 영향을 준다고 말합니다. 예를 들어 Claude는 "팀메이트처럼" 느껴지는데, 어떤 코딩 에이전트(Codex 등)는 너무 건조해서 "우리가 뭘 만드는지 이해하는지 모르겠다"는 거죠.

"어떤 에이전트는 '구현했습니다' 하고 끝이에요. '우리가 뭘 만드는지 이해하냐?' 싶죠."
"Claude는 팀메이트 같아요. 성격이 꽤 중요해요."

칭찬(피드백)도 미묘하게 조율돼야 한다고 말합니다. 아무 생각이나 던져도 과하게 칭찬하면 오히려 이상하고, 좋은 아이디어일 때만 조금 더 반응이 커야 사용자가 "칭찬을 벌려고" 더 몰입한다는, 묘하게 인간적인 포인트도 언급합니다.

"이상한데… Claude의 칭찬을 '벌고 싶어'져요."

3. 자연어가 UI를 삼키는 순간: '앱 과잉'에서 'API + 에이전트 접착제'로(11:16~15:51)

카파시는 집 자동화 사례를 들며, 사람들이 AI에게 기대하는 모습이 "원시적인 LLM(토큰 생성기)"이 아니라 기억하는 페르소나 + 메신저 뒤의 존재라고 말합니다. 즉 "WhatsApp 뒤에 있는 어떤 엔티티"가 더 이해하기 쉽다는 거예요.

"사람들이 머릿속으로 기대하는 AI는… 토큰 생성기가 아니라 '기억하는 페르소나'예요. WhatsApp 뒤의 어떤 존재 같은 거죠."

이 흐름은 소프트웨어 산업에도 큰 질문을 던집니다. 카파시는 스마트홈 기기마다 앱이 6개씩 있는 현실을 두고, 이제는 그런 앱들이 "사실 없어도 되는 것"처럼 느껴진다고 해요. 핵심은 사람이 UI를 배우는 비용이 너무 크고, 에이전트가 있으면 UI를 통합해버릴 수 있다는 점입니다.

"이 앱들… 사실 존재하면 안 되는 거 아닐까요? 그냥 API가 있고, 에이전트가 직접 붙이면 되잖아요."

그는 이 변화를 '고객이 인간이 아니라 에이전트가 되는 리팩터링'이라고 표현합니다. 즉 앞으로는 "사람이 클릭하는 UI"보다 "에이전트가 호출할 API"가 더 중요해지는 구조로 재편될 수 있다는 거죠.

또 "지금은 바이브 코딩(vibe coding)처럼 어느 정도 기술적 개입이 필요하지만, 1~3년 안에는 이런 작업이 무료(기본값, table stakes)처럼 되어야 한다"고 전망합니다.

"지금은 바이브 코딩이지만… 1~3년이면 '이건 기본'이 될 거예요."

4. '도비(Dobby)' 집사 클로: 3번 프롬프트로 집을 통합 운영하다(09:25~16:11 내 사례 중심)

카파시는 2026년 1월에 "클로 광기(심취)" 기간이 있었고, 그때 집을 관리하는 클로를 만들어 '도비(Dobby) 집사 클로'라고 불렀다고 합니다. 여기서 놀라운 건 구현 방식이 "거대한 엔지니어링"이 아니라, 에이전트에게 시키는 몇 번의 지시로 시작됐다는 점이에요.

그는 집 안 네트워크에서 Sonos 장비를 찾아보라고 시켰더니, 에이전트가 IP 스캔을 통해 장비를 찾고, 웹 검색으로 API 엔드포인트를 파악하고, 실제로 음악을 재생시켰다고 말합니다.

"제가 '우리 집 Sonos 찾아줄래?'라고 쳤더니… 갑자기 음악이 나와요. '이게 세 번 프롬프트라고?' 싶었죠."

이 방식은 조명, HVAC(냉난방), 블라인드, 수영장/스파, 보안까지 확장됩니다. 특히 바깥 카메라에서 움직임이 감지되면, Qwen 같은 비전 모델로 장면을 요약해 WhatsApp으로 "FedEx 트럭이 도착했다" 같은 알림을 보내게 했다는 대목이 생생합니다.

"도비가 WhatsApp으로 'FedEx 트럭이 방금 도착했어요'라고 사진을 보내요. 진짜 믿기 힘들죠."

그는 이 경험이 주는 핵심 가치를 "예전엔 앱 6개를 썼는데, 이제는 자연어로 다 통합됐다"는 점으로 정리합니다. 🏠

다만 이메일/캘린더 같은 "디지털 삶 전체"에 대한 접근 권한은 아직 불안해서 주지 않았다고 덧붙입니다. 보안/프라이버시/거칠고 새로운 시스템에 대한 경계가 남아 있다는 것이죠.

"아직은 좀 의심스럽고 거칠어요. 제 디지털 삶 전체 접근 권한은 안 줬어요."

5. 왜 오토리서치인가: "나를 병목에서 빼야 한다"는 집착(15:51~22:45)

대화의 중심이 오토리서치(AutoResearch)로 옮겨갑니다. 카파시는 요즘 도구를 제대로 쓰려면 사람이 계속 다음 프롬프트를 넣는 구조 자체가 한계라고 봅니다. 목표는 사람을 루프 밖으로 빼고, 적은 토큰 입력으로 큰 결과를 얻는 레버리지를 만드는 것이라고요.

"이제 게임의 이름은 레버리지예요. 토큰을 조금 넣고, 나 대신 엄청난 일이 일어나게 하는 것."

오토리서치는 그 철학의 구체적 구현입니다. "목표, 지표(metric), 금지선(boundary)"만 정해주면, 에이전트가 실험–학습–최적화 루프를 자동으로 반복하는 방식이죠.

그는 자신이 오랫동안 장난감 실험장처럼 돌려온 nanoGPT/GPT-2급 훈련 환경에서, 오토리서치를 하룻밤 돌렸더니 본인이 놓친 튜닝 포인트(예: value embedding의 weight decay, Adam betas 상호작용 등)를 찾아왔고, 생각보다 효과가 있었다고 말합니다.

"하룻밤 돌렸더니… 제가 놓친 튜닝이 나오더라고요. '내가 병목이면 안 되는데' 싶었죠."

카파시가 더 크게 관심 갖는 건 단순 자동 튜닝이 아니라 재귀적 자기개선(recursive self-improvement)입니다. "LLM이 LLM을 개선하는" 구조가 프런티어 연구소들이 노리는 본질일 거라고 보고, 자신은 그 축소판을 개인 프로젝트로 탐색 중이라는 맥락입니다.

"제가 진짜 관심 있는 건 'LLM이 LLM을 개선할 수 있나'예요. 재귀적 자기개선이죠."

또 그는 프런티어 연구소들이 수만 개 GPU 클러스터를 갖고 있으니, 작은 모델에서 자동 탐색을 대규모로 돌리고, 그 결과를 스케일링/외삽해 큰 모델에 적용하는 전략이 훨씬 강해질 수 있다고 봅니다.

6. "program.md도 모델이 더 잘 쓰는 날이 온다": 메타 최적화와 '무한 양파'(20:54~23:14)

사라 구오는 한 단계 더 밀어붙입니다. "오토리서처의 동작 규칙을 적어둔 program.md(조직의 운영 매뉴얼)도 모델이 더 잘 쓰게 되는 것 아니냐?"는 질문입니다.

카파시는 이에 강하게 동의하면서, 연구 조직 자체를 "마크다운 파일들의 집합"으로 볼 수 있다고 말합니다. 역할/프로세스/리스크 성향(예: 불필요한 스탠드업 줄이기)까지 전부 코드화할 수 있고, 그러면 조직 운영도 튜닝 대상이 된다는 거죠.

"연구 조직은… 역할과 연결 방식을 적은 마크다운 파일들의 집합일 수 있어요."

그는 "같은 하드웨어에서 어떤 program.md가 가장 성능 개선을 많이 내는지" 경연을 열고, 그 데이터를 다시 모델에 먹여서 더 나은 program.md를 쓰게 하는 아이디어도 긍정합니다. 결국 지시문 최적화(메타 최적화)가 가능해지고, 이게 층층이 쌓이는 "양파 레이어"가 된다는 겁니다.

"LLM은 당연한 전제가 되고, 에이전트도 당연해지고, 클로도 당연해지고… 그다음은 '지시문 최적화'예요. 이게 무한이에요."

그래서 그가 초반에 말한 "AI 사이코시스(현실감 붕괴 같은 심취)"로 다시 돌아옵니다. 가능성이 너무 크고, 어디까지가 한계인지 감각이 흐려지기 때문이죠.

7. 아직 남은 한계: '평가 가능성'과 모델의 울퉁불퉁함(22:45~32:30)

카파시는 오토리서치가 만능은 아니라고 선을 긋습니다. 가장 큰 조건은 객관적 지표로 평가가 가능한가입니다. 예를 들어 CUDA 커널 최적화처럼 "동일 동작 + 더 빠른 속도"는 측정이 쉬워서 완벽한 फिट이지만, 평가가 어려우면 자동 루프가 굴러가기 힘들다는 거죠.

"평가할 수 없으면 오토리서치도 못 해요."

두 번째로 그는 현재 모델이 "이음새가 터지는(bursting at the seams) 느낌"이 있고, 여전히 거칠다고 말합니다. 그는 요즘 모델이 마치 "평생 시스템 프로그래밍한 매우 똑똑한 박사과정생" 같다가도, 동시에 "10살 아이" 같을 때가 있다고 표현합니다. 이 '울퉁불퉁함(jaggedness)' 때문에, 어떤 순간에는 엄청난 생산성을 보여주다가도, 뜬금없는 실수를 해서 루프가 망가진다는 겁니다.

"저는 지금 모델이 '천재 시스템 프로그래머 박사과정생' 같다가도, 동시에 '10살' 같아서 너무 이상해요."

그는 특히 "부드러운 영역(뉘앙스, 의도 파악, 언제 уточ уточ clarifying question을 할지)"이 약하다고 짚습니다. 그리고 이 현상이 강화학습(RL) 기반 최적화의 특성과도 연결된다고 봅니다. 즉 보상/검증이 가능한 영역은 급격히 좋아지지만, 그렇지 않은 영역은 정체될 수 있다는 거죠.

그 예시로 "농담"을 듭니다. 모델이 수시간 에이전트 작업으로 "산을 옮길" 정도로 강력해졌는데도, 농담을 시키면 몇 년 전부터 돌던 뻔한 농담("원자를 믿지 못하는 이유? 모든 걸 지어내니까")을 계속 한다는 겁니다.

"에이전트 작업은 몇 시간이고 해내는데, 농담은 5년 전 그 뻔한 농담 그대로예요. 그건 최적화되지 않았거든요."

이 대목에서 사라 구오는 "그럼 단일 거대 모델(모노컬처)이 아니라, 분야별로 전문가 모델로 분화(스페시에이션)해야 하는 거 아니냐"고 묻고, 카파시는 장기적으로는 모델 스페시에이션이 더 늘어날 거라고 봅니다. 동물의 뇌가 다양하게 진화했듯, AI도 특정 작업에 최적화된 더 작은 모델들이 효율(지연/처리량) 면에서 의미를 가질 수 있다는 관점입니다.

"오라클 하나가 다 알 필요는 없어요. 더 많은 스페시에이션이 생길 거예요."

다만 현실적으로는 "가중치(weight)를 건드리는" 정교한 조정(지속 학습, 능력 보존형 파인튜닝 등)이 아직 과학적으로/공학적으로 덜 성숙했고, 지금은 컨텍스트 윈도우가 값싸고 쉬운 조작 수단이라 그쪽에 의존하고 있다고 정리합니다.

8. 더 많은 '협업 표면' 만들기: 검증은 싸고, 탐색은 비싼 문제(32:30~37:28)

카파시는 오토리서치의 진짜 재미가 "단일 루프"보다 병렬화(parallelization)에 있다고 말합니다. 여러 오토리서처가 동시에 탐색하면 속도가 달라지니까요.

더 나아가 그는 "인터넷의 불특정 다수(신뢰할 수 없는 풀)"까지 참여시키는 협업 구조를 상상합니다. 핵심은 후보 해법(커밋)은 쉽게 검증할 수 있지만, 그 후보를 찾기까지의 탐색은 엄청 비싸다는 구조입니다.

"10,000개 아이디어를 누군가는 시도해야 하지만, 우리는 '최종 후보가 진짜 좋은지'만 싸게 검증하면 돼요."

그래서 그의 설계는 어쩔 수 없이 블록체인과 비슷한 면이 생긴다고 말합니다. 블록 대신 커밋이 쌓이고, "작업증명(proof of work)"은 대규모 실험 탐색이며, 보상은 (지금은) 금전이 아니라 리더보드 같은 형태라는 비유죠. 다만 임의 코드를 받아 실행하는 건 보안상 위험하니, 안전한 검증/샌드박스 체계가 필수라고 강조합니다.

그는 SETI@home, Folding@home처럼 "찾기는 어렵고 검증은 쉬운" 문제들이 이런 구조에 잘 맞고, 장기적으로는 "인터넷상의 에이전트 스웜"이 프런티어 연구소를 뛰어넘을 가능성까지 상상합니다.

"지구는 훨씬 크고, 신뢰할 수 없는 컴퓨트가 엄청 많아요. 시스템만 잘 만들면 스웜이 프런티어를 이길 수도 있죠."

또 "기부"의 방식도 바뀔 수 있다고 말합니다. 돈을 기관에 내는 대신, 컴퓨트(연산)를 특정 오토리서치 트랙(예: 암 연구)에 제공하는 식으로 참여할 수 있다는 거죠. 이때 사회가 중요하게 여기는 자원이 돈에서 FLOPs(연산량)로 옮겨가는 상상도 덧붙입니다.

9. 일자리 데이터로 본 변화: '디지털은 빠르게, 물리는 느리게' 그리고 소프트웨어 수요(37:28~48:25)

카파시는 최근 공개한 미국 노동통계국(BLS) 데이터 시각화가 AI 일자리 논쟁을 건드린 걸 알고 있다고 말합니다. 그는 "정답을 내리려 한 게 아니라", 직업별 인구 규모와 전망치를 보며 스스로 생각을 정리하려 했다고 설명합니다. 해당 전망은 2024년에 작성된 향후 약 10년 예측이라고 언급됩니다.

그가 만든 큰 구분은 디지털 정보 처리 직업 vs 물리 세계(원자) 다루는 직업입니다. 그는 "비트(bit)를 다루는 변화는 복제/확산이 빨라서 빛의 속도로 진행되지만, 원자를 움직이는 건 훨씬 느리다"고 말합니다.

"비트를 뒤집는 건 엄청 빠르지만, 원자를 움직이는 건 훨씬 느려요."

그래서 가까운 미래에는 디지털 영역에서 대규모 리라이팅/리팩터링이 일어나고, 그 과정에서 직무는 크게 바뀔 거라고 봅니다. 다만 "일자리가 늘지 줄지는 수요 탄력성 등 여러 변수"가 있어서 단정은 피합니다.

구직자/학습자 조언으로는, 우선은 도구가 너무 새롭고 강력하니 따라잡으려는 태도가 중요하다고 말합니다. 많은 사람이 "무시하거나 두려워"하지만, 당장은 기본적으로 강력한 도구이며, 직업은 여러 과업의 묶음이니 일부 과업이 빨라지는 식으로 변화가 시작될 거라는 관점입니다.

"무시하거나 두려워하는 것도 이해돼요. 하지만 지금은 기본적으로 '강력한 도구'예요."

흥미로운 지점은 "엔지니어링(소프트웨어) 수요가 계속 증가한다"는 관찰입니다. 카파시는 여기에 제번스 역설(Jevons paradox)을 가져옵니다. 소프트웨어 생산이 싸지고 쉬워지면, 오히려 소프트웨어를 쓰려는 수요가 폭증할 수 있다는 거죠. ATM이 은행 창구 직원을 없애기보다 지점 수를 늘려 오히려 고용이 유지/변형된 사례를 비유로 듭니다.

"더 싸지면, 오히려 수요가 늘 수 있어요. ATM이 창구 직원을 다 없애지 않았던 것처럼요."

다만 그는 동시에, 프런티어 연구소 내부에서는 연구자들도 "우리가 성공하면 우리도 실직"이라는 감각을 가진다고 말합니다. 연구자들이 결국 자기 자동화를 만드는 역할을 하고 있기 때문이죠.

"OpenAI에서 돌아다니며 말했어요. '우리 성공하면 우리 다 실직이야.'"

10. 프런티어 연구소 안/밖의 딜레마: 영향력, 정렬(Alignment), 그리고 독립성(44:35~48:25)

진행자는 "그렇게 오토리서치가 중요하면 프런티어 연구소에서 큰 컴퓨트로 하는 게 맞지 않나?"라고 묻습니다. 카파시는 질문이 무겁다고 인정하며, 여러 각도에서 답합니다.

그는 프런티어 연구소 밖에서도 생태계 레벨(ecosystem-level)로 매우 큰 임팩트를 낼 수 있다고 말합니다. 동시에 프런티어 연구소 안에 있으면, 거대한 재정적 인센티브와 조직의 이해관계 때문에 완전히 자유로운 발언/행동이 어렵다는 점을 짚습니다.

"프런티어 연구소 안에 있으면… 완전히 자유로운 에이전트가 되긴 어려워요. 말 못 하는 것도 생기죠."

또한 정말 중요한 의사결정은 결국 조직이 내리며, 직원 개인이 "결정권자"가 되긴 어렵다는 현실도 말합니다. 반면, 밖에만 있으면 연구소 내부의 실제 진행 상황이 불투명해서 판단이 드리프트할 수 있다는 불안도 인정합니다.

그래서 그는 한쪽을 절대시하기보다, "일정 기간 안에 들어가 최전선을 경험하고, 다시 밖으로 나와 독립적으로 활동하는" 식의 왕복이 이상적일 수 있다고 정리합니다.

11. 오픈소스 vs 클로즈드: '몇 개월 뒤처진 균형'이 가져오는 생태계 건강(48:25~53:51)

오픈소스가 프런티어에 얼마나 가까운지에 대해, 카파시는 "클로즈드가 앞서지만 오픈소스가 따라오는 간격이 줄었다"고 봅니다. 예전엔 18개월 정도로 보던 격차가, 최근에는 6~8개월 수준으로 느껴진다고 말합니다(정확한 수치라기보다 업계의 체감치).

그는 오픈소스의 역할을 리눅스(Linux)에 비유합니다. Windows/MacOS 같은 클로즈드 OS가 있어도, 산업 전반이 안심하고 쓸 수 있는 공통의 개방 플랫폼이 필요했고 리눅스가 그 자리를 차지했다는 논리입니다. 다만 LLM은 훈련에 막대한 CAPEX(자본 지출)가 들어가서 경쟁이 더 어렵다는 차이도 인정합니다.

그는 장기적으로 "일상적/기본적인 소비자 사용 사례"는 오픈소스가 상당 부분 커버하고(심지어 로컬 실행도), 프런티어 클로즈드는 노벨상급 난제나 초대형 프로젝트 같은 "최전선 수요"로 남을 수 있다고 봅니다.

그리고 무엇보다도 그는 지능이 완전히 클로즈드로만 존재하는 구조에 시스템 리스크가 있다고 말합니다. 중앙집중은 역사적으로(정치/경제) 좋지 않은 전례가 많았고, 따라서 "프런티어는 클로즈드, 그보다 조금 뒤처진 오픈소스가 넓은 공용 기반"으로 존재하는 구도가 권력 균형 측면에서 괜찮다고 평가합니다.

"지능이 전부 클로즈드면… 시스템 리스크가 있어요. 오픈 플랫폼이 필요해요."

12. 로보틱스와 물리 세계: '디지털 다음은 인터페이스, 그다음이 원자'(53:51~1:00:59)

카파시는 자율주행 경험을 바탕으로 로보틱스를 봅니다. 로보틱스는 자본이 많이 들고, 더럽고, 느리고, 어렵다는 것—그래서 디지털 변화보다 뒤늦게 온다는 관측입니다.

"원자는… 백만 배 어려워요. 그래서 물리 세계는 늦어요."

그는 변화의 순서를 이렇게 그립니다.

디지털 공간에서 엄청난 자동화/효율화("끓는 수프처럼 활동이 폭증")가 먼저 일어난다.
그러다 어느 순간 "이미 업로드된 정보(논문, 코드, 데이터)"를 다 읽고 처리하면, 더 똑똑해지려면 결국 우주(현실)에 질문해야 한다.
그때 핵심은 디지털–물리 인터페이스(센서로 데이터 넣기, 액추에이터로 물리 조작하기)다.
그리고 물리 세계의 총 시장(TAM)은 오히려 훨씬 더 클 수 있다.

이 과정에서 그는 "정보 시장" 같은 것이 더 커질 수 있다고도 말합니다. 예컨대 특정 지역(예: 테헤란)의 현장 사진/영상 같은 정보를 "10달러에 사는" 시장이 생기고, 그 정보를 보는 주체가 사람이 아니라 베팅/금융/예측에 참여하는 에이전트가 될 수 있다는 상상입니다.

"왜 '테헤란에서 지금 찍은 영상'이 10달러에 거래되는 시장이 없죠? 그걸 보는 건 사람이 아니라 에이전트일 수도 있어요."

그는 소설 Daemon을 언급하며, 사회가 점점 "기계의 센서이자 액추에이터"로 재배치되는 서사를 연상하기도 합니다. 다만 여기서도 핵심 병목은 "데이터 수집–학습–개선"이 완전히 자동 루프로 닫혀야 한다는 점이고, LLM 훈련은 비교적 그 패러다임에 잘 맞는다고 말합니다(평가 지표가 명확해서). 대신 지표에 대한 과적합(하딩) 위험이 있어, 지표 자체를 계속 개선/다양화하는 메커니즘이 중요하다고 덧붙입니다.

13. 마이크로GPT와 에이전틱 교육: "이제 사람에게 설명하는 게 아니라 에이전트에게 설명한다"(1:00:59~1:06:10)

마지막으로 카파시는 사이드 프로젝트 MicroGPT를 소개합니다. 그는 수년~수십 년 동안 LLM을 "본질로 끓여서" 최대한 단순화하는 집착이 있었고, nanoGPT, makemore 같은 프로젝트가 그 흐름이라고 말합니다.

MicroGPT의 핵심 메시지는 이렇습니다. 실제 대규모 훈련 코드는 효율(속도) 때문에 복잡할 뿐, 알고리즘 자체는 생각보다 단순해서 약 200줄 파이썬으로도 핵심을 구현할 수 있다는 겁니다(데이터, 모델(약 50줄), 오토그라드(약 100줄), Adam(약 10줄), 훈련 루프).

"알고리즘 자체는 사실 200줄이면 돼요. 복잡함의 대부분은 '효율' 때문에 생긴 거죠."

그런데 더 중요한 건, 예전 같으면 그 200줄을 강의/가이드/영상으로 설명하려 했겠지만, 이제는 상황이 바뀌었다는 점입니다. 카파시는 "나는 이제 사람에게 설명하는 게 아니라 에이전트에게 설명한다"고 말합니다. 에이전트가 이해하면, 사람의 수준/언어/속도에 맞춰 "무한한 인내"로 재설명해줄 수 있기 때문이죠.

"이제 저는 사람에게 설명하지 않아요. 에이전트에게 설명해요. 에이전트가 이해하면, 사람에게는 원하는 방식으로 얼마든지 설명해주죠."

그래서 교육의 형태도 바뀐다고 봅니다. 사람용 HTML 문서가 아니라 에이전트용 마크다운 문서가 중요해지고, "강의" 대신 "에이전트에게 어떻게 가르치게 할지(커리큘럼 스크립팅)"가 새로운 스킬이 될 수 있다는 겁니다.

다만 카파시는 아직 에이전트가 "MicroGPT 같은 최종 형태의 단순화"를 스스로 발명하진 못한다고 말합니다. 즉, 에이전트는 이해와 설명은 잘하지만, 오랜 집착 끝에 나온 '극단적 단순화' 같은 창의적 결정은 여전히 사람의 기여일 수 있다는 것이죠.

"에이전트는 MicroGPT를 '못 만들어요'. 하지만 '이해'는 해요. 그게 제 가치 기여예요."

그리고 그는 이렇게 결론을 내립니다.

"에이전트가 못 하는 일이 이제 당신의 일이에요. 에이전트가 할 수 있는 일은… 곧 당신보다 더 잘할 거예요. 그러니 시간을 전략적으로 써야 해요."

14. 마무리(1:05:40~끝)

이 대담에서 카파시는 에이전트가 개발을 '매크로 단위'로 바꾸고, 그 다음 단계로 자율 루프(오토리서치)가 연구와 산업 전반을 재구성할 거라고 전망합니다. 동시에 그는 모델의 평가 가능성/울퉁불퉁함, 오픈소스와 클로즈드의 권력 균형, 디지털에서 물리로 넘어가는 인터페이스의 중요성, 그리고 교육의 목표가 "사람을 가르치기"에서 "에이전트를 가르치기"로 이동하는 변화를 한 흐름으로 연결합니다. 전체를 관통하는 메시지는 결국 하나입니다: 레버리지를 극대화하되, 무엇을 인간이 맡아야 하는지 더 날카롭게 선택하는 시대가 왔다는 것.