이 영상은 앤드레이 카파시(Andrej Karpathy)와 사라 구오(Sarah Guo)의 팟캐스트, 그리고 테렌스 타오(Terence Tao)와 드와케시 파텔(Dwarkesh Patel)의 인터뷰를 중심으로 AI 시대의 'manifest(발현)' 개념과 오토 리서치(auto research)의 가능성 및 한계를 깊이 있게 탐구합니다. 검증 가능한 영역에서는 강화 학습(RL)이 초고속으로 발전하는 반면, 농담이나 암묵지와 같이 검증하기 어려운 영역에서는 여전히 AI가 어려움을 겪는다는 핵심 관찰을 공유하며, 실제 글쓰기 실험을 통해 이를 확인합니다. 앤스로픽(Anthropic) AI 과학 블로그의 'vibe 물리학' 사례와 하네스(harness) 설계 방법론을 분석하며, AI가 '딸깍' 처리할 수 없는 일의 가치와 명확한 목표 설정 능력의 중요성을 강조합니다.


1. '딸깍' 되는 일과 '딸깍' 안 되는 일: AI 시대의 업무 가치 변화 🤔

영상은 2026년 3월 28일 녹화되었으며, 최승준 님은 최근 AI 기술 발전으로 Markdown과 같은 작업들이 쉬워지는 현상에 주목합니다. "딸깍 한 번으로 모든 게 다 되버리면 너무 쉬워진다"는 점에서, 이렇게 쉽게 만들어진 결과물이 과연 타인에게도 가치 있을지에 대한 의문을 제기합니다. 앤드레이 카파시도 이와 관련해 'ephemeral software(단명 소프트웨어)'라는 용어를 사용하며, 쉽게 만들어지는 것은 짧고 허무할 수 있다고 말합니다. 따라서 AI가 '딸깍' 처리할 수 없는 일에 도전해야 하지만, 이러한 일들조차 미래에는 '딸깍' 처리될 가능성이 있어 "결국 기다리면 다 되는, 즉 상대적 가치가 낮은 일들"로 전락할 수 있다는 우려를 표합니다.

최승준: "어떤 것들이 계속 만들어지는데 이게 정말 너무 쉽게 만들어지다 보니까 나에게는 가치가 있을지 모르겠는데 이게 과연 타인에게도 가치가 있을까 최근에 그런 생각을 되게 많이 하거든요."

노정석 님은 이 문제가 결국 "어디로 도망갈 것인가"라는 질문으로 이어진다고 설명합니다. 누구나 할 수 있는 일은 가치가 낮아지므로, 오직 나만이 할 수 있거나 시간적 우위를 오래 유지할 수 있는 일에 집중해야 한다고 강조합니다.


2. 앤드레이 카파시와 사라 구오가 말하는 'Manifest(발현)'의 시대 🚀

앤드레이 카파시와 사라 구오의 팟캐스트는 'manifest(발현)'라는 개념을 중심으로 AI 시대를 논의합니다. 사라 구오는 AI에 "나의 의지를 표현(express my will)"하는 것을 비유하며, 그 외의 일들은 AI가 스스로 처리한다고 말합니다. 카파시는 이를 'manifest(발현)'라는 단어로 바꿔 표현하는데, 이는 '의지를 가지고 어떤 것을 실제로 나타나게 하는 것'을 의미합니다.

이들은 AI psychosis라는 흥미로운 표현을 사용하며, AI와 강박적인 관계를 맺고 계속 지시를 내리게 되는 상태를 묘사합니다. 카파시는 과거에는 직접 코드를 작성했지만, 2025년 12월 이후로는 코드를 직접 작성하지 않고 AI를 통해 manifest하는 방식으로 전환했다고 밝힙니다. 실제로 그는 OpenAI의 코드 편집기 '코덱스(Codex)'나 '클로드 코드(Claude Code)'와 같은 AI를 동시에 8개씩 활용하며 작업을 수행한다고 합니다.

앤드레이 카파시: "작년 10월에는 80대 20이라고 했지만 지금은 20대 80으로 바뀌었다. 한 번도 코드를 손으로 쳐 본 적이 없다."

이는 AI가 프로그래밍의 본질을 바꾸고 있으며, 더 이상 개인이 모든 코드를 직접 작성하는 시대가 아님을 시사합니다. 대신 Peter Steinberger와 같이 여러 터미널 창을 띄워 AI 에이전트를 활용하는 방식이 강조됩니다. 카파시는 이를 통해 AI 기술의 최전선에 서서 자신의 작업 방식을 지속적으로 변화시키고 있음을 보여줍니다.


3. 오토 리서치(Auto Research)의 가능성과 한계 🧐

영상에서는 앤드레이 카파시가 주도하는 오토 리서치(Auto Research) 개념을 소개합니다. 오토 리서치는 목표가 명확하고, 그 목표 달성 여부를 명확히 평가할 수 있는 경우 (verifiable) AI가 스스로 연구를 수행하고 최적화된 해결책을 찾아내는 과정입니다. 예를 들어, 모델 성능을 향상시키는 목표가 주어지면, AI는 program.md 파일에 목표를 명시하고, train.pyprepare.py 파일을 활용하여 스스로 논문을 검색하고 코드를 수정하며 validation loss를 줄이는 방향으로 학습합니다. 이러한 과정은 강화 학습(RL)의 원리와 유사하게, 긍정적인 피드백은 강화하고 부정적인 피드백은 제거하여 최적의 해를 찾아갑니다.

노정석: "어떤 목표가 있고 그 목표에 대한 아웃풋, 아웃풋에 대한 이밸류에이션(evaluation)이 명확하게만 이루어진다면 그 중간의 어떤 다큐멘테이션이든 리서치든 깃허브 레포든 모델이든 어떤 형태로든 LLM을 투입하고 토큰을 투입해서, 다시 말해서 optimize 할 수 있다는 거죠."

하지만 오토 리서치에는 명확한 한계도 존재합니다. 앤드레이 카파시는 "검증 가능한 영역에서는 초고속으로 달리지만, 검증하기 어려운 영역에서는 표류한다"고 지적합니다. 특히 농담(joke)과 같이 주관적이고 non-verifiable(검증 불가능한) 영역에서는 AI의 성능이 크게 떨어집니다. 카파시는 AI가 "어떤 면에서는 천재적이지만, 어떤 면에서는 형편없는 바보(jagged)" 같다고 표현하며, 이러한 jagged한 특성이 AI의 한계를 보여준다고 강조합니다. 최승준 님은 이어서 "현재 AI가 농담을 만드는 능력은 3~4년 전 모델과 큰 차이가 없다"고 덧붙이며, RL의 한계점을 지적합니다.

카파시는 microgpt의 사례를 들어, 20년간의 경험이 압축된 코드를 AI가 스스로 작성하는 것은 아직 어렵다는 점을 강조합니다. 하지만 교육의 미래는 에이전트(agent)를 가르치는 방식으로 전환될 것이며, 에이전트가 사람들에게 지식을 전달하고 상호작용하는 콘텐츠를 생성할 것이라고 예측합니다.


4. 테렌스 타오(Terence Tao)와의 인터뷰: 수학과 AI의 미래 📚

노정석 님은 실리콘밸리의 똑똑한 사람들이 AI for Science 분야로 몰려들고 있다고 언급하며, 특히 생명공학(bioengineering)과 같은 심층적인 도메인 지식이 필요한 분야에서 AI의 활용이 증가하고 있음을 강조합니다. 그는 "예전에는 박사 학위가 필요했던 일들이 이제는 잘 정리된 책을 읽고 철학적인 깨달음을 얻으면 바로 그 단계로 넘어갈 수 있는 시대"가 되었다고 말합니다.

드와케시 파텔(Dwarkesh Patel)은 수학자 테렌스 타오(Terence Tao)와의 인터뷰를 통해 AI와 수학의 관계를 심층적으로 탐구합니다. 파텔은 앤드레이 카파시의 "RL이 가능한 영역에서는 초고속으로 발전하지만, 그 외 영역에서는 표류한다"는 주장을 상기시키며, 수학 분야에서도 이러한 현상이 나타나는지 질문합니다.

테렌스 타오와의 대화는 케플러(Kepler)의 천체 운동 이론부터 시작하여, 과학적 발견 초기의 불완전성과 장기적인 관점에서 옳은 길을 찾아가는 과정을 설명합니다. AI가 폴 에르되시(Paul Erdős) 문제와 같은 난제들을 해결하며 수학 분야에 혁신을 가져왔지만, 동시에 plateau(정체기)에 접어들었음을 지적합니다. 이는 AI가 search space 내의 쉬운 문제들을 빠르게 해결한 후, 다음 단계로 나아가기 위한 새로운 접근 방식이 필요함을 의미합니다.

테렌스 타오는 semi-formal 언어의 중요성을 강조합니다. 이는 Lean과 같은 완전한 형식 언어가 아닌, 수학자들이 실제 사고하고 협업할 때 사용하는 암묵적인 지식과 직관을 AI가 이해하고 활용할 수 있는 중간 형태의 언어를 의미합니다.

최승준: "수학자들이 실제 사고하고 협업할 때 그런 암묵적인 지식들을 리인(Lean) 같은 완전한 형식 언어가 아니라 세미포멀(semi-formal) 언어로 어떻게 만들어 낼 것인가."

흥미롭게도, 테렌스 타오는 프린스턴 고등연구소와 같은 곳에서 연구만 하는 환경이 오히려 영감을 고갈시킨다고 말합니다. 리처드 파인만(Richard Feynman)과 리처드 해밍(Richard Hamming)도 비슷한 의견을 내놓았는데, 이는 비효율의 가치우연한 발견(serendipity)의 중요성을 강조합니다. 사람들과 교류하고 학생들을 가르치는 과정에서 발생하는 예상치 못한 상호작용이 오히려 창의적인 아이디어의 원천이 될 수 있다는 것입니다.


5. 앤스로픽(Anthropic)의 AI 과학 블로그: 'Vibe 물리학'과 클로드의 역할 🧪

앤스로픽(Anthropic)은 AI for Science의 중요성을 강조하며 AI 과학 블로그를 시작했습니다. 그중 Vibe Physics라는 글은 Matthew Schwartz라는 유명 물리학자가 클로드(Claude)를 활용하여 양자장론 관련 논문을 발표한 경험을 상세히 공유합니다. 그는 클로드를 "vibe 연구생"이라고 부르며, AI를 마치 연구실의 대학원생처럼 지도하여 논문 작성의 전 과정을 이끌어냈다고 설명합니다. 이 과정에서 클로드가 저지르는 실수, 아첨하려는 경향, 그리고 사실을 과장하는 모습 등을 Mathew Schwartz가 어떻게 교정하고 지도했는지 자세히 기술되어 있습니다.

최승준: "실제로 클로드가 저지르는 실수들, 그리고 클로드가 아첨하려는 경향, 그리고 자기가 했다고 거짓말을 하는 것들, 그런 것들을 어떻게 지도했는지 그 과정을 그대로 이야기를 다 하고 있어요."

이 연구 결과, 평소 3~4개월 걸리던 작업이 10일에서 2주 만에 완료되었다고 합니다. 이는 AI가 단순한 자동화 도구를 넘어, 숙련된 전문가의 지도를 통해 복잡한 과학 연구에서도 중요한 역할을 할 수 있음을 보여줍니다.

노정석 님은 이 과정에서 클로드(Claude)가 연구자의 evaluator(평가자) 역할을 하고 있으며, 이러한 방법론은 결국 오토 리서치(auto research)의 상위 레이어 버전이라고 해석합니다. 클로드는 지치지 않고 반복 작업을 수행하고, 기초 지식을 잘 알고 있으며, 문서화 능력과 시각화 능력이 뛰어나다는 장점이 있습니다. 그러나 비표준 규격에 취약하고, 미적 감각이 부족하며, 압력에 약하다는 한계점도 지적됩니다.

최승준 님은 코덱스(Codex)클로드 코드(Claude Code)의 차이점을 설명하며, 코덱스는 본질적인 기능에 집중하여 vanilla(군더더기 없는)한 철학을 추구하는 반면, 클로드 코드는 다양한 기능을 적극적으로 통합하는 경향이 있다고 언급합니다. 중요한 것은 AI 모델 자체의 성능뿐만 아니라, 인간이 얼마나 효과적으로 AI를 인도하고 활용하는지에 달려 있다는 점을 강조합니다.


6. 루프(Loop)를 닫아라: 암묵지 리버스 엔지니어링 가설 🔄

최승준 님은 앤드레이 카파시가 농담은 AI로 만들기 어렵다고 말한 것에 영감을 받아, 글쓰기 실험을 진행합니다. 그는 수용 기준(acceptance criteria)을 설정하고 루프(loop)를 반복하는 방식으로 AI가 산문(散文)을 생성하도록 합니다. 이 과정에서 AI가 임수동의 소설에서 영감을 받은 '수(水)'라는 단어를 분절하여 시각적인 이미지를 생성하지 못하는 교정자의 상황을 묘사하는 등 창의적인 결과물을 만들어냈다고 놀라워합니다.

최승준: "읽으면서 제가 너무 깜짝 놀랐는데 제 관점에서 봤을 때는 상당히 창의적인 글이 나왔다는 생각이 들었거든요."

그러나 똑같은 방식으로 농담이나 시트콤 대본을 생성했을 때는 만족스러운 결과가 나오지 않았다고 합니다. 이는 non-verifiable한 영역, 즉 평가 기준이 모호한 영역에서 AI가 여전히 어려움을 겪는다는 앤드레이 카파시의 주장을 뒷받침합니다. 노정석 님은 AI 업계가 T(사고형)적인 성향이 강해 F(감정형) 영역의 평가 기준을 설정하는 데 어려움을 겪는다고 분석하며, 이러한 영역이 오히려 인간이 '도망갈 수 있는' 새로운 기회가 될 수 있다고 말합니다.

최승준 님은 이 경험을 바탕으로 암묵지 리버스 엔지니어링 가설을 제안합니다. 이는 특정 성과를 만들어낸 개인의 암묵지를 최소한의 하네스(harness)수용 기준(acceptance criteria)을 통해 리포지토리(repository)로 구축하고, 부트스트래핑 루프(bootstrapping loop)를 통해 지속적으로 개선하여 성과를 복제하고 확장하는 과정입니다.

최승준: "어떤 개인이 어떤 아웃풋을 만들었을 때 그 아웃풋을 만들기를 기대하는 최소한의 하네스와 acceptance criteria 그리고 이것을 스스로 부스트래핑(bootstrapping) 루프로 올릴 수 있는 리포지토리를 만들자."

노정석 님은 이 가설이 결국 타이밍(timing)브랜드(brand)의 문제로 귀결된다고 설명합니다. 누가 먼저 새로운 것을 만들어내고, 그 가치를 얼마나 오래 유지할 수 있는지가 중요해지며, 이는 궁극적으로 그 사람이나 회사의 브랜드 가치로 이어진다는 것입니다.


7. OKR과 Harness: 업무 자동화의 핵심 🎯

노정석 님은 자신의 업무 방식을 OKR(Objective and Key Results)harness 개념을 활용하여 혁신하고 있다고 말합니다. 그는 모든 업무의 objective(목표)를 명확히 설정하고, 그 목표 달성 여부를 측정할 수 있는 key results(핵심 결과)scalar value 형태로 정의하여 AI가 verifiable reward를 받을 수 있도록 합니다.

그는 코덱스(Codex) 위에 Chedex라는 자신만의 harness를 구축하여, RL loopauto research loop를 통합합니다. 이를 통해 문서와 코드의 일관성, 코드의 전략적 문제점 등을 AI가 스스로 점검하고 개선하도록 합니다.

노정석: "이 문서와 코드의 일치성, 그리고 코드가 전략적으로 가지고 있는 어떤 문제점들 같은 것들을 AI를 계속 퀘스쳐닝(questioning)하는 거예요."

예를 들어, AI가 발견한 defect(결함)의 수를 0으로 만들 때까지 루프를 반복하게 하여, 최종적으로는 사람이 중간 결과물을 전혀 확인하지 않고도 만족스러운 결과물을 얻을 수 있도록 합니다. 그는 이러한 방식으로 모든 작업 루프를 AI 기반으로 전환하고 있으며, AI 시대에는 인간이 objectivekey results를 명확히 정의하는 능력이 가장 중요하다고 강조합니다.

영상은 앤스로픽이 공개한 하네스 설계 가이드에서도 유사한 관점을 발견할 수 있음을 보여줍니다. 이 가이드는 GAN(Generative Adversarial Network)에서 영감을 받은 다중 에이전트(multi-agent) 구조를 제안하며, 주관적인 판단을 점수화하여 AI가 학습할 수 있도록 합니다. 모델이 발전할수록 harness의 역할이 중요해지며, AI 엔지니어는 새로운 조합을 찾아내는 데 집중해야 한다고 결론 내립니다.

최승준: "모델이 더 좋을수록 재미있는 harness 조합 공간이 줄어드는 것이 아니라 오히려 이동하고 있다. 그리고 AI 엔지니어에게 흥미로운 일은 그 이후에 새로운 조합을 계속 찾아내는 것이다."


결론: AI 시대, 끊임없이 '이동하는 프론티어'를 찾아라 💡

노정석 님과 최승준 님은 Andrej Karpathy가 말하는 drift 개념을 강조하며, 우리가 추구하는 목표와 현실 사이의 간극을 줄이는 것이 중요하다고 말합니다. 이 drift의 기준점은 항상 최신 프론티어 모델(frontier model)과 그에 맞는 하네스(harness)에 맞춰져야 하며, 이 프론티어는 끊임없이 이동하고 있음을 명심해야 합니다. AI 시대에는 AI for science와 같이 과거에는 상상할 수 없었던 영역에 도전할 수 있는 기회가 열리며, 이러한 새로운 도메인에서 harness를 정의하고 가치를 창출하는 것이 중요합니다.

이들은 오퍼스(Opus) 이후의 카피바라(capybara)와 같은 차세대 모델에 대한 소문을 언급하며, AI 기술의 발전이 우리의 상상을 뛰어넘을 것이라고 기대합니다. 그러나 동시에 클로드(Claude)의 잦은 오류와 같은 현실적인 문제점도 지적하며, AI 기술이 아무리 발전해도 여전히 인간의 역할이 중요함을 상기시킵니다.

궁극적으로 이 영상은 AI 시대에 우리가 어디로 나아가야 할지, 그리고 무엇을 준비해야 할지에 대한 깊은 통찰을 제공합니다. 검증 가능한 영역은 AI에게 맡기고, 인간은 비효율의 가치, 암묵지, 그리고 명확한 목표 설정과 같이 AI가 아직 도달하기 어려운 영역에서 새로운 가치를 창출해야 한다는 메시지를 전달합니다.

함께 읽으면 좋은 글

Harvest엔지니어링 리더십 · 데이터와 판단한국어

성과로 이어지는 AX 로드맵 요약: 개인 효율을 조직 생산성으로 연결하는 법

이 웨비나는 “AI를 많이 쓰면 생산성이 오른다”는 감각이 왜 조직의 성과로는 잘 이어지지 않는지, 그 구조적 이유를 먼저 짚습니다. 그리고 플렉스팀이 직접 실험하며 겪은 실패(측정·순서·조직 적용의 함정)를 바탕으로, 라스트마일과 병목부터 푸는 AX 설계 전략(SSOT·평가환경·검증·권한...

2026년 3월 28일더 읽기
HarvestAI한국어

에이전트가 ‘코딩’하고, 연구가 ‘루프’를 돌기 시작한 시대: 안드레이 카파시 대담 요약

안드레이 카파시는 최근 몇 달 사이 코딩 에이전트의 도약으로 인해, 사람이 직접 코드를 치기보다 “에이전트에게 의도를 전달하는 일”이 핵심이 됐다고 말합니다. 그는 이 흐름이 오토리서치(AutoResearch)처럼 “실험–학습–최적화”를 사람이 거의 개입하지 않고 굴리는 자율 연구 루프로...

2026년 3월 22일더 읽기
HarvestAI한국어

한 명이 앤트로픽의 전체 성장 마케팅을 담당했다고? 클로드 코드로 가능했던 놀라운 이야기!

이 이야기는 2026년 기준으로 앤트로픽이라는 380억 달러 규모의 거대 기업에서 단 한 명의 비기술직 직원이 무려 10개월 동안 전체 성장 마케팅 팀의 역할을 수행했던 놀라운 사례를 다룹니다. 이 한 명의 마케터는 유료 검색 광고, 소셜 미디어 광고, 앱 스토어 최적화, 이메일 마케팅,...

2026년 3월 12일더 읽기