AI에게 일 잘 시키기도 결국 신뢰 쌓기다

브라이언의 이어지는 이야기 : 태호의 Insight #28

일을 잘 시킨다는 것은 무엇인가. 나 또는 회사가 원하는 것을 팀에게 위임하여 내가 혼자 하는 것 보다 더 빠르고 크게 이뤄내는 것이다. 일을 잘해 인정받아 팀장이 되면 팀에 작은 위임으로 시작해 점점 큰 위임을 해나간다. 모든 것을 위임하고도 문제가 없어야 다음 승진을 노려볼 수 있게 된다.

위임의 비결은 신뢰다. 내가 신뢰하는 만큼만 맡길 수 있고 신뢰하는 만큼만 기다릴 수 있다. 처음 만난 팀원에게 많은 것을 맡기기는 힘들다. 작은 일 부터 시작해 서로 스타일을 파악하고 강점 위주로 일을 주면서 병목 지점은 과감히 마이크로 매니지먼트 하며 뚫어가야 한다. 이런 과정을 거쳐 신뢰가 쌓이고 공유하는 컨텍스트가 많아지면 더 큰 일을 맡기고 더 오래 기다려도 원하는 결과물이 완성되어 도착하게 된다.

나는 프롬프트 엔지니어링, 컨텍스트 엔지니어링, 하네스 엔지니어링, Ralph-loop 등 AI 에이전트에게 일을 시키고 협업하는 방법론, 스킬, 프레임워크 모두가 일종의 신뢰를 쌓아나가는 과정이라고 생각한다. 내가 어떤 크기의 일을 시키고 얼마나 기다리면 그것은 해결되어 돌아온다 라는 믿음을 갖게되는 과정.

작고 쉬운 작업은 구두 지시하듯 프롬프트로 충분하다. 맥락이 필요한 업무는 온보딩 문서나 이전 회의록 공유해 주듯 컨텍스트를 주어야 원하는 결과를 가져올 것이고, 프로젝트 단위 이상의 일은 하네스 엔지니어링 처럼 회사 차원의 도구, 자산, 프로세스를 활용하며 진행해 나가야 탈이 없을 것이다. 답을 찾아나가야 하거나 연구 조직이라면 Ralph 처럼 평가와 개선의 이터레이션을 원하는 결과를 낼 때 까지 될 때 까지 해나가야 할테고.

누구나 그렇듯 나도 AI 에이전트로 대다수의 회사 및 개인 업무를 처리하고 있다. 그런데 이제 AI가 쉽게 해버리는 일들은 아예 관심에서 사라진다. 해결된 문제는 더 이상 문제가 아니고 그건 시키면 되는 일이니 더 이상 고민의 영역이 아니다. 어차피 기다리면 AI 모델 + 도구가 좋아져서 해결될 일이 많긴 하겠지만, 지금 해내야 좋은데 AI 혼자서는 잘 못하는 일을 내가 어떻게든 도와서 해결하는게 요즘 내가 하는 일의 전부다.

그런데 내가 계속 도와서는 복리 엔지니어링을 해나가기 어렵기에 점차 조금 도우면서도 더 큰 일을 더 오래 기다려 원하는 결과로 만나는 것을 추구해야 하는데, 바로 여기서 위에서 말한 '신뢰'를 강화학습의 가치함수로 사용하는 접근을 하여 효과를 보고 있다.

AI에게 일을 시키고 원하는 결과를 만나지 못할거 같을 때 하는 행동이 있다. '개입'이다. 중간에 개입하든 처음부터 다시하든 마이크로 매니지먼트 처럼 개입하여 이렇게 하라 저렇게 하라 지시하고 틀리다 맞다 판단을 해준다. 신뢰가 높을수록 개입은 줄어든다. 따라서 개입의 빈도와 강도는 신뢰 수준을 가늠하는 좋은 지표가 된다.

전통적 조직 신뢰 연구는 신뢰를 시행착오를 통해 쌓아가야 하는 것으로 봤다면 근래의 조직 신뢰 연구는 많이 믿는 것보다 맞게 믿는 것을 최적화 하는 형태로 가고 있다. 모든 일을 같은 수준으로 맡기기 보다는 업무에 따라 과신 또는 과잉 개입 하지 않도록 하는 것이 좋다는 것이다. 이를 위해 조직 업무 옵저버빌리티를 강조하는데 AI 에이전트와 일하며 남는 세션 정보는 이 관점에서 최고의 데이터다.

나는 AI 에이전트를 통해 PR을 올리거나 업무 세션 종료 또는 요청시 '신뢰 평가' (Trust-eval) 스킬이 발동하도록 했다. 이 스킬은 해당 세션을 빠짐 없이 살펴보고 어떤 개입이 어느 강도로 이루어졌는지 확인하고 로깅한다. 내가 어디서 멈춰 세웠는지, 왜 그 지점이 마음에 걸렸는지, 어떤 수정이 반복되는지를 남기면 다음에는 AI 에이전트가 같은 식으로 일하지 않게 된다.

PR이 merge 되었는데 개입이 없었다면 그 작업은 충분히 쉬웠거나 신뢰할 수 있는 형태로 이루어졌음을 의미하므로 이것들도 로깅한다.

이 신뢰 평가 기록을 통해 AI 에이전트는 큰 작업을 플래닝 할 때 어느 정도의 확률로 내가 원하는 형태로 결과물을 내놓을 수 있는지 신뢰 예측을 먼저 수행한다. 모델의 일반적인 성능이나 인터넷의 일반적인 검색 결과에 기반한 것이 아닌 회사와 내가 중요하게 보는 기준을 점점 더 잘 반영하기에 이 신뢰 스코어 확인은 작업 진행을 가늠하는데 큰 도움이 되고 있다.

이미 좋은 AI 에이전트 프레임워크와 스킬은 많다. 그런데도 직접 이런 시스템을 만들어 쓰게 되는 이유는, 모두가 AI로 이루고 싶은 것과 중요하게 여기는 것이 다르기 때문이다. 꾸준히 복리 엔지니어링으로 가치를 쌓아나가야 하는데 남들은 좋다고 하는 방법이 내게는 맞지 않을 수 있고 내가 효과를 본 방식이 다른 팀에는 먹히지 않을 수도 있다.

하나의 정답이 있는 일은 이미 해결된 일이다. 내 취향과 기준 같은 세상과 인터넷에 없는 판단 근거들을 이용해 내가 원하는 결과에 맞게 AI와의 협업을 직접 길들이는 일이 필요하다. 이게 각자의 가치함수가 될 수 있다.

조직에서 사람들과 일하며 배운 신뢰, 개입, 위임의 기술도 AI 에이전트에 활용하니 여러 측면으로 가속해버리는 강력함에 감탄할 따름이다.

감사합니다.

함께 읽으면 좋은 글

Personal Decision Intelligence, 이게 되네.

초기 스타트업을 위한 만능 SaaS 구축 멘탈모델

AI 시대, 권한 없는 리더들의 역설적 기회