클로드(Claude)는 최근 몇 달 동안 일부 사용자들로부터 응답 품질 저하 보고를 받았는데요. 📉 이 문제를 심각하게 받아들여 조사한 결과, 클로드 코드(Claude Code), 클로드 에이전트 SDK(Claude Agent SDK), 클로드 코워크(Claude Cowork)에 영향을 미친 세 가지 독립적인 변경 사항이 원인임을 밝혀냈습니다. 다행히 API는 영향을 받지 않았고, 2026년 4월 20일 (v2.1.116)부로 모든 문제가 해결되었답니다! 🎉 이 글에서는 어떤 문제가 있었고, 어떻게 해결했으며, 앞으로는 이런 일이 재발하지 않도록 어떤 노력을 할 것인지 자세히 설명해 드릴게요.


1. 클로드 코드의 기본 추론 노력 수준 변경 문제 🧠

1.1. 추론 노력 수준 '높음'에서 '중간'으로 변경: 의도치 않은 결과 😥

2026년 3월 4일, 저희는 클로드 코드의 기본 추론 노력 수준을 '높음(high)'에서 '중간(medium)'으로 변경했습니다. 이는 너무 긴 지연 시간을 줄이기 위한 조치였어요. 일부 사용자들은 '높음' 모드에서 UI가 멈춘 것처럼 보일 정도로 긴 지연 시간을 겪고 있었거든요. 모델이 더 오래 생각할수록 출력 품질이 좋아지지만, 그만큼 지연 시간과 토큰 사용량도 늘어나게 됩니다. 저희는 이 트레이드오프를 고려하여 '중간' 노력이 대부분의 작업에서 낮은 지연 시간으로도 충분히 좋은 성능을 보인다고 판단했어요.

"저희는 기본적으로 '높음' 추론 노력 모드의 클로드 Opus 4.6이 때때로 너무 오래 생각하여 UI가 멈춘 것처럼 보이고, 사용자들에게 불균형적인 지연 시간과 토큰 사용량을 초래한다는 사용자 피드백을 받았습니다."

하지만 이 결정은 예상치 못한 결과를 가져왔습니다. '중간' 노력으로 기본 설정이 변경된 후, 많은 사용자가 클로드 코드가 덜 똑똑해졌다고 느끼기 시작했어요.

1.2. 사용자 피드백 반영 및 원복 🔄

사용자들의 강력한 피드백에 귀를 기울인 결과, 저희는 더 높은 지능을 선호하고 간단한 작업에 대해서만 낮은 노력을 선택하기를 원한다는 것을 알게 되었습니다. 결국 2026년 4월 7일, 이 변경 사항을 원복하고 Opus 4.7의 기본 노력 수준을 '매우 높음(xhigh)'으로, 다른 모든 모델은 '높음(high)'으로 되돌렸습니다. 클로드 코드 노력 수준 설정 화면 클로드 코드 노력 수준 기본 설정 변경 안내문


2. 이전 추론 기록 삭제 버그 🐛

2.1. 캐싱 최적화 시도 중 발생한 심각한 버그 🤯

2026년 3월 26일, 저희는 클로드의 효율성을 개선하기 위해 캐싱 최적화 기능을 배포했습니다. 클로드가 작업을 추론할 때 발생하는 사고 과정은 일반적으로 대화 기록에 저장되어, 이후 클로드가 이전에 어떤 편집을 했고 어떤 도구 호출을 했는지 파악할 수 있게 해줍니다. 저희는 1시간 이상 비활성 상태였던 세션의 경우, 이전 추론 기록을 삭제하여 세션을 재개할 때 지연 시간을 줄이고자 했어요.

2.2. '기억상실증'에 걸린 클로드 😵‍💫

하지만 이 구현 과정에서 심각한 버그가 발생했습니다. 의도와는 달리, 버그는 세션의 나머지 시간 동안 모든 차례마다 이전 추론 기록을 삭제하는 문제가 발생했어요. 한번 유휴 임계값을 넘으면, 이후의 모든 요청은 최신 추론 블록만 유지하고 이전의 모든 것을 버리도록 API에 지시했습니다. 만약 클로드가 도구 사용 중간에 후속 메시지를 보내면, 현재 차례의 추론까지도 삭제되었어요. 결과적으로 클로드는 자신이 왜 이런 행동을 하는지 기억하지 못하게 되면서 자꾸 잊어버리고, 반복적인 답변을 하며, 이상한 도구 선택을 하게 되었습니다. 사용자들은 클로드가 마치 '기억상실증'에 걸린 것 같다고 표현했죠. 추론 기록 삭제 버그로 인한 대화 흐름 이 버그는 또한 캐시 미스(cache miss)를 유발하여 사용량 제한이 예상보다 빨리 소진된다는 보고로 이어지기도 했습니다.

2.3. 버그 발견 및 해결 🔍

이 버그는 클로드 코드의 컨텍스트 관리, Anthropic API, 그리고 확장된 추론 기능의 복합적인 문제였습니다. 여러 번의 코드 검토, 테스트, 그리고 실제 사용에도 불구하고, 이 버그는 특정 상황(오래된 세션)에서만 발생하고 재현하기 어렵다는 특성 때문에 발견하고 확인하는 데 일주일 이상이 걸렸습니다. 놀랍게도, 저희는 이 문제를 조사하는 과정에서 Opus 4.7을 사용하여 버그가 있는 풀 리퀘스트(pull request)에 대해 코드 리뷰를 수행했습니다. 그 결과, Opus 4.7은 버그를 찾아냈지만, Opus 4.6은 찾아내지 못했어요! 😮

"조사의 일환으로, 저희는 Opus 4.7을 사용하여 문제가 되는 풀 리퀘스트에 대해 코드 리뷰를 역으로 테스트했습니다. 완전한 컨텍스트를 수집하는 데 필요한 코드 저장소를 제공했을 때, Opus 4.7은 버그를 찾아냈지만, Opus 4.6은 찾아내지 못했습니다."

저희는 이 버그를 2026년 4월 10일 v2.1.101에서 수정했습니다.


3. 상세함 줄이기 위한 시스템 프롬프트 변경 📝

3.1. Opus 4.7의 '수다스러움' 문제 🗣️

최신 모델인 클로드 Opus 4.7은 이전 모델에 비해 상세하게 답변하는 경향이 있습니다. 이는 어려운 문제 해결에는 도움이 되지만, 더 많은 출력 토큰을 생성하게 됩니다. 저희는 이를 해결하기 위해 다양한 방법을 모색했고, 시스템 프롬프트에 다음과 같은 지시를 추가했습니다.

"길이 제한: 도구 호출 사이의 텍스트는 25단어 이하로 유지하세요. 최종 응답은 작업에 더 많은 세부 정보가 필요하지 않는 한 100단어 이하로 유지하세요."

이 변경 사항은 몇 주간의 내부 테스트와 평가에서는 문제가 없었기에, 2026년 4월 16일 Opus 4.7과 함께 배포되었습니다.

3.2. 코딩 품질 저하 발견 및 즉시 원복 ⏪

하지만 추가 조사 과정에서, 더 넓은 범위의 평가를 통해 이 프롬프트 변경이 Opus 4.6과 4.7의 코딩 품질을 3% 하락시킨다는 사실을 발견했습니다. 이에 저희는 2026년 4월 20일 즉시 이 프롬프트를 원복했습니다.


4. 앞으로의 개선 방안 🚀

저희는 이번 문제들을 통해 많은 것을 배웠고, 앞으로는 이런 일이 재발하지 않도록 여러 가지 개선 노력을 할 예정입니다.

  • 내부 직원들의 공개 빌드 사용 확대: 더 많은 내부 직원이 실제 사용자들과 동일한 클로드 코드 공개 빌드를 사용하도록 하여 문제를 조기에 발견할 수 있도록 할 것입니다.
  • 코드 리뷰 도구 개선: 내부적으로 사용하는 코드 리뷰 도구를 개선하고, 이를 고객들에게도 제공할 예정입니다. 특히 코드 리뷰 도구가 완전한 컨텍스트를 얻을 수 있도록 추가 저장소 지원을 추가할 것입니다.
  • 시스템 프롬프트 변경 관리 강화:
    • 모든 시스템 프롬프트 변경에 대해 모델별로 광범위한 평가를 수행할 것입니다.
    • 각 라인의 영향을 이해하기 위한 어블레이션(ablation) 테스트를 계속 진행할 것입니다.
    • 프롬프트 변경 사항을 더 쉽게 검토하고 감사할 수 있는 새로운 도구를 구축했습니다.
    • 모델별 변경 사항이 해당 모델에만 적용되도록 CLAUDE.md에 지침을 추가했습니다.
    • 지능과 트레이드오프될 수 있는 변경 사항에 대해서는 유예 기간, 더 넓은 평가 스위트, 점진적인 출시를 통해 문제를 더 일찍 발견할 것입니다.
  • 소통 채널 강화: X(@ClaudeDevs)와 GitHub의 중앙화된 스레드를 통해 제품 결정과 그 배경에 대한 심층적인 업데이트를 공유할 예정입니다.

저희는 사용자분들의 피드백을 통해 이 문제들을 식별하고 해결할 수 있었습니다. 특히 /feedback 명령을 사용하여 문제를 공유해 주신 분들께 진심으로 감사드립니다. 🙏


결론 🌟

이번 클로드 품질 저하 문제는 추론 노력 수준 변경, 이전 추론 기록 삭제 버그, 그리고 시스템 프롬프트 변경이라는 세 가지 독립적인 원인으로 발생했습니다. 저희는 이 문제들을 해결했으며, 앞으로는 이와 같은 문제가 재발하지 않도록 내부 프로세스를 강화하고, 테스트 및 검토 절차를 개선할 것입니다. 사용자분들의 소중한 피드백과 인내심에 깊이 감사드리며, 2026년 4월 23일부터 모든 구독자분들의 사용량 제한을 재설정했습니다. 앞으로 더욱 발전된 클로드를 선보일 수 있도록 최선을 다하겠습니다! 💖

함께 읽으면 좋은 글