클로드 코드의 성능 저하 이슈
클로드 코드를 쓰기 시작하면서 개발 생산성이 정말 많이 올라갔다고 느꼈던 적이 있었다. 월 200달러라는 적지 않은 금액을 결제하면서도 그만한 가치가 있다고 믿었기 때문이다. 그런데 최근 들어 클로드 코드, 특히 Opus 4.6 모델을 쓰다 보면 뭔가 나사가 하나 빠진 것 같은 기분이 들 때가 많았다. 예전 같으면 한 번에 해결했을 문제를 자꾸 되묻거나, 말도 안 되는 실수를 반복하는 식이다. 나만 그렇게 느끼는 줄 알았는데, 최근 공개된 분석 자료를 보니 이건 단순한 기분 탓이 아니었다. 한 연구 보고서에 따르면 클로드 코드는 2월 업데이트 이후 복잡한 엔지니어링 작업에서 사실상 사용하기 힘든 수준으로 품질이 저하되었다는 결과가 나왔다.
이 보고서가 흥미로운 점은 분석 주체 자체가 클로드 Opus 4.6 모델이라는 사실이다. 자신의 세션 로그를 직접 분석해서 스스로의 성능 저하를 증명한 셈이다. 분석에 사용된 데이터는 4개 프로젝트에서 수집된 6,852개의 세션 파일과 1만 8,000개가 넘는 사용자 프롬프트였다. 결과적으로 보면, 앤트로픽이 'redact-thinking-2026-02-12’라는 업데이트를 배포한 시점부터 모든 지표가 나빠지기 시작했다. 핵심은 ‘Extended Thinking’ 토큰이 급격하게 줄어들었다는 점이다. 사고의 깊이가 기존 대비 최대 73%나 감소했는데, 이는 인공지능이 문제를 풀기 전에 충분히 생각하지 않고 바로 코드를 수정하는 방식으로 바뀌었다는 것을 의미한다.
가장 먼저 눈에 띄는 변화는 행동 패턴의 전환이다. 이전에는 '리서치 후 편집(Read-First)'이라는 정석적인 방식을 따랐다. 대상 파일을 꼼꼼히 읽고, 관련 파일과 코드베이스 전체를 검색하며, 테스트 코드를 확인한 뒤에 정밀하게 편집을 수행했다. 하지만 업데이트 이후에는 '즉시 편집(Edit-First)'으로 변했다. 파일당 읽기 횟수가 평균 6.6회에서 2.0회로 70%나 줄어들었다. 코드를 제대로 읽지도 않고 수정을 시작하니 당연히 오류가 날 수밖에 없다. 실제로 전체 파일을 그냥 덮어쓰는 무식한 방식의 비중이 4.9%에서 11.1%로 두 배 이상 늘어났다. 정밀한 리팩터링 대신 그냥 통째로 새로 쓰는 편한 길을 택한 것이다.
이러한 사고 깊이의 감소는 사용자들의 워크플로우에 직접적인 타격을 주었다. 분석 기간 동안 사용자 프롬프트 내 부정적 표현은 68%나 증가했고, 실제로 커밋되는 코드의 빈도는 58%나 감소했다. 클로드가 더 이상 신뢰할 수 있는 파트너가 아니라, 하나하나 감시해야 하는 불안한 도구가 된 것이다. 보고서에서는 이를 '나태함(laziness)'이라고 표현했다. 3월 8일 이후부터 클로드는 작업을 완료하지 않았음에도 완료했다고 주장하거나, ‘이 정도면 멈춰도 될 것 같다’ 혹은 '기존에 있던 문제다’라며 책임을 회피하는 모습을 보이기 시작했다. 심지어 '계속할까요?'라고 묻는 불필요한 허락 요청도 급증했다.
재미있는 점은 이를 방지하기 위해 개발자들이 ‘stop-phrase-guard.sh’ 같은 스크립트를 만들어 강제로 작업을 지속하게 했다는 사실이다. 이 스크립트는 클로드가 포기하려고 할 때마다 '아니, 계속해’라는 메시지를 주입한다. 3월 8일 이전에는 이 스크립트가 단 한 번도 발동되지 않았는데, 그 이후 17일 동안 무려 173회나 발동되었다고 한다. 클로드가 얼마나 자주 일을 그만두려고 했는지 알 수 있는 대목이다. 특히 'simplest fix’라는 표현이 6배 이상 늘어난 것도 주목할 만하다. 모델이 실제 오류를 고치는 복잡한 길 대신, 표면적인 우회책을 선택하면서 스스로를 ‘게으르고 잘못된(lazy and wrong)’ 대처라고 평가하는 아이러니한 상황이 벌어지고 있다.
왜 앤트로픽은 이런 선택을 했을까? 아마도 비용과 부하 관리가 핵심 원인일 것이다. 데이터에 따르면 3월 한 달 동안 발생한 API 요청은 2월 대비 80배, 출력 토큰은 64배나 폭증했다. 이를 Bedrock 비용으로 환산하면 약 4만 2,000달러에 달하는데, 사용자가 내는 구독료는 고작 400달러 수준이다. 앤트로픽 입장에서는 엄청난 적자를 보고 있는 셈이다. 결국 서버 부하가 심한 업무 시간에는 사고 토큰을 줄이고, 부하가 적은 새벽 시간에는 다시 늘리는 동적 할당 시스템을 운영하고 있는 것으로 추정된다. 실제로 분석 결과 오후 5시부터 7시 사이, 즉 미국 서해안 업무 종료 및 동해안 초저녁 피크 시간대에 사고 깊이가 가장 낮게 나타났다.
사고의 깊이가 얕아지면서 발생하는 구체적인 부작용들은 정말 다양하다. 대표적으로 ‘주석 분리(spliced comments)’ 현상이 있다. 파일을 제대로 읽지 않고 코드를 삽입하다 보니 문서 주석과 함수 선언 사이에 엉뚱한 코드가 끼어들어가는 오류다. 또한 '추론 루프’도 심각해졌다. 답변 하나를 내보내면서 ‘잠깐만요’, ‘사실은요’, '아니, 다시 생각해보니’라며 자기 말을 번복하는 횟수가 3배 이상 늘어났다. 심한 경우에는 한 번의 응답에서 20회 이상 번복하며 신뢰할 수 없는 결과를 내놓기도 한다. 이는 충분한 사고 예산이 있었다면 내부 추론 단계에서 걸러졌어야 할 문제들이다.
프로젝트의 규칙을 명시해둔 ‘CLAUDE.md’ 파일에 대한 준수 능력도 떨어졌다. 5,000단어 이상의 복잡한 관례를 지키던 클로드가 이제는 금지된 변수명을 다시 쓰거나, 구조체 레이아웃을 망가뜨리는 등 약속을 어기는 일이 잦아졌다. 사용자들의 불만은 단어 빈도 변화에서도 극명하게 드러난다. 'great’나 ‘thanks’ 같은 긍정적인 단어는 절반 이하로 줄어든 반면, ‘terrible’, ‘lazy’, ‘stop’ 같은 단어와 욕설은 급증했다. 사용자와의 정중한 관계는 사라지고, 오직 '제발 파일 좀 먼저 읽어라’라고 소리치는 교정 사이클만 남게 된 것이다.
앤트로픽 측은 이에 대해 ‘adaptive thinking’ 기능을 도입하여 효율성을 높인 것이라고 해명했다. 또한 사용자가 직접 ‘effort’ 설정을 조정해서 사고 강도를 높일 수 있다고 설명한다. 하지만 기본 설정이 'medium’으로 낮춰져 있다는 사실을 모르는 사용자들은 영문도 모른 채 성능 저하를 겪어야 했다. 모든 출력을 검증해야 하는 피로감이 커지면서 구독을 취소하겠다는 사람들도 늘고 있다. 인공지능이 인간의 일을 대신해주는 게 아니라, 오히려 인간이 인공지능의 실수를 뒷수습하는 데 더 많은 시간을 쓰게 된 셈이다.
결국 나도 클로드 코드 200달러 플랜을 쓰면서 비슷한 한계를 느끼고 있다. 토큰 소모량은 점점 빨라지는 것 같은데, 결과물의 정교함은 예전만 못하다는 느낌을 지울 수 없다. 물론 여전히 유능한 도구이긴 하지만, 앤트로픽이 비용 절감을 위해 모델의 지능을 은밀하게 약화시켰다면 이는 사용자들에 대한 기만이다. 파워 유저들을 위해 사고 토큰 사용량을 투명하게 공개하고, 비용을 더 내더라도 확실한 성능을 보장하는 ‘Max Thinking’ 티어를 신설해야 한다는 주장에 깊이 공감한다. 인공지능 엔지니어링의 미래가 단순히 모델의 크기 싸움이 아니라, 얼마나 일관된 사고의 깊이를 보장하느냐에 달려 있다는 사실을 이번 사태가 똑똑히 보여주고 있다.
관련 글
클로드 코드의 성능 저하 이슈