클로드(Claude) AI 성능 저하 논란, Anthropic의 심층 분석과 2026년 개선 방안
최근 몇 달간, Anthropic의 Claude AI 모델에서 일부 사용자들로부터 응답 품질 저하에 대한 보고가 이어졌습니다. 특히 Claude Code, Claude Agent SDK, 그리고 Claude Cowork와 같은 특정 서비스에서 이러한 현상이 두드러지게 나타났는데요. Anthropic은 이 문제의 심각성을 인지하고 즉각적인 조사에 착수, 마침내 그 원인을 밝혀내고 모든 문제를 해결했다고 발표했습니다. 2026년 4월 20일(v2.1.116)을 기점으로 모든 주요 이슈가 해소되었으며, API 자체는 이번 문제의 영향을 받지 않았음이 확인되었습니다.
이번 글에서는 Claude AI의 성능 저하를 야기했던 세 가지 핵심 원인이 무엇이었는지, Anthropic이 어떤 방식으로 문제를 진단하고 해결했는지, 그리고 앞으로 유사한 문제가 재발하지 않도록 어떤 예방책을 마련하고 있는지 2026년 현재 시점에서 심층적으로 분석해보고자 합니다. AI 모델의 성능 저하는 사용자 경험에 직접적인 영향을 미치는 만큼, Anthropic의 투명한 공개와 개선 노력은 주목할 만합니다.
클로드(Claude) AI 성능 저하의 주요 원인 분석
출처: www.anthropic.com
Anthropic의 조사 결과, 이번 성능 저하 현상은 세 가지 개별적인 변경 사항이 복합적으로 작용하여 발생한 것으로 드러났습니다. 각 변경 사항은 서로 다른 시기에 적용되었고, 영향을 미치는 트래픽의 범위도 달랐기 때문에 사용자 입장에서는 광범위하고 일관성 없는 성능 저하로 느껴졌을 수 있습니다.
1. Claude Code 추론 노력의 의도치 않은 하향 조정
발생 시기: 2024년 3월 4일 변경 (2024년 4월 7일 원상 복귀)
2024년 3월 4일, Anthropic은 Claude Code의 기본 추론 노력(reasoning effort)을 '높음(high)'에서 '보통(medium)'으로 변경했습니다. 이는 일부 사용자들이 '높음' 모드에서 겪던 과도하게 긴 응답 지연 시간(latency)을 줄이기 위한 조치였습니다. 당시 UI가 멈춘 것처럼 보이는 현상이 발생했기 때문이죠. 하지만 이러한 변경은 예상치 못한 부작용을 낳았습니다. 사용자들은 Claude Code가 전반적으로 덜 지능적인 응답을 한다고 보고하기 시작했고, 높은 지능을 선호하며 단순 작업 시에만 낮은 노력을 선택하겠다는 피드백이 쇄도했습니다. 결국 Anthropic은 2024년 4월 7일 이 변경을 되돌렸습니다. 현재 Opus 4.7은 '매우 높음(xhigh)', 다른 모든 모델은 '높음(high)'을 기본 추론 노력으로 사용하고 있습니다. 이 문제는 Sonnet 4.6과 Opus 4.6 모델에 영향을 미쳤습니다.
2. 대화 기록 캐싱 최적화 버그로 인한 기억력 저하
발생 시기: 2024년 3월 26일 변경 (2024년 4월 10일 수정)
2024년 3월 26일, Anthropic은 유휴 상태가 1시간 이상 지속된 세션에서 Claude의 오래된 "생각" 기록을 지워 응답 지연 시간을 줄이려는 캐싱 최적화 기능을 배포했습니다. 이는 사용자가 중단된 세션을 재개할 때 비용을 절감하고 속도를 높이기 위한 목적이었습니다. 하지만 이 기능 구현 과정에서 치명적인 버그가 발생했습니다. 의도와 달리, 버그는 세션이 유휴 임계값을 한 번 넘어서면 이후 모든 턴에서 이전 생각 기록을 계속 지워버렸습니다. 그 결과 Claude는 마치 건망증에 걸린 것처럼 이전 대화를 잊어버리고 반복적인 응답을 하거나 이상한 도구 선택을 하는 문제가 발생했습니다. 또한, 지속적인 캐시 미스로 인해 일부 사용자들은 사용량 제한(usage limits)이 예상보다 빠르게 소진되는 문제를 겪기도 했습니다. 이 버그는 2024년 4월 10일(v2.1.101)에 수정되었습니다. 이 문제는 Sonnet 4.6과 Opus 4.6 모델에 영향을 미쳤습니다.
3. 시스템 프롬프트 변경이 코딩 품질에 미친 악영향
발생 시기: 2024년 4월 16일 변경 (2024년 4월 20일 원상 복귀)
2024년 4월 16일, Anthropic은 Claude Opus 4.7 모델의 특징인 '장황함'을 줄이기 위해 시스템 프롬프트에 특정 지시를 추가했습니다. Opus 4.7은 어려운 문제 해결에 탁월하지만, 그만큼 출력 토큰 수가 많아지는 경향이 있었기 때문입니다. Anthropic은 이 프롬프트 변경이 내부 테스트에서는 문제가 없다고 판단했으나, 실제 배포 후 다른 프롬프트 변경과 결합되면서 코딩 품질을 저하시키는 부작용을 일으켰습니다. 특히 코드 생성 및 수정과 같은 작업에서 정확도가 떨어지는 현상이 보고되었습니다. Anthropic은 추가 조사를 통해 이 문제를 확인하고 2024년 4월 20일 해당 프롬프트를 원상 복귀시켰습니다. 이 문제는 Sonnet 4.6, Opus 4.6, Opus 4.7 모델에 영향을 미쳤습니다.
Anthropic의 심층 분석과 해결 과정
Anthropic은 사용자들의 성능 저하 보고를 매우 심각하게 받아들였으며, 즉각적인 조사를 통해 문제의 근본 원인을 파악하기 위해 노력했습니다. 특히 각 문제가 다른 시기에 다른 트래픽에 영향을 미쳤기 때문에, 초기에는 이를 일반적인 사용자 피드백의 변동과 구별하기 어려웠다고 합니다. 내부 사용량이나 평가에서도 초기에는 문제를 재현하기 어려웠던 점이 조사에 난항을 겪게 했습니다.
Claude Code의 추론 노력 조정과 그 영향
Claude Code에서 Opus 4.6이 출시되었을 때, 기본 추론 노력은 '높음'으로 설정되었습니다. 그러나 이 모드에서 UI가 멈추는 듯한 긴 지연 시간이 발생한다는 피드백이 있었죠. 모델이 더 오래 생각할수록 더 나은 결과물을 내놓지만, 이는 지연 시간과 토큰 사용량 증가라는 트레이드오프를 동반합니다. Anthropic은 내부 평가에서 '보통' 노력이 대부분의 작업에서 지연 시간을 크게 줄이면서도 지능 저하가 미미하다고 판단했습니다.
이러한 판단에 따라 '보통'을 기본값으로 변경했지만, 사용자들은 Claude Code가 덜 지능적이라고 느끼기 시작했습니다. Anthropic은 기본 설정이 '보통'임을 알리고 변경할 수 있는 UI 개선을 시도했지만, 대부분의 사용자는 기본값을 유지했습니다. 결국 사용자들의 피드백을 수용하여 2024년 4월 7일 이 결정을 번복했습니다. 현재 Opus 4.7은 '매우 높음(xhigh)', 다른 모든 모델은 '높음(high)'을 기본으로 합니다.
“사용자들은 높은 지능을 기본으로 선호하며, 단순 작업을 위해 낮은 노력을 선택할 의향이 있다는 피드백을 주었습니다.”
| 구분 | 내용 | 영향 모델 | 주요 날짜 |
|---|---|---|---|
| 문제 | Claude Code 기본 추론 노력 '높음' → '보통' 변경 | Sonnet 4.6, Opus 4.6 | 2024.3.4 (변경), 2024.4.7 (원상 복귀) |
| 원인 | 과도한 지연 시간 단축 시도 | ||
| 결과 | AI 지능 저하 보고, 사용자 불만 증가 | ||
| 해결 | Opus 4.7 'xhigh', 타 모델 'high'로 기본 설정 복귀 |
대화 기록 캐싱 버그와 AI 기억력 문제
Claude가 작업을 추론할 때, 그 추론 과정은 대화 기록에 보존되어 다음 턴에서 Claude가 이전에 어떤 편집이나 도구 호출을 했는지 파악할 수 있도록 합니다. 2024년 3월 26일 배포된 캐싱 최적화는 이 기능을 효율적으로 개선하려던 시도였습니다. 유휴 상태가 1시간 이상 지속된 세션에서 오래된 추론 기록을 지워 API 요청 시 전송되는 토큰 수를 줄이려는 의도였습니다.
Anthropic은 이를 위해 API 헤더 clear_thinking_20251015와 keep:1을 사용했습니다. 아래는 해당 API 헤더의 일반적인 사용 예시입니다.
아래 코드는 API 요청 시 특정 헤더를 포함하는 방식을 보여줍니다. 이 헤더는 Claude AI의 "생각" 기록 관리와 관련이 있습니다.
import requests
api_url = "https://api.anthropic.com/v1/messages"
headers = {
"x-api-key": "YOUR_ANTHROPIC_API_KEY",
"anthropic-version": "2023-06-01",
"anthropic-beta": "clear_thinking_20251015", # This beta header was part of the issue
"Content-Type": "application/json"
}
data = {
"model": "claude-3-opus-20240229",
"max_tokens": 1024,
"messages": [
{"role": "user", "content": "Hello, Claude."}
],
"parameters": { # Example of how 'keep' might be used, though it was part of the bug
"thinking_history_retention": "keep:1"
}
}
try:
response = requests.post(api_url, headers=headers, json=data)
response.raise_for_status() # Raise an exception for HTTP errors
print(response.json())
except requests.exceptions.RequestException as e:
print(f"API request failed: {e}")
하지만 구현에 버그가 있었습니다. 유휴 임계값을 넘은 세션에서는 단 한 번만 기록을 지워야 했지만, 버그로 인해 세션의 나머지 모든 턴에서 계속해서 가장 최근의 추론 블록만 남기고 이전 기록을 삭제하는 문제가 발생했습니다. 이는 Claude가 자신이 왜 특정 행동을 선택했는지에 대한 기억 없이 계속 작업을 수행하게 만들었고, 사용자들이 보고한 건망증, 반복, 이상한 도구 선택의 원인이 되었습니다. 또한, 연속적인 캐시 미스로 인해 사용량 제한이 빠르게 소진되는 문제도 야기했습니다.
Anthropic은 이 문제를 조사하는 과정에서 Opus 4.7 모델을 사용하여 버그가 포함된 풀 리퀘스트에 대한 코드 리뷰를 재실행했습니다. 흥미롭게도 Opus 4.7은 완전한 컨텍스트가 제공되었을 때 이 버그를 찾아냈지만, Opus 4.6은 찾아내지 못했습니다. 이는 AI를 활용한 코드 리뷰 도구의 개선 가능성을 시사하며, Anthropic은 재발 방지를 위해 추가 저장소를 컨텍스트로 지원하는 기능을 추가하고 있습니다. 이 버그는 2024년 4월 10일(v2.1.101)에 수정되었습니다.
| 구분 | 내용 | 영향 모델 | 주요 날짜 |
|---|---|---|---|
| 문제 | 대화 기록 캐싱 최적화 버그 | Sonnet 4.6, Opus 4.6 | 2024.3.26 (배포), 2024.4.10 (수정) |
| 원인 | 유휴 세션 기록 삭제 로직의 구현 오류 (매 턴 삭제) | ||
| 결과 | AI 건망증, 반복적 응답, 이상한 도구 선택, 사용량 제한 빠른 소진 | ||
| 해결 | 버그 수정 (v2.1.101) |
시스템 프롬프트 변경이 코딩 품질에 미친 영향
Claude Opus 4.7은 이전 모델에 비해 '장황함'이라는 행동 특성을 가지고 있습니다. 이는 어려운 문제 해결에는 도움이 되지만, 출력 토큰 수가 많아진다는 단점이 있습니다. Anthropic은 Opus 4.7 출시를 준비하면서 Claude Code의 성능을 최적화하기 위해 모델 훈련, 프롬프팅, UX 개선 등 여러 방법을 사용했습니다.
그중 시스템 프롬프트에 추가된 다음 지시가 Claude Code의 지능에 예상보다 큰 영향을 미쳤습니다.
“Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.”
이 프롬프트는 내부 테스트에서 회귀(regression)를 보이지 않아 2024년 4월 16일 Opus 4.7과 함께 배포되었습니다. 하지만 추가적인 정밀 조사(ablations)와 더 넓은 범위의 평가를 통해, 이 지시가 Opus 4.6과 4.7 모두에서 3%의 성능 저하를 일으켰음이 밝혀졌습니다. Anthropic은 즉시 2024년 4월 20일 이 프롬프트를 원상 복귀시켰습니다.
| 구분 | 내용 | 영향 모델 | 주요 날짜 |
|---|---|---|---|
| 문제 | 시스템 프롬프트 변경 (장황함 감소 목적) | Sonnet 4.6, Opus 4.6, Opus 4.7 | 2024.4.16 (배포), 2024.4.20 (원상 복귀) |
| 원인 | Opus 4.7의 장황함 감소 시도 | ||
| 결과 | 코딩 품질 저하 (Opus 4.6/4.7에서 3% 성능 하락) | ||
| 해결 | 해당 프롬프트 원상 복귀 |
재발 방지를 위한 Anthropic의 2026년 개선 방안
Anthropic은 이번 경험을 통해 얻은 교훈을 바탕으로, 2026년 현재 여러 가지 방식으로 개발 및 배포 프로세스를 개선하고 있습니다. 유사한 문제가 재발할 가능성을 최소화하기 위한 구체적인 조치들은 다음과 같습니다.
1. 내부 테스트 및 사용 환경 강화
- 정확한 공개 빌드 사용: 더 많은 내부 직원이 새로운 기능 테스트용 버전이 아닌, 실제 사용자에게 배포되는 Claude Code의 공개 빌드를 사용하도록 할 예정입니다. 이는 실제 사용자 경험을 더 정확하게 반영하기 위함입니다.
- Code Review 도구 개선: 내부적으로 사용하는 Code Review 도구를 개선하고, 이 개선된 버전을 사용자들에게도 제공할 계획입니다. 이는 코드 품질 관리 및 버그 탐지 능력을 향상시킬 것입니다.
2. 시스템 프롬프트 변경 관리 강화
시스템 프롬프트는 AI 모델의 행동에 지대한 영향을 미치므로, Anthropic은 이에 대한 통제를 더욱 강화합니다.
- 광범위한 모델별 평가: Claude Code의 모든 시스템 프롬프트 변경에 대해 모델별로 광범위한 평가를 실행할 것입니다.
- 어블레이션(Ablations) 지속: 각 프롬프트 라인의 영향을 이해하기 위한 어블레이션 테스트를 지속적으로 수행합니다.
- 새로운 도구 구축: 프롬프트 변경 사항을 더 쉽게 검토하고 감사할 수 있는 새로운 도구를 개발했습니다.
- 모델별 지침 추가: CLAUDE.md 문서에 모델별 변경 사항이 특정 모델에만 적용되도록 하는 지침을 추가했습니다.
- 점진적 출시 및 소크 기간: 지능과 트레이드오프가 발생할 수 있는 모든 변경 사항에 대해서는 '소크 기간(soak periods)'을 두고, 더 광범위한 평가 스위트를 적용하며, 점진적인 출시(gradual rollouts)를 통해 문제를 조기에 발견할 수 있도록 할 것입니다.
3. 투명한 커뮤니케이션 강화
Anthropic은 제품 결정과 그 배경에 대한 심층적인 설명을 제공하기 위해 X(구 트위터)에 @ClaudeDevs 계정을 개설했습니다. 또한 GitHub의 중앙 집중식 스레드에서도 동일한 업데이트를 공유하여 개발자 커뮤니티와의 소통을 강화하고 있습니다.
결론 및 사용자에게 드리는 말씀
이번 Claude AI 성능 저하 사태는 AI 모델 개발 및 운영에 있어 얼마나 섬세하고 복잡한 과정이 필요한지를 다시 한번 보여주었습니다. Anthropic은 사용자들의 보고를 통해 문제를 인지하고, 투명하게 원인을 분석하며, 신속하게 해결하는 모습을 보였습니다. 특히, API 계층에서는 문제가 발생하지 않았다는 점은 다행스러운 부분입니다.
Anthropic은 성능 저하 보고를 절대 가볍게 여기지 않으며, 모델의 성능을 의도적으로 저하시키는 일은 없다고 강조했습니다. 2026년 4월 23일부로 모든 구독자의 사용량 제한(usage limits)을 초기화하여, 불편을 겪었던 사용자들에게 보상과 함께 새로운 시작을 제공했습니다.
앞으로 Anthropic이 제시한 다층적인 재발 방지 대책들이 효과적으로 작동하여, 사용자들이 더욱 안정적이고 신뢰할 수 있는 Claude AI를 경험할 수 있기를 기대합니다. 사용자들의 적극적인 피드백이 AI 발전의 중요한 원동력이 된다는 점을 다시 한번 상기시켜주는 사례라 할 수 있습니다.
출처: www.anthropic.com
출처: www.anthropic.com
출처: www.anthropic.com
댓글