Anthropic detalha falhas no Claude Code e anuncia correções após relatos de queda de qualidade
A Anthropic publicou um postmortem explicando três mudanças que afetaram a qualidade percebida do Claude Code entre março e abril, com correções já aplicadas e revisão de processos para evitar recorrência.
Principais conclusões
- A API da Anthropic não foi afetada; os problemas ocorreram na camada de produto do Claude Code.
- A redução do esforço de raciocínio padrão melhorou latência para alguns casos, mas piorou percepção de qualidade para muitos usuários.
- Um bug de cache removeu histórico de raciocínio repetidamente, causando esquecimentos, repetição e decisões menos consistentes.
- Uma instrução de prompt para reduzir verbosidade contribuiu para queda de desempenho em tarefas de código e foi revertida.
- A Anthropic anunciou novos controles de avaliação e rollout, além de reset de limites para assinantes.
A Anthropic publicou uma atualização técnica explicando por que parte dos usuários percebeu piora no Claude Code nas últimas semanas. Segundo a empresa, não houve degradação intencional de modelo e a API não foi afetada. O impacto ficou concentrado na camada de produto do Claude Code, envolvendo decisões de configuração, gerenciamento de contexto e prompt de sistema.
O documento identifica três mudanças independentes, aplicadas em momentos diferentes, que acabaram produzindo um efeito agregado de instabilidade para alguns usuários. A combinação trouxe sintomas como respostas menos inteligentes, repetição de ações, perda de contexto em sessões longas e sensação de consumo mais rápido de limites.
1) Mudança no esforço de raciocínio padrão
No início de março, o padrão de esforço de raciocínio foi reduzido de um nível mais alto para um nível intermediário, buscando menor latência e menos travamentos percebidos na interface. Em avaliações internas, a troca parecia equilibrar melhor custo e tempo de resposta para grande parte dos casos. Na prática, porém, muitos usuários sentiram queda de qualidade nas respostas.
Após feedback direto da comunidade, a Anthropic reverteu essa decisão no começo de abril, voltando a privilegiar níveis altos de raciocínio por padrão. A leitura principal foi clara: para tarefas complexas, usuários preferem inteligência máxima como configuração inicial, aceitando ajustar para modos mais leves quando necessário.
2) Bug de cache que apagava histórico de raciocínio
No fim de março, entrou em produção uma otimização para sessões ociosas por mais de uma hora. A ideia era remover blocos antigos de raciocínio apenas na retomada, reduzindo custo de tokens fora do cache. Um erro de implementação fez essa limpeza acontecer continuamente, turno após turno, em vez de uma única vez.
Esse comportamento degradou a memória operacional do agente durante a sessão. O resultado foi um padrão de esquecimentos, repetições e decisões de ferramenta menos consistentes — exatamente o tipo de relato observado por usuários. Como efeito colateral, também aumentaram misses de cache, o que ajuda a explicar a impressão de drenagem mais rápida de limites de uso. A correção foi aplicada em 10 de abril.
3) Instrução de prompt para reduzir verbosidade
Em meados de abril, uma mudança de prompt de sistema foi adicionada para conter a verbosidade em modelos mais novos. Embora o objetivo fosse melhorar objetividade e custo, a combinação com outras instruções reduziu desempenho em tarefas de código. Em análises de ablação com conjunto de avaliações mais amplo, a Anthropic identificou queda mensurável e removeu a diretriz em 20 de abril.
Por que o problema demorou para ficar claro?
Cada alteração afetava fatias diferentes de tráfego e cenários de uso distintos, em datas diferentes. Isso criou um quadro de degradação irregular, difícil de distinguir do ruído natural de feedback em estágio inicial. Além disso, parte dos testes internos não reproduziu imediatamente os sintomas encontrados em produção, especialmente nos casos de sessão ociosa e retomada.
O que muda daqui para frente
A Anthropic afirma que vai reforçar controles para mudanças de prompt, ampliar a bateria de avaliações por modelo e adotar rollout mais gradual em alterações com potencial de trade-off entre qualidade e eficiência. A empresa também citou melhorias no processo de revisão de código e na observabilidade entre build interno e build público para reduzir discrepâncias de validação.
Como medida de reparação imediata, a companhia informou reset de limites de uso para assinantes. Para times que dependem de agentes de código em fluxo contínuo, o episódio reforça uma lição operacional importante: pequenas alterações em defaults, contexto e instruções de sistema podem produzir impactos grandes quando combinadas — e exigem monitoramento de qualidade em múltiplas dimensões, não apenas latência e custo.
Sobre o autor
Editor — Techify
Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.
- Focado em automação com IA aplicada