Semana insana de IA: vazamento da Anthropic, GLM 5.1, Gemini 3.1 Flash Live, Codex com plugins e ARC-AGI 3
Resumo das novidades de IA da semana: modelos vazados da Anthropic, GLM 5.1 open-source, Gemini 3.1 Flash Live, plugins no Codex, ARC-AGI 3 e mais.
Mais uma semana absurda no mundo da IA. Tivemos vazamento de dois modelos inéditos da Anthropic, o lançamento do GLM 5.1 open-source, o Gemini 3.1 Flash Live do Google DeepMind, o Codex da OpenAI virando plataforma com plugins, e o ARC-AGI 3 redefinindo como medimos inteligência em sistemas de IA. Vídeo original: youtu.be/uUGfo8QOsW0.
Vazamento da Anthropic: Mythos e Capybara
Um vazamento grande revelou dois próximos modelos da Anthropic: Claude Mythos e Capybara. O Capybara é reportado como uma tier abaixo do Mythos, mas os dois ficam em uma classe acima do Opus — que hoje já é o flagship.
- Ganhos fortes em programação e raciocínio acadêmico.
- Saltos expressivos em capacidades de cibersegurança.
- Testers iniciais (reportado pela Fortune) descrevem o modelo como “não comparável” ao Opus atual.
- Rollout lento planejado por preocupações com uso indevido e risco de segurança.
Rumores apontam ainda um release intermediário (Opus 5 / Sonic 5) antes do Mythos/Capybara aparecerem. Pode ser posicionamento estratégico — vazar para gerar expectativa —, mas o sinal é claro: 2026 vai empilhar upgrades grandes, com GPT 5.5 e DeepSeek v4 também no horizonte.
GLM 5.1: open-source agêntico colando nos proprietários
A Z.ai lançou o GLM 5.1, evolução open-source focada em comportamento agêntico. Pontos fortes:
- Melhor em tarefas longas e workflows multi-step.
- Instrução seguida com mais fidelidade.
- Preço acessível.
- Benchmark de código: 45.3, contra 47.9 do Opus 4.6.
A parte impressionante é o front-end: landing pages geradas pelo modelo saem bem estruturadas, com tipografia variada e animações dinâmicas. Ponto negativo: ainda é lento na inferência.
Gemini 3.1 Flash Live
O Google DeepMind apresentou o Gemini 3.1 Flash Live, um modelo multimodal em tempo real feito para agentes de voz e visão. Depois de mais de um ano de refinamento de modelo + infra + DX, os ganhos anunciados são:
- Qualidade de resposta mais alta.
- Confiabilidade superior em sessões longas.
- Latência significativamente menor — requisito para voz em tempo real.
Nos demos, o modelo edita código de apps via comando de voz em segundos (“aumente o microfone”, “adicione bolinhas amarelas no fundo”) com resposta quase instantânea.
OpenAI Codex vira plataforma com plugins
A OpenAI introduziu plugins no Codex, transformando o que era um prompt-resposta em um ambiente de execução completo. O que muda na prática:
- Galeria de casos de uso com workflows reais (apps iOS, análise de datasets, geração de relatórios e apresentações).
- Execução em um clique dentro do app Codex.
- Workflows pré-montados, executáveis e extensíveis sem começar do zero.
O movimento coloca o Codex como concorrente direto do Claude Code e de outras ferramentas agênticas.
ARC-AGI 3: a nova régua
O ARC-AGI 3 foi lançado e os melhores modelos hoje pontuam menos de 1%. Parece ruim — mas é o ponto. Finalmente há um benchmark difícil de fatigar:
- Testa raciocínio agêntico em ambientes interativos.
- Exige acertar na primeira tentativa, sem treino prévio.
- Humanos acertam 100% na primeira; IA atual: <1%.
- Foco explícito em prevenir overfitting (nada de decorar padrões).
Quando o ARC-AGI 3 começar a ser resolvido, o próximo passo do benchmark são videogames comerciais reais — IA que não só raciocina, mas age e se adapta em mundos digitais complexos.
Atualizações do Claude Code
- Autofix na nuvem: corrige PRs remotamente — resolve falhas de CI e comentários de review automaticamente.
- Limite de sessão 5h apertado nos horários de pico para planos free/pro/max (limites semanais não mudaram).
- Auto mode: classificador embutido libera ações seguras e bloqueia arriscadas, sem o prompt de permissão toda hora.
Outros destaques
- Mimo v2 Pro — Pro e Omni seguem gratuitos por mais uma semana no OpenCode.
- ElevenLabs CLI agora é agent-first: não-interativo por padrão, com modo humano atrás de flag.
- Mistral Vauxhall TTS: modelo open-weight de fala expressiva, 9 idiomas, baixíssima latência, voz adaptável.
- Anthropic Operon: agente no Claude Desktop focado em pesquisa científica (biologia) — ambiente privado, múltiplas sessões por projeto, artefatos e skills.
- Sora app será encerrado — OpenAI promete detalhes sobre export de conteúdo. Sinal de que compute está sendo redirecionado para o projeto interno Spud.
- Cursor Composer 2: anunciado como modelo frontier próprio, mas usuários descobriram que é um fine-tune de Kimi K2.5 open-source — polêmica sobre transparência.
Leitura da semana
A distância entre ferramenta e sistema está sumindo rápido. Plugins no Codex, auto mode no Claude Code, agentes de voz em tempo real no Gemini e a chegada de modelos acima da tier Opus indicam uma mesma direção: IA que executa sozinha, dentro de ambientes de trabalho completos. Para quem constrói produto, vale começar a desenhar workflows assumindo essa camada como presente — não como promessa.
Sobre o autor
Editor — Techify
Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.
- Focado em automação com IA aplicada