Blog Techify

Semana insana de IA: vazamento da Anthropic, GLM 5.1, Gemini 3.1 Flash Live, Codex com plugins e ARC-AGI 3

Resumo das novidades de IA da semana: modelos vazados da Anthropic, GLM 5.1 open-source, Gemini 3.1 Flash Live, plugins no Codex, ARC-AGI 3 e mais.

Por Publicado em Atualizado em ⏱ 4 min de leitura

Mais uma semana absurda no mundo da IA. Tivemos vazamento de dois modelos inéditos da Anthropic, o lançamento do GLM 5.1 open-source, o Gemini 3.1 Flash Live do Google DeepMind, o Codex da OpenAI virando plataforma com plugins, e o ARC-AGI 3 redefinindo como medimos inteligência em sistemas de IA. Vídeo original: youtu.be/uUGfo8QOsW0.

Vazamento da Anthropic: Mythos e Capybara

Um vazamento grande revelou dois próximos modelos da Anthropic: Claude Mythos e Capybara. O Capybara é reportado como uma tier abaixo do Mythos, mas os dois ficam em uma classe acima do Opus — que hoje já é o flagship.

  • Ganhos fortes em programação e raciocínio acadêmico.
  • Saltos expressivos em capacidades de cibersegurança.
  • Testers iniciais (reportado pela Fortune) descrevem o modelo como “não comparável” ao Opus atual.
  • Rollout lento planejado por preocupações com uso indevido e risco de segurança.

Rumores apontam ainda um release intermediário (Opus 5 / Sonic 5) antes do Mythos/Capybara aparecerem. Pode ser posicionamento estratégico — vazar para gerar expectativa —, mas o sinal é claro: 2026 vai empilhar upgrades grandes, com GPT 5.5 e DeepSeek v4 também no horizonte.

GLM 5.1: open-source agêntico colando nos proprietários

A Z.ai lançou o GLM 5.1, evolução open-source focada em comportamento agêntico. Pontos fortes:

  • Melhor em tarefas longas e workflows multi-step.
  • Instrução seguida com mais fidelidade.
  • Preço acessível.
  • Benchmark de código: 45.3, contra 47.9 do Opus 4.6.

A parte impressionante é o front-end: landing pages geradas pelo modelo saem bem estruturadas, com tipografia variada e animações dinâmicas. Ponto negativo: ainda é lento na inferência.

Gemini 3.1 Flash Live

O Google DeepMind apresentou o Gemini 3.1 Flash Live, um modelo multimodal em tempo real feito para agentes de voz e visão. Depois de mais de um ano de refinamento de modelo + infra + DX, os ganhos anunciados são:

  • Qualidade de resposta mais alta.
  • Confiabilidade superior em sessões longas.
  • Latência significativamente menor — requisito para voz em tempo real.

Nos demos, o modelo edita código de apps via comando de voz em segundos (“aumente o microfone”, “adicione bolinhas amarelas no fundo”) com resposta quase instantânea.

OpenAI Codex vira plataforma com plugins

A OpenAI introduziu plugins no Codex, transformando o que era um prompt-resposta em um ambiente de execução completo. O que muda na prática:

  1. Galeria de casos de uso com workflows reais (apps iOS, análise de datasets, geração de relatórios e apresentações).
  2. Execução em um clique dentro do app Codex.
  3. Workflows pré-montados, executáveis e extensíveis sem começar do zero.

O movimento coloca o Codex como concorrente direto do Claude Code e de outras ferramentas agênticas.

ARC-AGI 3: a nova régua

O ARC-AGI 3 foi lançado e os melhores modelos hoje pontuam menos de 1%. Parece ruim — mas é o ponto. Finalmente há um benchmark difícil de fatigar:

  • Testa raciocínio agêntico em ambientes interativos.
  • Exige acertar na primeira tentativa, sem treino prévio.
  • Humanos acertam 100% na primeira; IA atual: <1%.
  • Foco explícito em prevenir overfitting (nada de decorar padrões).

Quando o ARC-AGI 3 começar a ser resolvido, o próximo passo do benchmark são videogames comerciais reais — IA que não só raciocina, mas age e se adapta em mundos digitais complexos.

Atualizações do Claude Code

  • Autofix na nuvem: corrige PRs remotamente — resolve falhas de CI e comentários de review automaticamente.
  • Limite de sessão 5h apertado nos horários de pico para planos free/pro/max (limites semanais não mudaram).
  • Auto mode: classificador embutido libera ações seguras e bloqueia arriscadas, sem o prompt de permissão toda hora.

Outros destaques

  • Mimo v2 Pro — Pro e Omni seguem gratuitos por mais uma semana no OpenCode.
  • ElevenLabs CLI agora é agent-first: não-interativo por padrão, com modo humano atrás de flag.
  • Mistral Vauxhall TTS: modelo open-weight de fala expressiva, 9 idiomas, baixíssima latência, voz adaptável.
  • Anthropic Operon: agente no Claude Desktop focado em pesquisa científica (biologia) — ambiente privado, múltiplas sessões por projeto, artefatos e skills.
  • Sora app será encerrado — OpenAI promete detalhes sobre export de conteúdo. Sinal de que compute está sendo redirecionado para o projeto interno Spud.
  • Cursor Composer 2: anunciado como modelo frontier próprio, mas usuários descobriram que é um fine-tune de Kimi K2.5 open-source — polêmica sobre transparência.

Leitura da semana

A distância entre ferramenta e sistema está sumindo rápido. Plugins no Codex, auto mode no Claude Code, agentes de voz em tempo real no Gemini e a chegada de modelos acima da tier Opus indicam uma mesma direção: IA que executa sozinha, dentro de ambientes de trabalho completos. Para quem constrói produto, vale começar a desenhar workflows assumindo essa camada como presente — não como promessa.

#anthropic #claude-code #openai #google-deepmind #arc-agi #glm #gemini

Sobre o autor

Editor — Techify

Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.

  • Focado em automação com IA aplicada