DeepSeek V4 chega com 1M de contexto, duas versões e foco em agentes
A DeepSeek liberou o preview do DeepSeek-V4 menos de 24 horas atrás, com os modelos V4-Pro e V4-Flash, pesos abertos, janela padrão de 1 milhão de tokens e preços agressivos na API. Entenda o que muda para desenvolvedores, agentes de IA e empresas que usam modelos abertos.
Principais conclusões
- O DeepSeek-V4 foi lançado em preview com duas versões: V4-Pro, focado em máxima qualidade, e V4-Flash, focado em velocidade e custo baixo.
- Ambos os modelos oferecem janela de contexto de 1 milhão de tokens e estão disponíveis via API desde o lançamento.
- O V4-Pro tem 1,6T de parâmetros totais e 49B ativos; o V4-Flash tem 284B totais e 13B ativos.
- A DeepSeek posiciona o V4 como uma família otimizada para agentes, código, ferramentas e tarefas longas, não apenas perguntas isoladas.
- Os modelos antigos deepseek-chat e deepseek-reasoner serão aposentados após 24 de julho de 2026, então integrações existentes devem ser testadas com antecedência.
A DeepSeek colocou no ar o preview do DeepSeek-V4, menos de 24 horas após o anúncio oficial, e o lançamento é maior do que uma simples atualização incremental. A nova família chega em duas variantes, DeepSeek-V4-Pro e DeepSeek-V4-Flash, com pesos abertos, disponibilidade imediata na API, suporte a 1 milhão de tokens de contexto e uma mensagem clara para o mercado: modelos abertos continuam pressionando custo, desempenho e velocidade de adoção em IA.
O anúncio oficial posiciona o V4 como uma família voltada a três frentes: raciocínio, conhecimento de mundo e uso agentic, isto é, a capacidade de trabalhar com ferramentas, código, terminais e fluxos longos. Publicações recentes que acompanharam o lançamento reforçam o mesmo ponto: a DeepSeek quer disputar não apenas benchmarks tradicionais, mas também o espaço em que modelos são usados como operadores autônomos dentro de IDEs, agentes de programação e pipelines corporativos.
O que foi lançado
A família DeepSeek-V4 tem dois modelos principais. O V4-Pro é o modelo maior, com 1,6 trilhão de parâmetros totais e 49 bilhões de parâmetros ativos. Ele foi apresentado como a opção de maior qualidade, voltada a raciocínio, programação, tarefas complexas e agentes mais exigentes. O V4-Flash é a opção mais econômica e rápida, com 284 bilhões de parâmetros totais e 13 bilhões de parâmetros ativos, mantendo a mesma janela de contexto de 1 milhão de tokens.
Ambos aparecem como modelos de pesos abertos e com API disponível desde o lançamento. No produto da DeepSeek, o V4-Pro é associado ao modo Expert, enquanto o V4-Flash aparece como o caminho de Instant Mode. Essa divisão é importante porque espelha uma decisão prática que muitas empresas já fazem hoje: usar um modelo mais forte para tarefas críticas e um modelo mais barato para alto volume, atendimento, extração, automação e primeiras etapas de agentes.
1 milhão de tokens como padrão
O ponto mais chamativo do anúncio é que a DeepSeek afirma ter tornado 1M de contexto o padrão nos serviços oficiais do V4. Na prática, isso permite trabalhar com bases de código grandes, documentos extensos, histórico longo de conversa, relatórios, contratos, logs ou múltiplos arquivos sem quebrar tudo em pedaços pequenos desde o primeiro passo. Essa mesma aposta em contexto longo aparece no MiMo V2.5 Pro, que combina janela de até 1 milhão de tokens com foco em agentes de longo horizonte.
A empresa atribui esse salto a uma combinação de compressão token a token e DeepSeek Sparse Attention, uma abordagem projetada para reduzir custo computacional e consumo de memória em contextos longos. Para o usuário final, o resultado esperado é simples: mais informação dentro do prompt, menos engenharia manual de resumos e mais espaço para agentes manterem estado durante tarefas longas.
Isso não elimina a necessidade de arquitetura. Um contexto de 1 milhão de tokens mal organizado ainda pode gerar respostas ruins, lentas ou caras. Mas muda o teto operacional. Em vez de perguntar se o modelo cabe no problema, times de produto podem começar a perguntar qual parte do problema realmente precisa estar no contexto em cada etapa.
V4-Pro: a aposta em raciocínio e agentes
Segundo o material de lançamento, o DeepSeek-V4-Pro foi otimizado para disputar com modelos fechados de ponta em raciocínio, matemática, STEM, programação e conhecimento geral. Nos gráficos divulgados pela DeepSeek, o modelo aparece particularmente forte em benchmarks de código e tarefas agentic, incluindo avaliações como SWE Verified, Terminal Bench e Toolathlon.
O recado para desenvolvedores é direto: o V4-Pro foi pensado para trabalhar em ambientes como Claude Code, OpenClaw e OpenCode, além de fluxos que combinam leitura de repositórios, execução de comandos, edição de arquivos e validação por testes. A própria DeepSeek afirma que já usa a família V4 em seu desenvolvimento interno orientado por agentes.
Essa é uma mudança relevante. Durante muito tempo, a comparação entre modelos ficou concentrada em provas de conhecimento, matemática e perguntas isoladas. O mercado está migrando para uma métrica mais útil: o modelo consegue completar uma tarefa real, usando ferramentas, corrigindo erros e mantendo coerência ao longo de várias etapas?
V4-Flash: custo baixo sem abandonar capacidades avançadas
O DeepSeek-V4-Flash é a peça que pode tornar o lançamento mais popular. Ele não tenta ser apenas uma versão pequena para respostas simples. A DeepSeek afirma que suas capacidades de raciocínio se aproximam do V4-Pro e que, em tarefas agentic simples, o Flash pode entregar desempenho comparável ao modelo maior.
Os preços divulgados reforçam esse posicionamento. Na API, o deepseek-v4-pro aparece com entrada em cache a US$ 0,145, entrada sem cache a US$ 1,74 e saída a US$ 3,48. O deepseek-v4-flash aparece muito abaixo: US$ 0,028 por entrada em cache, US$ 0,14 por entrada sem cache e US$ 0,28 por saída. Em ambos os casos, a janela informada é de 1 milhão de tokens.
Para produtos em produção, essa diferença pode ser decisiva. Um agente pode usar Flash para classificação, triagem, resumo, roteamento e execução de passos simples, reservando Pro para decisões complexas, debugging difícil, planejamento e revisão final.
API: migração simples, mas com prazo para modelos antigos
A DeepSeek afirma que a migração para o V4 na API pode ser feita mantendo o mesmo base_url e alterando apenas o nome do modelo para deepseek-v4-pro ou deepseek-v4-flash. A API também continua compatível com formatos populares, incluindo Chat Completions no estilo OpenAI e APIs compatíveis com Anthropic.
Há, porém, um ponto operacional importante: os modelos deepseek-chat e deepseek-reasoner serão aposentados após 24 de julho de 2026, 15:59 UTC. Até lá, eles passam a rotear para o V4-Flash em modo sem raciocínio ou com raciocínio, conforme o caso. Quem tem integrações antigas deve testar latência, qualidade, custo e comportamento antes do prazo final.
Por que o lançamento importa
O DeepSeek R1 já havia mostrado que modelos abertos podiam forçar o mercado a repensar custo e eficiência. O V4 amplia essa pressão em uma direção mais estratégica: agentes. Se a combinação de janela longa, preço baixo, pesos abertos e bom desempenho em tarefas com ferramentas se confirmar no uso real, a barreira para criar assistentes de desenvolvimento, automações internas e copilotos especializados cai bastante.
Isso também aumenta a competição entre modelos fechados e abertos. Empresas que antes aceitavam pagar caro por modelos proprietários em todas as etapas agora ganham mais uma opção para montar arquiteturas híbridas: modelos abertos para volume, modelos fechados para tarefas muito específicas e roteamento inteligente entre eles.
O que ainda precisa ser testado
Apesar do lançamento forte, é importante tratar o V4 como preview. Benchmarks e materiais oficiais ajudam a entender a direção do modelo, mas não substituem testes com dados reais. Antes de migrar sistemas críticos, vale avaliar quatro pontos: qualidade em português, aderência a instruções longas, estabilidade em chamadas de ferramenta e custo total considerando cache, saída e repetição de tentativas.
Também vale observar o ecossistema nas próximas semanas. Como os pesos foram abertos, a comunidade deve testar quantização, execução local, fine-tuning, integrações com frameworks de agentes e comparações independentes. É nesse ciclo que muitas promessas de lançamento se confirmam — ou ficam mais bem calibradas.
Leitura prática para quem desenvolve com IA
Para desenvolvedores e equipes de produto, o DeepSeek-V4 merece entrar na fila de avaliação imediatamente. O caminho mais racional não é trocar tudo de uma vez, mas criar um conjunto pequeno de testes: um fluxo de agente de código, uma tarefa de análise de documento longo, uma automação de suporte, uma comparação de custo por tarefa e um teste de regressão com prompts antigos.
Se o V4-Flash entregar boa qualidade em volume e o V4-Pro sustentar tarefas complexas com ferramentas, a família pode se tornar uma alternativa séria para reduzir custo sem abandonar capacidade. O grande diferencial do lançamento é justamente esse: não é apenas um modelo mais barato, é uma tentativa de empacotar contexto longo, agentes e código em uma oferta aberta e pronta para API.
Em resumo, o DeepSeek-V4 chega como um dos lançamentos mais importantes do ano para quem acompanha modelos abertos. Ainda é cedo para cravar o impacto definitivo, mas o conjunto de especificações, preço e foco em agentes torna o preview impossível de ignorar.
Sobre o autor
Editor — Techify
Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.
- Focado em automação com IA aplicada