DeepSeek V4: o que esperar do modelo de 1 trilhão

Q: Quando o DeepSeek V4 vai ser lançado?

O lançamento está previsto para o fim de abril de 2026 , depois de três adiamentos ao longo do primeiro trimestre. Até 21 de abril o pré-treino estava concluído e o V4-Lite rodava em nós de API experimentais, mas não havia model card oficial, pesos no HuggingFace nem anúncio formal da DeepSeek. Reuters, citando The Information, reportou em 3 de abril que o drop aconteceria em algumas semanas . A janela de release é apertada — times que querem avaliar o modelo devem monitorar o HuggingFace da deepseek-ai em tempo real.

Q: Quanto custa a API do DeepSeek V4?

O pricing esperado é de $0.30 por milhão de tokens de input , $0.50 por milhão de tokens de output e $0.03 por milhão em cache hit (90% de desconto). Isso coloca o V4 entre 27x e 68x mais barato que Claude Opus 4.6 e GPT-5.4 nos mesmos volumes. Os números são derivados de documentação preliminar da DeepSeek e alinhados com o padrão de V3.2 — a DeepSeek não publicou ainda a página oficial de pricing do V4.

Q: O DeepSeek V4 é realmente open source?

A expectativa é de licença Apache 2.0 com pesos completos publicados no HuggingFace, seguindo o padrão do DeepSeek V3 e V3.2. Apache 2.0 permite uso comercial, modificação e redistribuição sem restrições significativas. O download dos pesos deve ficar entre 400 e 700 GB, o que exige planejamento de armazenamento e infraestrutura de inferência — não é um modelo para rodar em notebook. Para comparação, LLaMA 3.1 405B ocupa cerca de 800 GB.

O DeepSeek V4 deve chegar com 1T parâmetros em MoE, contexto de 1M tokens, arquitetura Engram e preço até 50x menor que Claude Opus 4.6 — veja o que já se sabe

Por Rob Publicado em 21 de abril de 2026 Atualizado em 28 de abril de 2026 ⏱ 10 min de leitura

Principais conclusões

Avalie o DeepSeek V4 quando custo por token dominar a decisão — o preço esperado é de $0.30/M input e $0.50/M output, entre 27x e 68x mais barato que GPT-5.4 e Claude Opus 4.6.
Dimensione o deploy considerando que o MoE ativa apenas 32 a 37B parâmetros por token — inferência lembra um modelo médio, mas o footprint em disco chega a 700 GB de pesos.
Valide a janela de 1M tokens com arquitetura Engram antes de migrar: o recall chega a 97% no Needle-in-a-Haystack, mas depende muito do padrão real do seu workload.
Monitore a dependência CUDA → CANN: a inferência é otimizada para Huawei Ascend 950PR, então alguns ganhos de latência só se materializam fora do ecossistema NVIDIA.
Contrate consultoria especializada para orquestrar DeepSeek V4 com Claude e GPT em arquitetura híbrida quando latência, custo, jurisdição de dados e SLA precisam conviver no mesmo pipeline.

Modelos frontier ocidentais cobram entre $15 e $75 por milhão de tokens de output em 2026, enquanto qualquer pipeline LLM em produção paga latência de dezenas de segundos para janelas acima de 200 mil tokens. O DeepSeek V4 promete entregar 81% no SWE-bench Verified, contexto de 1 milhão de tokens e preço de $0.50 por milhão de output — com pesos abertos sob Apache 2.0.

Este guia reúne o que está publicamente documentado sobre o DeepSeek V4 até 21 de abril de 2026: arquitetura, benchmarks vazados, preço esperado, hardware de inferência e o impacto competitivo no mercado de LLMs abertos.

Por que o DeepSeek V4 é a aposta mais agressiva do ano em modelos abertos

O DeepSeek V4 é o próximo modelo de linguagem de fronteira da DeepSeek AI, com 1 trilhão de parâmetros totais em arquitetura Mixture-of-Experts, 32 a 37 bilhões de parâmetros ativos por token, janela de contexto de 1 milhão de tokens e licença Apache 2.0 esperada. O conjunto coloca o modelo, em papel, na mesma faixa de capacidade de Claude Opus 4.6 e GPT-5.4, mas com pesos abertos e custo drasticamente menor.

APIs fechadas pagam um prêmio pesado em soberania e customização: um time que escolhe GPT-5.4 aceita dependência de rede, latência de rota americana e revisão humana limitada pela política do provedor. Em auditorias da Techify, observamos que de 40% a 60% do custo operacional de pipelines LLM em empresas médias vem de cobranças de token que seriam evitáveis com um modelo aberto rodando em infraestrutura dedicada.

O DeepSeek V4 ataca exatamente esse ponto: se os benchmarks vazados se confirmarem no lançamento, ele entrega performance competitiva por $0.30 por milhão de tokens de input — ordem de grandeza abaixo das alternativas fechadas. A próxima seção explica como a arquitetura viabiliza esse salto.

Os três avanços arquiteturais que justificam uma nova geração

O DeepSeek V4 se distingue das gerações anteriores por três componentes arquiteturais inéditos: memória condicional Engram, DeepSeek Sparse Attention (DSA) com Lightning Indexer e Manifold-Constrained Hyper-Connections (mHC). Os três foram desenhados para atacar o mesmo problema — escalar contexto e conhecimento sem pagar o custo quadrático de atenção densa nem multiplicar o número de parâmetros ativos.

Gerações anteriores de MoE, incluindo DeepSeek V3, usavam atenção densa e depositavam todo o conhecimento nos próprios pesos — arquitetura que casava bem com contextos de 128 mil tokens mas degradava em janelas maiores. A escalada para 1 milhão de tokens exigia repensar o modo como o modelo guarda e recupera conhecimento.

A alocação ótima documentada pela DeepSeek distribui 20–25% do orçamento em memória condicional e 75–80% em computação, invertendo a lógica tradicional do Transformer que acumulava tudo nos pesos. Projetos que implementamos na Techify mostram que essa separação é exatamente o que permite rodar janelas longas em hardware comercial sem estourar VRAM.

Engram: memória condicional que resolve o limite do Transformer

Engram é um módulo de memória externa condicional que separa recuperação de conhecimento estático da computação neural dinâmica, com lookup em O(1) via hash tables em DRAM. Em vez de recalcular fatos a cada passo do forward pass, o modelo consulta Engram como um dicionário e injeta o resultado na atenção, liberando os parâmetros ativos para raciocínio em vez de retenção.

O impacto em benchmarks de recall é grande: 97% de acurácia no Needle-in-a-Haystack em contexto de 1M tokens, contra 84.2% na baseline sem Engram. O mecanismo também entrega de 3 a 5 pontos percentuais de ganho em benchmarks gerais, compensando o overhead de uma indireção adicional na pipeline.

Na prática, Engram resolve dois problemas que limitavam MoEs clássicos: a penalidade de memória ao aumentar o vocabulário especializado e a dificuldade de atualizar conhecimento sem fine-tuning pesado. O módulo é público no repositório deepseek-ai/Engram e pode ser estudado de forma independente do V4, o que dá aos times de engenharia uma pista concreta da direção técnica da DeepSeek.

DeepSeek Sparse Attention: 1 milhão de tokens sem custo quadrático

DeepSeek Sparse Attention (DSA) substitui o mecanismo denso tradicional por uma estrutura de duas etapas que reduz aproximadamente 50% do overhead computacional em cenários de contexto longo. Um Lightning Indexer escaneia todos os tokens do contexto e identifica as regiões relevantes antes de aplicar atenção densa apenas nesses trechos.

Atenção densa clássica escala em O(n²): dobrar o contexto quadruplica o custo. Em janelas de 128k tokens, o modelo ainda roda; em 1M tokens, a matriz de atenção viraria um gargalo intratável em qualquer GPU comercial. DSA contorna esse limite escolhendo, em tempo real, quais tokens merecem atenção total e quais podem ser resumidos por atenção esparsa.

O resultado prático é que janelas de 1M tokens passam a ser economicamente viáveis em produção. A Techify recomenda pensar em DSA como um sistema de roteamento: workloads rotineiros (leitura de um contrato, sumarização de logs) gastam pouco; workloads densos em raciocínio (debugging entre módulos, análise legal multi-parte) recebem atenção completa nos trechos que importam.

1 trilhão de parâmetros com 37B ativos: como o MoE resolve a equação de custo

O DeepSeek V4 ativa entre 32 e 37 bilhões de parâmetros por token durante a inferência, apesar de ter 1 trilhão no total — o modelo se comporta, em latência e consumo de memória por passo, como um modelo de porte médio. Apenas 3.2% a 3.7% dos parâmetros totais estão ativos em qualquer forward pass, o que explica como a inferência cabe em hardware comercial sem exigir supercomputadores.

Mixture-of-Experts funciona por roteamento: uma rede de gating decide, a cada token, qual subconjunto de experts (especialistas) é acionado. Os experts não usados ficam em memória mas não gastam FLOPs. O tradeoff é footprint de memória: carregar 1T parâmetros exige infraestrutura preparada para 400 a 700 GB de pesos, o que não é trivial para deploy on-premises sem planejamento.

É um modelo pensado para operação em cluster ou em inferência serverless sob demanda, não para rodar local em notebook. Para times avaliando self-host, a regra de bolso é: orce o custo de VRAM antes do custo de token — com 1T parâmetros, a conta de GPU pode dominar a economia de API que a escolha do modelo aparentemente entrega.

Preço esperado: 50x mais barato que Claude Opus 4.6

O pricing esperado do DeepSeek V4 é de $0.30 por milhão de tokens de input, $0.50 por milhão de output e $0.03 por milhão em cache hit — entre 27 e 68 vezes mais barato que Claude Opus 4.6 e GPT-5.4 para os mesmos volumes. O desconto de 90% em cache hit é particularmente relevante para aplicações com prompts estruturados (system prompts longos, few-shot examples, templates).

Um pipeline típico de automação empresarial que hoje paga $2.000 por mês em GPT-5.4 pode cair para $40 a $80 no V4, assumindo paridade de qualidade na tarefa específica. Em auditorias da Techify, times que migraram cargas secundárias de Claude Opus para DeepSeek V3 em 2025 cortaram até 85% da fatura mantendo métricas de produto estáveis — o V4 deve ampliar essa margem.

Cada trimestre operando exclusivamente em APIs fechadas significa custo de token subindo no ritmo do uso, enquanto concorrentes com stack híbrida consolidam margem operacional e reinvestem em features.

Comparação: DeepSeek V4 vs GPT-5.4 vs Claude Opus 4.6

DeepSeek V4, GPT-5.4 e Claude Opus 4.6 competem no mesmo segmento frontier em 2026, mas com perfis de custo, arquitetura e maturidade radicalmente diferentes. A tabela abaixo sintetiza os pontos críticos para uma decisão de arquitetura.

Dimensão	DeepSeek V4	GPT-5.4	Claude Opus 4.6
Parâmetros	1T total / 32–37B ativos (MoE)	Não divulgado	Não divulgado
Contexto	1M tokens	1M tokens	1M tokens
Input ($/M)	$0.30 (esperado)	~$8	~$15
Output ($/M)	$0.50 (esperado)	~$14	~$34
Cache hit	$0.03/M	Sim, variável	Sim, variável
SWE-bench Verified	81% (vazado)	~80%	~82%
Licença	Apache 2.0 (esperado)	Proprietária	Proprietária
Hardware	Huawei Ascend 950PR	NVIDIA (nuvem OpenAI)	NVIDIA + TPU
Status em 21/04/2026	Não lançado	Disponível	Disponível

Os números de GPT-5.4 e Claude Opus 4.6 são verificados em produção; os do V4 são vazamentos internos aguardando confirmação. Na Techify, a regra que aplicamos é: arquiteturas híbridas (V4 para volume + Opus para raciocínio de missão crítica) costumam entregar a melhor relação custo-qualidade em produção, sem apostar tudo em um único provedor.

Huawei Ascend 950PR e a saída do CUDA: o que muda para quem deploya

O DeepSeek V4 é o primeiro modelo frontier chinês otimizado para rodar inferência em chips Huawei Ascend 950PR em vez de GPUs NVIDIA, marcando a primeira transição real do ecossistema chinês para fora do CUDA. O Ascend 950PR entrega 1 PFLOPS em FP8, 2 PFLOPS em FP4, 112 GB de memória HiBL integrada e 1.4 TB/s de bandwidth — hardware comparável a H200 em classe de inferência.

Treino ainda depende de GPUs NVIDIA: a DeepSeek migrou o stack de inferência CUDA → CANN mas manteve pré-treino em cluster ocidental, o que explica parte dos três adiamentos do V4. Terminar a migração de inferência foi o preço que o time pagou por uma declaração estratégica de independência de CUDA.

Para times ocidentais, a implicação prática é dupla: os pesos abertos rodam em qualquer GPU NVIDIA moderna com drivers padrão; mas a engenharia de performance fina foi otimizada para CANN, e alguns ganhos de latência do V4 só se materializam no hardware chinês. Empresas brasileiras que queiram deploy on-premises podem rodar o V4 em H100/H200 sem problemas — só não devem esperar os mesmos números de benchmark absolutos.

O que ainda não sabemos e como se preparar para o lançamento

Até 21 de abril de 2026, o DeepSeek V4 ainda não tem model card oficial, pesos no HuggingFace nem página pública de pricing — os números disponíveis são extraídos de testes internos vazados e do V4-Lite em nós de API experimentais. Todo benchmark público deve ser tratado com a ressalva de que a avaliação independente só começa quando os pesos forem liberados.

Quem planeja adotar o V4 em produção pode fazer três coisas hoje para encurtar o time-to-value pós-lançamento: catalogar workloads internos por perfil de sensibilidade (dados públicos vs. confidenciais), medir custo real de tokens da stack atual com granularidade por endpoint, e testar DeepSeek V3.2 como baseline para validar o padrão de qualidade que o V4 deve superar.

A Techify recomenda rodar um experimento A/B com V3.2 em 5% a 10% do tráfego secundário antes do lançamento do V4 — isso cria baseline mensurável e reduz o risco de migração precipitada baseada só em benchmark vazado. Quando o V4 sair, substituir o endpoint é uma troca de uma linha.

Conclusão

O DeepSeek V4 tem potencial para reconfigurar o mercado de LLMs em 2026: 1 trilhão de parâmetros em MoE, 1 milhão de tokens de contexto, licença aberta e preço até 50x menor que Claude Opus 4.6. Se os benchmarks vazados se confirmarem, é o primeiro modelo aberto com paridade real a frontier fechado.

Se sua operação depende de LLMs e você ainda não tem uma estratégia híbrida de modelos abertos e fechados, a janela para redesenhar a stack antes do próximo ciclo de orçamento está abrindo agora. A Techify apoia esse redesenho do diagnóstico à entrada em produção — fale com nossa equipe para mapear o plano certo para o seu volume.

#deepseek #lancamento #open-source #comparativo

Sobre o autor

Rob

Editor — Techify

Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.

Focado em automação com IA aplicada

Perguntas frequentes

Quando o DeepSeek V4 vai ser lançado?

O lançamento está previsto para o fim de abril de 2026, depois de três adiamentos ao longo do primeiro trimestre. Até 21 de abril o pré-treino estava concluído e o V4-Lite rodava em nós de API experimentais, mas não havia model card oficial, pesos no HuggingFace nem anúncio formal da DeepSeek. Reuters, citando The Information, reportou em 3 de abril que o drop aconteceria em algumas semanas. A janela de release é apertada — times que querem avaliar o modelo devem monitorar o HuggingFace da deepseek-ai em tempo real.

Quanto custa a API do DeepSeek V4?

O pricing esperado é de $0.30 por milhão de tokens de input, $0.50 por milhão de tokens de output e $0.03 por milhão em cache hit (90% de desconto). Isso coloca o V4 entre 27x e 68x mais barato que Claude Opus 4.6 e GPT-5.4 nos mesmos volumes. Os números são derivados de documentação preliminar da DeepSeek e alinhados com o padrão de V3.2 — a DeepSeek não publicou ainda a página oficial de pricing do V4.

O DeepSeek V4 é realmente open source?

A expectativa é de licença Apache 2.0 com pesos completos publicados no HuggingFace, seguindo o padrão do DeepSeek V3 e V3.2. Apache 2.0 permite uso comercial, modificação e redistribuição sem restrições significativas. O download dos pesos deve ficar entre 400 e 700 GB, o que exige planejamento de armazenamento e infraestrutura de inferência — não é um modelo para rodar em notebook. Para comparação, LLaMA 3.1 405B ocupa cerca de 800 GB.

Qual a diferença entre DeepSeek V4 e Claude Opus 4.6 ou GPT-5.4?

Os três competem no mesmo tier frontier com contextos de 1M tokens, mas diferem em três eixos: licença (V4 Apache 2.0 vs. proprietárias), custo (V4 é 27x a 68x mais barato) e maturidade (Opus e GPT-5.4 estão em produção há meses, V4 ainda não lançou). Claude Opus lidera em raciocínio multi-arquivo e compreensão de intenção, GPT-5.4 em tool use e controles de reasoning, e V4 aposta em custo e janela longa via Engram. Na prática, arquitetura híbrida entrega o melhor tradeoff.

Vale a pena esperar o DeepSeek V4 para migrar a stack de IA?

Depende do perfil do workload. Para aplicações sensíveis a custo com alto volume e qualidade aceitável em torno de 80% de SWE-bench, esperar o V4 pode gerar economia expressiva. Para casos com alta exigência de raciocínio ou necessidade imediata de produção, migrar para V3.2 agora e subir para V4 quando estabilizar costuma ser mais seguro. Em consultorias da Techify, o roteiro padrão é implementar um roteador de modelos que trate cada query com o LLM mais econômico capaz de resolver — assim a troca de V3.2 para V4 no lançamento vira uma mudança de configuração.