NVIDIA Nemotron 3 Nano Omni: parâmetros, contexto e benchmarks do novo modelo multimodal

A NVIDIA apresentou o Nemotron 3 Nano Omni, modelo aberto 30B-A3B com contexto de até 256 mil tokens para agentes multimodais. Veja arquitetura, modalidades suportadas, ganhos de eficiência e comparação de benchmarks com Nemotron Nano V2 VL e Qwen3-Omni.

Por Techify Publicado em 29 de abril de 2026 Atualizado em 05 de maio de 2026 ⏱ 8 min de leitura

Principais conclusões

O Nemotron 3 Nano Omni é um modelo multimodal aberto da NVIDIA para texto, imagem, vídeo e áudio.
A variante divulgada é 30B-A3B, com cerca de 31 bilhões de parâmetros e arquitetura híbrida Mamba2-Transformer MoE.
A janela de contexto chega a até 256 mil tokens, permitindo tarefas longas com documentos, vídeos, áudio e histórico de interação.
Nos benchmarks publicados, o modelo supera Nemotron Nano V2 VL em documentos, vídeo, GUI e raciocínio visual, e compete com Qwen3-Omni 30B-A3B.
A NVIDIA destaca até 9x mais throughput, 7,4x mais eficiência em múltiplos documentos e 9,2x em vídeo frente a outros modelos omni abertos.

A NVIDIA lançou o Nemotron 3 Nano Omni, um modelo aberto de IA multimodal criado para agentes que precisam entender texto, imagem, vídeo e áudio dentro do mesmo fluxo de raciocínio. A proposta é reduzir a dependência de pipelines separados — OCR para documentos, ASR para áudio, modelos de visão para imagens e LLMs para texto — e colocar essas modalidades em uma arquitetura única, mais eficiente para automações corporativas.

O ponto central do lançamento não é apenas “mais um modelo com visão”. O Nemotron 3 Nano Omni chega como um modelo 30B-A3B, com janela de contexto de até 256 mil tokens, suporte a entradas multimodais e foco explícito em agentes de IA capazes de operar sobre documentos longos, interfaces gráficas, vídeos, áudios e tarefas de raciocínio geral. No eixo de agentes textuais e código, o MiMo V2.5 Pro segue uma direção parecida ao priorizar contexto longo e uso consistente de ferramentas.

Resumo técnico: o que foi anunciado

Em termos práticos, o Nemotron 3 Nano Omni combina uma base de linguagem da família Nemotron com encoders especializados para visão e áudio. A NVIDIA descreve a arquitetura como um sistema encoder-projector-decoder: cada modalidade é processada por um encoder, projetada para o espaço do modelo de linguagem e então raciocinada em conjunto.

Item	Detalhe divulgado
Família	NVIDIA Nemotron 3 Nano Omni
Arquitetura	Mamba2-Transformer híbrido com Mixture-of-Experts
Parâmetros	aprox. 31 bilhões, variante 30B-A3B
Contexto	até 256 mil tokens
Modalidades	texto, imagem, vídeo e áudio
Visão	encoder C-RADIOv4-H
Áudio	encoder Parakeet-TDT-0.6B-v2 / Parakeet speech encoder
Entradas suportadas	imagens RGB, texto, áudio e vídeo
Formatos citados	mp4 para vídeo; wav e mp3 para áudio; jpeg e png para imagens
Disponibilidade	checkpoints BF16, FP8 e NVFP4; também via NIM/build da NVIDIA e provedores compatíveis

O “A3B” no nome indica a lógica de ativação esparsa típica de MoE: em vez de todo o modelo trabalhar da mesma forma em cada token, a arquitetura roteia partes da computação para especialistas. O resultado esperado é manter capacidade total elevada sem pagar o custo integral de inferência em todos os passos.

Arquitetura: por que Mamba, Transformer e MoE aparecem juntos

A NVIDIA combina três blocos importantes no backbone do modelo:

23 camadas Mamba, usadas para processamento eficiente de contexto longo;
23 camadas MoE, com 128 especialistas, roteamento top-6 e um especialista compartilhado;
6 camadas de grouped-query attention, para preservar interação global e expressividade.

Essa mistura é estratégica. Contextos multimodais longos são caros: documentos extensos, múltiplas páginas, telas em alta resolução e vídeos geram muitos tokens. Camadas do tipo Mamba ajudam na eficiência em sequências longas; atenção mantém capacidade de interação global; e MoE adiciona capacidade condicional sem transformar toda inferência em um custo fixo gigantesco.

Janela de contexto: até 256 mil tokens

Um dos números mais importantes do lançamento é a janela de até 256K tokens. Para agentes, isso muda o tipo de tarefa possível. Em vez de analisar apenas um recorte curto, o modelo pode receber mais páginas de um relatório, histórico de interação, trechos de transcrição, frames selecionados de vídeo e instruções do usuário em uma mesma sessão.

A NVIDIA também menciona treinamento com áudio de até 1.200 segundos, ou 20 minutos, e suporte de contexto do LLM suficiente para cenários com várias horas de conteúdo processado em formato tokenizado. Para aplicações reais, isso é relevante em reuniões, aulas, vídeos de suporte, gravações de atendimento e auditorias internas.

Vídeo: Conv3D e Efficient Video Sampling

Vídeo é uma das modalidades mais difíceis para agentes porque explode rapidamente o número de tokens. O Nemotron 3 Nano Omni usa duas técnicas para lidar com isso:

Conv3D temporal compression: pares de frames consecutivos são fundidos em “tubelets”, reduzindo a quantidade de tokens visuais que chegam ao LLM;
EVS — Efficient Video Sampling: durante a inferência, o modelo mantém o primeiro frame completo e, nos frames seguintes, preserva tokens dinâmicos enquanto descarta partes estáticas redundantes.

Esse desenho permite capturar o que muda no vídeo sem desperdiçar computação com pixels repetidos. Para agentes que analisam gravações de tela, demonstrações de produto ou vídeos operacionais, essa eficiência é tão importante quanto a acurácia.

Áudio nativo, não apenas transcrição

Outro ponto relevante é que o modelo não trata áudio apenas como texto transcrito. A camada de áudio usa o Parakeet-TDT-0.6B-v2, conectada ao backbone por um projetor MLP de duas camadas. O áudio é amostrado a 16 kHz e integrado à sequência multimodal.

Isso importa porque o significado de um vídeo nem sempre está somente nas palavras. Tom de voz, ordem temporal, relação entre fala e imagem e contexto visual podem alterar a interpretação. Em uma gravação de tela narrada, por exemplo, o agente precisa ligar “clique aqui” ao elemento visual correto.

Benchmark: comparação com Nemotron Nano V2 VL e Qwen3-Omni

Nos números divulgados pela NVIDIA, o Nemotron 3 Nano Omni melhora de forma significativa a geração anterior da própria família e compete diretamente com o Qwen3-Omni 30B-A3B em várias tarefas. A tabela abaixo resume os benchmarks publicados:

Tarefa	Benchmark	Nemotron 3 Nano Omni	Nemotron Nano V2 VL	Qwen3-Omni 30B-A3B
Documentos	OCRBenchV2-En	65,8	61,2	—
Documentos longos	MMLongBench-Doc	57,5	38,0	49,5
Raciocínio visual	CharXiv reasoning	63,6	41,3	61,1
GUI	ScreenSpot-Pro	57,8	5,5	59,7
Uso de computador	OSWorld	47,4	11,0	29,0
Vídeo	Video-MME	72,2	63,0	70,5
Vídeo + áudio	WorldSense	55,4	—	54,0
Vídeo + áudio	DailyOmni	74,1	—	73,6
Interação por voz	VoiceBench	89,4	—	88,8
ASR	HF Open ASR, menor é melhor	5,95	—	6,55

A leitura desses números é clara: o salto mais forte aparece em documentos longos, raciocínio visual e uso de computador. No ScreenSpot-Pro, o Qwen3-Omni fica levemente à frente, mas no OSWorld o Nemotron 3 Nano Omni aparece com vantagem relevante. Isso sugere um modelo particularmente interessante para agentes que precisam observar uma interface e executar ações com base no estado visual da tela.

Eficiência: 7,4x em múltiplos documentos e 9,2x em vídeo

A NVIDIA afirma que, comparado a outros modelos omni abertos com a mesma interatividade, o Nemotron 3 Nano Omni entrega 7,4x mais eficiência sistêmica em casos de múltiplos documentos e 9,2x mais eficiência em casos de vídeo. O anúncio também resume o ganho como até 9x mais throughput e cita 2,9x mais velocidade de raciocínio single-stream em cenários multimodais.

Para empresas, eficiência deve ser interpretada como custo por tarefa concluída, não apenas velocidade bruta. Um agente multimodal pode parecer excelente em demonstração, mas se cada análise de vídeo custar caro demais ou demorar muito, ele não escala. Por isso, os ganhos de throughput são uma parte central do posicionamento do modelo.

Casos de uso mais promissores

O Nemotron 3 Nano Omni foi desenhado para fluxos onde texto sozinho não basta. Os casos de uso mais fortes são:

inteligência documental: contratos, relatórios financeiros, manuais técnicos, PDFs com tabelas, gráficos e imagens;
agentes de computador: navegação em interfaces, interpretação de telas, automação de browser, e-mail e sistemas internos;
análise de vídeo e áudio: gravações de reuniões, vídeos de treinamento, atendimento, suporte e monitoramento;
OCR e leitura visual: extração e raciocínio sobre texto em imagens, prints e formulários;
Q&A corporativo multimodal: perguntas sobre um conjunto misto de documentos, vídeos, áudio e imagens.

O que muda para quem constrói agentes

O modelo aponta para uma arquitetura de agentes menos fragmentada. Em vez de montar um pipeline com várias etapas independentes — transcrever, extrair texto, resumir, enviar para o LLM, validar resposta — parte maior da interpretação pode acontecer dentro de um mesmo modelo multimodal.

Isso não elimina orquestração. Agentes ainda precisam de ferramentas, memória, avaliação, logs, políticas de permissão e integração com sistemas. Mas o bloco central de percepção fica mais forte. O agente passa a entender melhor o “estado do mundo” antes de agir.

Limitações e cuidados antes de adotar

Apesar dos números fortes, adoção em produção exige validação própria. O modelo tem suporte declarado principalmente para inglês, e isso deve ser testado com documentos e áudios em português antes de qualquer implantação crítica. Também é necessário medir latência, custo de GPU, qualidade em arquivos reais e robustez em cenários com ruído, baixa resolução ou formatos inconsistentes.

Outro cuidado é não confundir benchmark com SLA. Resultados em OCRBench, MMLongBench-Doc, OSWorld ou Video-MME ajudam a comparar modelos, mas a decisão final deve considerar tarefas reais: quantos chamados o agente resolve, quantos documentos ele processa corretamente, quanto custa por execução e qual taxa de erro é aceitável.

Leitura estratégica

O Nemotron 3 Nano Omni reforça uma direção inevitável: agentes de IA estão deixando de ser apenas chatbots com ferramentas e se aproximando de sistemas que veem, escutam, leem e agem. A vantagem competitiva não virá apenas do modelo escolhido, mas de como a empresa transforma multimodalidade em processo confiável.

Para quem está criando produtos de IA, o caminho prático é começar por um caso de uso estreito, montar um conjunto de avaliação com dados reais, medir custo por tarefa e só então expandir. O lançamento da NVIDIA é relevante porque coloca mais pressão no mercado de modelos abertos: multimodalidade, contexto longo e eficiência agora precisam andar juntos.

#nvidia #agentes-de-ia #open-source #lancamento #multimodal #benchmark

Perguntas frequentes

Quantos parâmetros tem o Nemotron 3 Nano Omni?

A NVIDIA descreve o modelo como uma variante 30B-A3B, com aproximadamente 31 bilhões de parâmetros em arquitetura Mixture-of-Experts.

Qual é a janela de contexto do Nemotron 3 Nano Omni?

A especificação divulgada indica contexto máximo de até 256 mil tokens.

Quais modalidades o modelo entende?

O modelo aceita texto, imagem, vídeo e áudio, com saída em texto.

Como ele se compara ao Qwen3-Omni?

Nos benchmarks publicados, o Nemotron 3 Nano Omni supera o Qwen3-Omni em tarefas como MMLongBench-Doc, OSWorld, Video-MME, WorldSense, DailyOmni, VoiceBench e ASR; o Qwen3-Omni fica à frente em ScreenSpot-Pro.

Ele já é ideal para produção em português?

Ainda é preciso testar. A ficha do modelo destaca suporte principalmente a inglês, então empresas devem validar documentos, áudio e fluxos em português antes de usar em produção.