NVIDIA Nemotron 3 Nano Omni: parâmetros, contexto e benchmarks do novo modelo multimodal
A NVIDIA apresentou o Nemotron 3 Nano Omni, modelo aberto 30B-A3B com contexto de até 256 mil tokens para agentes multimodais. Veja arquitetura, modalidades suportadas, ganhos de eficiência e comparação de benchmarks com Nemotron Nano V2 VL e Qwen3-Omni.
Principais conclusões
- O Nemotron 3 Nano Omni é um modelo multimodal aberto da NVIDIA para texto, imagem, vídeo e áudio.
- A variante divulgada é 30B-A3B, com cerca de 31 bilhões de parâmetros e arquitetura híbrida Mamba2-Transformer MoE.
- A janela de contexto chega a até 256 mil tokens, permitindo tarefas longas com documentos, vídeos, áudio e histórico de interação.
- Nos benchmarks publicados, o modelo supera Nemotron Nano V2 VL em documentos, vídeo, GUI e raciocínio visual, e compete com Qwen3-Omni 30B-A3B.
- A NVIDIA destaca até 9x mais throughput, 7,4x mais eficiência em múltiplos documentos e 9,2x em vídeo frente a outros modelos omni abertos.
A NVIDIA lançou o Nemotron 3 Nano Omni, um modelo aberto de IA multimodal criado para agentes que precisam entender texto, imagem, vídeo e áudio dentro do mesmo fluxo de raciocínio. A proposta é reduzir a dependência de pipelines separados — OCR para documentos, ASR para áudio, modelos de visão para imagens e LLMs para texto — e colocar essas modalidades em uma arquitetura única, mais eficiente para automações corporativas.
O ponto central do lançamento não é apenas “mais um modelo com visão”. O Nemotron 3 Nano Omni chega como um modelo 30B-A3B, com janela de contexto de até 256 mil tokens, suporte a entradas multimodais e foco explícito em agentes de IA capazes de operar sobre documentos longos, interfaces gráficas, vídeos, áudios e tarefas de raciocínio geral. No eixo de agentes textuais e código, o MiMo V2.5 Pro segue uma direção parecida ao priorizar contexto longo e uso consistente de ferramentas.
Resumo técnico: o que foi anunciado
Em termos práticos, o Nemotron 3 Nano Omni combina uma base de linguagem da família Nemotron com encoders especializados para visão e áudio. A NVIDIA descreve a arquitetura como um sistema encoder-projector-decoder: cada modalidade é processada por um encoder, projetada para o espaço do modelo de linguagem e então raciocinada em conjunto.
| Item | Detalhe divulgado |
|---|---|
| Família | NVIDIA Nemotron 3 Nano Omni |
| Arquitetura | Mamba2-Transformer híbrido com Mixture-of-Experts |
| Parâmetros | aprox. 31 bilhões, variante 30B-A3B |
| Contexto | até 256 mil tokens |
| Modalidades | texto, imagem, vídeo e áudio |
| Visão | encoder C-RADIOv4-H |
| Áudio | encoder Parakeet-TDT-0.6B-v2 / Parakeet speech encoder |
| Entradas suportadas | imagens RGB, texto, áudio e vídeo |
| Formatos citados | mp4 para vídeo; wav e mp3 para áudio; jpeg e png para imagens |
| Disponibilidade | checkpoints BF16, FP8 e NVFP4; também via NIM/build da NVIDIA e provedores compatíveis |
O “A3B” no nome indica a lógica de ativação esparsa típica de MoE: em vez de todo o modelo trabalhar da mesma forma em cada token, a arquitetura roteia partes da computação para especialistas. O resultado esperado é manter capacidade total elevada sem pagar o custo integral de inferência em todos os passos.
Arquitetura: por que Mamba, Transformer e MoE aparecem juntos
A NVIDIA combina três blocos importantes no backbone do modelo:
- 23 camadas Mamba, usadas para processamento eficiente de contexto longo;
- 23 camadas MoE, com 128 especialistas, roteamento top-6 e um especialista compartilhado;
- 6 camadas de grouped-query attention, para preservar interação global e expressividade.
Essa mistura é estratégica. Contextos multimodais longos são caros: documentos extensos, múltiplas páginas, telas em alta resolução e vídeos geram muitos tokens. Camadas do tipo Mamba ajudam na eficiência em sequências longas; atenção mantém capacidade de interação global; e MoE adiciona capacidade condicional sem transformar toda inferência em um custo fixo gigantesco.
Janela de contexto: até 256 mil tokens
Um dos números mais importantes do lançamento é a janela de até 256K tokens. Para agentes, isso muda o tipo de tarefa possível. Em vez de analisar apenas um recorte curto, o modelo pode receber mais páginas de um relatório, histórico de interação, trechos de transcrição, frames selecionados de vídeo e instruções do usuário em uma mesma sessão.
A NVIDIA também menciona treinamento com áudio de até 1.200 segundos, ou 20 minutos, e suporte de contexto do LLM suficiente para cenários com várias horas de conteúdo processado em formato tokenizado. Para aplicações reais, isso é relevante em reuniões, aulas, vídeos de suporte, gravações de atendimento e auditorias internas.
Vídeo: Conv3D e Efficient Video Sampling
Vídeo é uma das modalidades mais difíceis para agentes porque explode rapidamente o número de tokens. O Nemotron 3 Nano Omni usa duas técnicas para lidar com isso:
- Conv3D temporal compression: pares de frames consecutivos são fundidos em “tubelets”, reduzindo a quantidade de tokens visuais que chegam ao LLM;
- EVS — Efficient Video Sampling: durante a inferência, o modelo mantém o primeiro frame completo e, nos frames seguintes, preserva tokens dinâmicos enquanto descarta partes estáticas redundantes.
Esse desenho permite capturar o que muda no vídeo sem desperdiçar computação com pixels repetidos. Para agentes que analisam gravações de tela, demonstrações de produto ou vídeos operacionais, essa eficiência é tão importante quanto a acurácia.
Áudio nativo, não apenas transcrição
Outro ponto relevante é que o modelo não trata áudio apenas como texto transcrito. A camada de áudio usa o Parakeet-TDT-0.6B-v2, conectada ao backbone por um projetor MLP de duas camadas. O áudio é amostrado a 16 kHz e integrado à sequência multimodal.
Isso importa porque o significado de um vídeo nem sempre está somente nas palavras. Tom de voz, ordem temporal, relação entre fala e imagem e contexto visual podem alterar a interpretação. Em uma gravação de tela narrada, por exemplo, o agente precisa ligar “clique aqui” ao elemento visual correto.
Benchmark: comparação com Nemotron Nano V2 VL e Qwen3-Omni
Nos números divulgados pela NVIDIA, o Nemotron 3 Nano Omni melhora de forma significativa a geração anterior da própria família e compete diretamente com o Qwen3-Omni 30B-A3B em várias tarefas. A tabela abaixo resume os benchmarks publicados:
| Tarefa | Benchmark | Nemotron 3 Nano Omni | Nemotron Nano V2 VL | Qwen3-Omni 30B-A3B |
|---|---|---|---|---|
| Documentos | OCRBenchV2-En | 65,8 | 61,2 | — |
| Documentos longos | MMLongBench-Doc | 57,5 | 38,0 | 49,5 |
| Raciocínio visual | CharXiv reasoning | 63,6 | 41,3 | 61,1 |
| GUI | ScreenSpot-Pro | 57,8 | 5,5 | 59,7 |
| Uso de computador | OSWorld | 47,4 | 11,0 | 29,0 |
| Vídeo | Video-MME | 72,2 | 63,0 | 70,5 |
| Vídeo + áudio | WorldSense | 55,4 | — | 54,0 |
| Vídeo + áudio | DailyOmni | 74,1 | — | 73,6 |
| Interação por voz | VoiceBench | 89,4 | — | 88,8 |
| ASR | HF Open ASR, menor é melhor | 5,95 | — | 6,55 |
A leitura desses números é clara: o salto mais forte aparece em documentos longos, raciocínio visual e uso de computador. No ScreenSpot-Pro, o Qwen3-Omni fica levemente à frente, mas no OSWorld o Nemotron 3 Nano Omni aparece com vantagem relevante. Isso sugere um modelo particularmente interessante para agentes que precisam observar uma interface e executar ações com base no estado visual da tela.
Eficiência: 7,4x em múltiplos documentos e 9,2x em vídeo
A NVIDIA afirma que, comparado a outros modelos omni abertos com a mesma interatividade, o Nemotron 3 Nano Omni entrega 7,4x mais eficiência sistêmica em casos de múltiplos documentos e 9,2x mais eficiência em casos de vídeo. O anúncio também resume o ganho como até 9x mais throughput e cita 2,9x mais velocidade de raciocínio single-stream em cenários multimodais.
Para empresas, eficiência deve ser interpretada como custo por tarefa concluída, não apenas velocidade bruta. Um agente multimodal pode parecer excelente em demonstração, mas se cada análise de vídeo custar caro demais ou demorar muito, ele não escala. Por isso, os ganhos de throughput são uma parte central do posicionamento do modelo.
Casos de uso mais promissores
O Nemotron 3 Nano Omni foi desenhado para fluxos onde texto sozinho não basta. Os casos de uso mais fortes são:
- inteligência documental: contratos, relatórios financeiros, manuais técnicos, PDFs com tabelas, gráficos e imagens;
- agentes de computador: navegação em interfaces, interpretação de telas, automação de browser, e-mail e sistemas internos;
- análise de vídeo e áudio: gravações de reuniões, vídeos de treinamento, atendimento, suporte e monitoramento;
- OCR e leitura visual: extração e raciocínio sobre texto em imagens, prints e formulários;
- Q&A corporativo multimodal: perguntas sobre um conjunto misto de documentos, vídeos, áudio e imagens.
O que muda para quem constrói agentes
O modelo aponta para uma arquitetura de agentes menos fragmentada. Em vez de montar um pipeline com várias etapas independentes — transcrever, extrair texto, resumir, enviar para o LLM, validar resposta — parte maior da interpretação pode acontecer dentro de um mesmo modelo multimodal.
Isso não elimina orquestração. Agentes ainda precisam de ferramentas, memória, avaliação, logs, políticas de permissão e integração com sistemas. Mas o bloco central de percepção fica mais forte. O agente passa a entender melhor o “estado do mundo” antes de agir.
Limitações e cuidados antes de adotar
Apesar dos números fortes, adoção em produção exige validação própria. O modelo tem suporte declarado principalmente para inglês, e isso deve ser testado com documentos e áudios em português antes de qualquer implantação crítica. Também é necessário medir latência, custo de GPU, qualidade em arquivos reais e robustez em cenários com ruído, baixa resolução ou formatos inconsistentes.
Outro cuidado é não confundir benchmark com SLA. Resultados em OCRBench, MMLongBench-Doc, OSWorld ou Video-MME ajudam a comparar modelos, mas a decisão final deve considerar tarefas reais: quantos chamados o agente resolve, quantos documentos ele processa corretamente, quanto custa por execução e qual taxa de erro é aceitável.
Leitura estratégica
O Nemotron 3 Nano Omni reforça uma direção inevitável: agentes de IA estão deixando de ser apenas chatbots com ferramentas e se aproximando de sistemas que veem, escutam, leem e agem. A vantagem competitiva não virá apenas do modelo escolhido, mas de como a empresa transforma multimodalidade em processo confiável.
Para quem está criando produtos de IA, o caminho prático é começar por um caso de uso estreito, montar um conjunto de avaliação com dados reais, medir custo por tarefa e só então expandir. O lançamento da NVIDIA é relevante porque coloca mais pressão no mercado de modelos abertos: multimodalidade, contexto longo e eficiência agora precisam andar juntos.