MiMo V2.5 Pro: o novo modelo aberto da Xiaomi mira agentes de IA de longo horizonte

A Xiaomi apresentou o MiMo V2.5 Pro, um modelo MoE de 1,02 trilhão de parâmetros com 42 bilhões ativos, janela de contexto de até 1 milhão de tokens e foco em tarefas agentivas longas, programação e eficiência de tokens.

Por Rob Publicado em 29 de abril de 2026 Atualizado em 02 de maio de 2026 ⏱ 5 min de leitura

Principais conclusões

O MiMo V2.5 Pro é um modelo MoE aberto com 1,02T parâmetros totais e 42B parâmetros ativos.
A versão Pro oferece janela de contexto de até 1 milhão de tokens, voltada a tarefas longas e agentivas.
A Xiaomi destacou resultados em compilação, edição de vídeo e EDA analógico para demonstrar trabalho autônomo de longo horizonte.
O modelo combina atenção híbrida, Multi-Token Prediction e pós-treinamento com múltiplos professores especializados.
A principal promessa prática é entregar capacidade próxima da fronteira com maior eficiência de tokens em fluxos de agentes de IA.

A Xiaomi apresentou o MiMo V2.5 Pro, sua nova geração de modelo de linguagem voltada para tarefas agentivas, engenharia de software e trabalhos de longo horizonte. O lançamento chama atenção por combinar escala — 1,02 trilhão de parâmetros totais, com 42 bilhões de parâmetros ativos em uma arquitetura Mixture-of-Experts — com uma proposta prática: sustentar tarefas complexas por muitas horas, muitos passos e grandes volumes de contexto.

O que é o MiMo V2.5 Pro

O MiMo V2.5 Pro é um modelo de IA aberto da Xiaomi projetado para operar em cenários nos quais um LLM precisa manter coerência durante uma sequência longa de ações. Em vez de ser apresentado apenas como um chatbot generalista, o modelo foi posicionado como uma base para agentes de IA: sistemas capazes de usar ferramentas, ler e modificar arquivos, executar testes, consultar simuladores e iterar até atingir um objetivo.

Segundo a apresentação técnica, o modelo usa arquitetura híbrida de atenção e oferece janela de contexto de até 1 milhão de tokens na versão Pro. Na prática, isso interessa para fluxos em que o agente precisa carregar especificações extensas, histórico de decisões, grandes bases de código ou documentação técnica sem perder a linha de raciocínio.

Por que a janela de 1 milhão de tokens importa

Modelos com contexto longo não são úteis apenas por “ler mais texto”. O ponto principal é reduzir quebras de continuidade. Em tarefas agentivas, cada chamada de ferramenta, erro de compilação, log de teste, patch e plano intermediário adiciona informação ao histórico. Quanto maior o projeto, maior o risco de o modelo esquecer restrições importantes ou repetir passos. Essa corrida por janelas maiores também aparece no DeepSeek V4 com 1M de contexto, outro exemplo de modelo desenhado para fluxos longos.

O MiMo V2.5 Pro foi descrito como capaz de manter coerência em tarefas que passam de mil chamadas de ferramentas. Esse tipo de estabilidade é especialmente relevante para desenvolvimento de software, automação técnica e pesquisa aplicada, áreas nas quais a qualidade do resultado depende tanto do raciocínio quanto da disciplina operacional ao longo do processo. É o mesmo problema operacional que aparece em modelos como Kimi K2.6 para agentes de longo horizonte, onde a continuidade da execução vale tanto quanto a pontuação em benchmark.

Três exemplos mostram o foco em agentes

A Xiaomi destacou três demonstrações para ilustrar o perfil do modelo. A primeira foi a implementação de um compilador SysY em Rust, incluindo lexer, parser, AST, geração de Koopa IR, backend RISC-V e otimização de performance. O modelo teria concluído a tarefa em 4,3 horas, usando 672 chamadas de ferramentas, e obtido 233/233 nos testes ocultos do projeto.

O segundo exemplo foi a criação de um editor de vídeo desktop com timeline multitrack, recorte de clipes, cross-fades, mixagem de áudio e pipeline de exportação. O resultado final somou 8.192 linhas de código após 1.868 chamadas de ferramentas ao longo de 11,5 horas de trabalho autônomo.

O terceiro caso foi uma tarefa de EDA analógico: projetar e otimizar um regulador FVF-LDO em processo CMOS TSMC 180 nm. Nesse cenário, o modelo foi conectado a um loop de simulação com ngspice e ajustou parâmetros até atender simultaneamente métricas como margem de fase, regulação de linha, regulação de carga, corrente quiescente, PSRR e resposta transitória.

Arquitetura: MoE, atenção híbrida e MTP

Do ponto de vista técnico, o MiMo V2.5 Pro combina uma arquitetura Mixture-of-Experts com atenção híbrida. A página de lançamento descreve uma alternância entre Local Sliding Window Attention e Global Attention em proporção 6:1, com janela local de 128 tokens. A meta é reduzir o custo de armazenamento de KV-cache em contextos longos sem abandonar a capacidade de recuperar informações globais quando necessário.

Outro componente importante é o Multi-Token Prediction, integrado ao treinamento e à inferência. A promessa é aumentar a vazão de geração e acelerar rollouts usados em pós-treinamento. O pré-treinamento foi realizado em 27 trilhões de tokens, com precisão mista FP8 e sequência nativa de 32K tokens antes da extensão para contexto de até 1M.

Eficiência de tokens como diferencial competitivo

Um dos argumentos centrais do lançamento é que o modelo alcança capacidade próxima da fronteira gastando menos tokens por trajetória. No ClawEval, a Xiaomi reporta cerca de 64% em Pass^3 usando aproximadamente 70 mil tokens por trajetória, o que seria de 40% a 60% menos tokens do que modelos proprietários comparáveis em capacidade.

Esse ponto é relevante porque agentes de IA raramente custam apenas uma chamada de modelo. Uma execução real pode envolver centenas de iterações, leitura de arquivos, replanejamento, testes e correções. Se a qualidade por token melhora, o custo total da automação cai — e isso pode tornar fluxos agentivos mais viáveis em produção.

Disponibilidade e impacto para desenvolvedores

O MiMo V2.5 Pro foi disponibilizado nas superfícies de API e estúdio da Xiaomi, sem alteração de preço em relação ao modelo anterior, bastando trocar a tag do modelo para mimo-v2.5-pro. A empresa também informou que pesos, tokenizer e model card foram abertos sob licença permissiva.

Para desenvolvedores, o impacto imediato está em três frentes. A primeira é experimentar o modelo como backend de agentes de código e automação. A segunda é avaliar a viabilidade de implantação própria ou controlada, especialmente quando requisitos de custo, privacidade ou customização pesam na decisão. A terceira é acompanhar uma tendência clara: os modelos abertos estão deixando de competir apenas em benchmarks estáticos e passando a disputar desempenho em ambientes de trabalho reais. Para medir isso de forma séria, vale aproximar a avaliação de uma prática de Harness Engineering para agentes de IA, com testes, logs e critérios de aceite.

O que observar antes de adotar

Apesar dos números fortes, a adoção deve ser guiada por testes próprios. Benchmarks e demos ajudam a entender o potencial, mas não substituem uma avaliação no seu tipo de tarefa: repositórios internos, estilo de prompts, ferramentas disponíveis, orçamento de tokens, latência aceitável e qualidade de recuperação após erros.

O ponto mais interessante do MiMo V2.5 Pro é menos a escala bruta e mais a direção do produto. A Xiaomi está mirando modelos que entendem o ambiente de execução, usam bem ferramentas e sustentam objetivos por muitas etapas. Para quem constrói automações com LLMs, esse é exatamente o território onde os ganhos práticos tendem a aparecer primeiro. Em paralelo, modelos multimodais abertos como o NVIDIA Nemotron 3 Nano Omni mostram que a disputa por agentes também passa por texto, imagem, vídeo e áudio no mesmo fluxo.

#agentes-de-ia #lancamento #open-source #benchmark #llm-local

Sobre o autor

Rob

Editor — Techify

Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.

Focado em automação com IA aplicada

Perguntas frequentes

O que é o MiMo V2.5 Pro?

É um modelo de linguagem aberto da Xiaomi focado em agentes de IA, programação, tarefas longas e uso intensivo de ferramentas.

Quantos parâmetros o MiMo V2.5 Pro tem?

A Xiaomi informa 1,02 trilhão de parâmetros totais em arquitetura Mixture-of-Experts, com 42 bilhões de parâmetros ativos.

Qual é a janela de contexto do MiMo V2.5 Pro?

A versão Pro suporta contexto de até 1 milhão de tokens; a versão Base listada no lançamento aparece com 256K tokens.

Por que o modelo é relevante para agentes de IA?

Porque foi apresentado com foco em tarefas de longo horizonte, uso de ferramentas, manutenção de coerência e recuperação após falhas durante muitas iterações.

O MiMo V2.5 Pro é open source?

Segundo a Xiaomi, pesos, tokenizer e model card foram disponibilizados sob uma licença permissiva.