Zimaboard 2 para IA local: 7 LLMs testados e o salto da CPU para a RTX 5060 Ti via PCIe
Teste real do Zimaboard 2 com 16 GB de RAM rodando 7 LLMs locais, primeiro só na CPU Intel N150 e depois com uma RTX 5060 Ti plugada no slot PCIe 3.0 — do LFM 2.5 ao Gemma 4 26B, com saltos de 4 para 79 tokens por segundo.
Principais conclusões
- Use o Zimaboard 2 como mini servidor X86 para IA local quando quiser um NAS expansível e um slot PCIe pronto para receber placa de vídeo dedicada.
- Rode modelos pequenos como LFM 2.5 e Qwen 3.5 0.8B direto na CPU Intel N150, entregando até 63 tokens por segundo em prompts curtos.
- Espere 4 tokens por segundo rodando Gemma 4 26B em Q3 na RAM do Zimaboard 2 de 16 GB, viável mas pesado pra chats longos.
- Conecte uma RTX 5060 Ti pelo slot PCIe 3.0 x4 e salte de 4 para 79 tokens por segundo no mesmo Gemma 4 26B em Q3.
- Converse com a Techify antes de escolher o hardware: a gente ajuda a dimensionar mini PC, GPU e stack de LLM local sem cair em compra errada.
Este artigo destrincha os números, mostra onde o Zimaboard 2 ganha do Raspberry Pi 5 e onde perde para o Mac mini, e explica o ponto que a maioria dos reviewers esquece: o slot PCIe 3.0 é o diferencial arquitetural.
1. Por que o Zimaboard 2 entrou no radar de IA local
O Zimaboard 2 não chegou ao mercado como produto pensado para LLM. Ele nasceu como mini servidor residencial — um NAS enxuto rodando o ZimaOS, sistema operacional próprio baseado em containers Docker. A tese muda quando você olha o combo completo: chip X86 (Intel N150), 16 GB de RAM, duas portas Ethernet e principalmente um slot PCIe 3.0 x4 exposto. É o único mini PC dessa faixa de preço que aceita GPU dedicada externa sem gambiarra.
Isso importa porque rodar LLM em RAM com CPU tem teto duro. Modelos acima de 9 bilhões de parâmetros densos começam a sofrer. O Raspberry Pi 5 não tem saída prática para GPU discreta real. O Mac mini M4 é fechado. O Zimaboard 2 é o ponto do meio: começa barato, escala quando o caso de uso pedir.
2. Especificações que importam para inferência
Três variáveis decidem a performance de LLM num mini PC: largura de banda de memória, qualidade das instruções vetoriais da CPU e se dá ou não para acoplar GPU discreta. O Zimaboard 2 resolve as três com competência razoável.
- CPU: Intel N150 x86_64, 4 cores / 4 threads, baixo TDP
- RAM: 8 GB ou 16 GB — para LLM, sempre escolha 16 GB
- Expansão: slot PCIe 3.0 x4 exposto, baías SATA para HD/SSD
- Sistema: ZimaOS nativo baseado em Docker, com opção de migrar para Ubuntu ou Windows
3. Modelos pequenos na CPU: até 2 bilhões de parâmetros
Para cargas leves — assistente pessoal, classificação, automação textual simples — o Zimaboard 2 na CPU é mais do que suficiente. Os três modelos menores testados no vídeo:
- LFM 2.5 (350M, Q8): 63 tokens/s em resposta curta; 25 tokens/s depois de processar contexto de 5.449 tokens em 38 segundos
- Qwen 3.5 0.8B (Q8): aproximadamente 20 tokens/s, com capacidade de visão; extraiu texto de imagem em 30 segundos, respondendo a 21 tokens/s
- Gemma 4 2B (Q8): 8 tokens/s no pensamento; descreveu imagem após 28 segundos de processamento, entregando a 10 tokens/s
Para prompts realmente curtos, os três parecem instantâneos. O gargalo aparece no pré-processamento de contextos longos, não na geração da resposta.
4. Modelos médios na CPU: Qwen 3.5 9B e GPT-OSS 20B
Aqui o hardware começa a suar. O Qwen 3.5 9B em Q4 entregou 4 tokens/s, mas levou 3 minutos para responder um simples "oi" — problema do modo thinking ligado, que a interface do Llama.cpp não permite desativar. Fica o aviso: Qwen com reasoning ativado engasga em CPU pura.
Já o GPT-OSS 20B foi a surpresa positiva. Mixture of experts com apenas 3,6 bilhões de parâmetros ativos, rodou a aproximadamente 7 tokens/s e gerou um site completo de loja de pets (HTML, CSS e validação de formulário) em 9 minutos e 26 segundos. Arquiteturas MoE são o caminho para rodar modelos "grandes" em hardware limitado.
5. Gemma 4 26B só na CPU: esbarrando no teto da RAM
Rodar um modelo de 26 bilhões de parâmetros em 16 GB de RAM exige quantização agressiva. A versão testada foi Q3_K_XL do Unsloth, que cabe apertado na memória disponível. Resultado: 4 tokens/s estáveis — e curiosamente aumentando durante a geração, comportamento incomum já que modelos maiores normalmente perdem velocidade conforme o contexto acumula.
Na prática, descrever uma imagem com várias placas de trânsito levou 6 minutos e 47 segundos. Utilizável para consulta offline assíncrona? Sim. Para chat conversacional em tempo real? Lento demais.
6. O pulo do gato: slot PCIe 3.0 destrava GPU discreta
Aqui o Zimaboard 2 deixa de ser só mini PC barato e vira laboratório de IA. A dock GPU externa da ZimaSpace (vendida separadamente) conecta no slot PCIe interno e aceita placas de até 800 W. O teste montou uma NVIDIA GeForce RTX 5060 Ti de 16 GB de VRAM com cerca de 448 GB/s de bandwidth — mais de 10× a banda da RAM do mini PC.
A instalação é plug-and-play no ZimaOS: bastou habilitar a opção "enable all available NVIDIA GPU" no Llama.cpp, reiniciar o container e todo modelo passa a carregar direto na VRAM da placa, liberando a RAM do sistema.
7. Gemma 4 26B na GPU: de 4 para 79 tokens/s
Mesmo modelo, mesma quantização Q3. Na VRAM da RTX 5060 Ti, a ocupação chegou perto de 100% dos 16 GB. A resposta ao prompt "oi" saltou para 79 tokens/s. O teste de visão — descrever uma imagem cheia de placas de trânsito — que levava quase 7 minutos na CPU, completou em 21 segundos.
Essa é o tipo de diferença que muda o uso real: de ferramenta batch, offline, assíncrona, para assistente conversacional usável em tempo real. A mesma máquina, o mesmo modelo, mas com um ecossistema completamente diferente em termos de experiência.
8. Qwen 3.5 35B Q2 com visão a 83 tokens/s
O último teste empurrou ainda mais o hardware: Qwen 3.5 35B, mixture of experts com 3 bilhões de parâmetros ativos, rodando em Q2 para caber nos 16 GB de VRAM. Ocupou 13,5 GB da placa, entregou 83 tokens/s em prompt curto, 78 tokens/s no pensamento sobre imagem, e gerou tabela estruturada de benchmarks a partir de uma imagem em 30 segundos.
Modelos com forte relação entre custo e raciocínio mudaram a comparação com IA local: modelos de 35 bilhões de parâmetros rodando localmente com capacidade de visão e respostas em segundos, num hardware que cabe na palma da mão e custa frações de um servidor dedicado. É exatamente o tipo de resultado que muda a conversa sobre IA local viável em 2026.
9. Zimaboard 2 vs Raspberry Pi 5 vs Mac mini M4
Comparativo direto entre os três mini PCs mais citados para IA local caseira, considerando RAM, expansibilidade e throughput real de LLM:
| Critério | Raspberry Pi 5 | Mac mini M4 base | Zimaboard 2 16 GB |
|---|---|---|---|
| Arquitetura | ARM | Apple Silicon ARM | x86_64 (Intel N150) |
| RAM disponível | até 8 GB | 16 GB (32 GB pago) | 16 GB |
| GPU discreta externa | Não (inviável) | Não (fechado) | Sim, PCIe 3.0 x4 |
| Sistema operacional | Raspberry Pi OS / Linux | macOS (fechado) | ZimaOS / Linux / Windows |
| Gemma 4 26B Q3 na CPU | Praticamente inviável | Melhor que N150 | ~4 tokens/s estáveis |
| Escala com GPU dedicada | Não escala | Travado no chip | Até 79+ tokens/s com RTX 5060 Ti |
| Expansão de storage | Limitada (microSD/USB) | Externa apenas | Baías SATA nativas |
O Zimaboard 2 e a dock de GPU têm cupom ativo do afiliado AI ProgBr: AIProgBr15 dá US$ 15 de desconto na compra no site oficial da ZimaSpace. Código válido enquanto a parceria com o canal estiver no ar — se você tá planejando montar esse setup, compensa usar antes que expire.
10. Quando faz sentido adotar esse setup
Três cenários em que o Zimaboard 2 supera as alternativas de forma clara:
- Hobista que quer escalar: começa só com CPU e modelos pequenos, pluga GPU quando o caso de uso pedir mais throughput
- Profissional testando modelos: troca placas de vídeo sem remontar PC inteiro, ideal para quem produz conteúdo ou avalia hardware para clientes
- Homelab com NAS + IA local: baías de HD, duas NICs e ZimaOS já entregam NAS; a inferência local vira segundo papel do mesmo aparelho
Não faz sentido se você precisa de performance máxima só em CPU sem planejar GPU (Mac mini M4 ganha em eficiência), seu orçamento é menor que US$ 200 (Raspberry Pi 5 continua rei da faixa), ou você quer treinar modelos e não apenas inferir (aí servidor dedicado com GPU pro é inevitável).
Conclusão
O vídeo do AI ProgBr mostrou um caminho honesto e reproduzível: mini PC x86 barato somado a slot PCIe e GPU discreta transforma o cenário de IA local caseira. Os números não mentem — o salto de 4 para 79 tokens/s no mesmo modelo, e de quase 7 minutos para 21 segundos em tarefa de visão, não é marketing, é medição. Se o seu projeto pede LLMs rodando localmente e você não quer ficar preso a ecossistema fechado, o Zimaboard 2 com RTX 5060 Ti é um dos caminhos mais viáveis disponíveis em 2026. E quando chegar a hora de profissionalizar essa stack, a Techify ajuda a fechar a arquitetura para você não desperdiçar hardware nem tempo.
Sobre o autor
Editor — Techify
Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.
- Focado em automação com IA aplicada