Blog Techify

Zimaboard 2 para IA local: 7 LLMs testados e o salto da CPU para a RTX 5060 Ti via PCIe

Teste real do Zimaboard 2 com 16 GB de RAM rodando 7 LLMs locais, primeiro só na CPU Intel N150 e depois com uma RTX 5060 Ti plugada no slot PCIe 3.0 — do LFM 2.5 ao Gemma 4 26B, com saltos de 4 para 79 tokens por segundo.

Por Publicado em Atualizado em ⏱ 8 min de leitura

Principais conclusões

  • Use o Zimaboard 2 como mini servidor X86 para IA local quando quiser um NAS expansível e um slot PCIe pronto para receber placa de vídeo dedicada.
  • Rode modelos pequenos como LFM 2.5 e Qwen 3.5 0.8B direto na CPU Intel N150, entregando até 63 tokens por segundo em prompts curtos.
  • Espere 4 tokens por segundo rodando Gemma 4 26B em Q3 na RAM do Zimaboard 2 de 16 GB, viável mas pesado pra chats longos.
  • Conecte uma RTX 5060 Ti pelo slot PCIe 3.0 x4 e salte de 4 para 79 tokens por segundo no mesmo Gemma 4 26B em Q3.
  • Converse com a Techify antes de escolher o hardware: a gente ajuda a dimensionar mini PC, GPU e stack de LLM local sem cair em compra errada.

Este artigo destrincha os números, mostra onde o Zimaboard 2 ganha do Raspberry Pi 5 e onde perde para o Mac mini, e explica o ponto que a maioria dos reviewers esquece: o slot PCIe 3.0 é o diferencial arquitetural.

1. Por que o Zimaboard 2 entrou no radar de IA local

O Zimaboard 2 não chegou ao mercado como produto pensado para LLM. Ele nasceu como mini servidor residencial — um NAS enxuto rodando o ZimaOS, sistema operacional próprio baseado em containers Docker. A tese muda quando você olha o combo completo: chip X86 (Intel N150), 16 GB de RAM, duas portas Ethernet e principalmente um slot PCIe 3.0 x4 exposto. É o único mini PC dessa faixa de preço que aceita GPU dedicada externa sem gambiarra.

Isso importa porque rodar LLM em RAM com CPU tem teto duro. Modelos acima de 9 bilhões de parâmetros densos começam a sofrer. O Raspberry Pi 5 não tem saída prática para GPU discreta real. O Mac mini M4 é fechado. O Zimaboard 2 é o ponto do meio: começa barato, escala quando o caso de uso pedir.

2. Especificações que importam para inferência

Três variáveis decidem a performance de LLM num mini PC: largura de banda de memória, qualidade das instruções vetoriais da CPU e se dá ou não para acoplar GPU discreta. O Zimaboard 2 resolve as três com competência razoável.

  • CPU: Intel N150 x86_64, 4 cores / 4 threads, baixo TDP
  • RAM: 8 GB ou 16 GB — para LLM, sempre escolha 16 GB
  • Expansão: slot PCIe 3.0 x4 exposto, baías SATA para HD/SSD
  • Sistema: ZimaOS nativo baseado em Docker, com opção de migrar para Ubuntu ou Windows
63 tokens/s foi a taxa que o LFM 2.5 (350M, Q8) entregou rodando só na CPU Intel N150, em prompts curtos — performance comparável a serviços em nuvem.

3. Modelos pequenos na CPU: até 2 bilhões de parâmetros

Para cargas leves — assistente pessoal, classificação, automação textual simples — o Zimaboard 2 na CPU é mais do que suficiente. Os três modelos menores testados no vídeo:

  • LFM 2.5 (350M, Q8): 63 tokens/s em resposta curta; 25 tokens/s depois de processar contexto de 5.449 tokens em 38 segundos
  • Qwen 3.5 0.8B (Q8): aproximadamente 20 tokens/s, com capacidade de visão; extraiu texto de imagem em 30 segundos, respondendo a 21 tokens/s
  • Gemma 4 2B (Q8): 8 tokens/s no pensamento; descreveu imagem após 28 segundos de processamento, entregando a 10 tokens/s

Para prompts realmente curtos, os três parecem instantâneos. O gargalo aparece no pré-processamento de contextos longos, não na geração da resposta.

4. Modelos médios na CPU: Qwen 3.5 9B e GPT-OSS 20B

Aqui o hardware começa a suar. O Qwen 3.5 9B em Q4 entregou 4 tokens/s, mas levou 3 minutos para responder um simples "oi" — problema do modo thinking ligado, que a interface do Llama.cpp não permite desativar. Fica o aviso: Qwen com reasoning ativado engasga em CPU pura.

Já o GPT-OSS 20B foi a surpresa positiva. Mixture of experts com apenas 3,6 bilhões de parâmetros ativos, rodou a aproximadamente 7 tokens/s e gerou um site completo de loja de pets (HTML, CSS e validação de formulário) em 9 minutos e 26 segundos. Arquiteturas MoE são o caminho para rodar modelos "grandes" em hardware limitado.

Precisa decidir entre CPU, mini PC ou servidor com GPU para sua stack de IA local? A Techify monta a arquitetura com você, dimensionando hardware, modelo e quantização antes de você gastar errado em peça superdimensionada.

5. Gemma 4 26B só na CPU: esbarrando no teto da RAM

Rodar um modelo de 26 bilhões de parâmetros em 16 GB de RAM exige quantização agressiva. A versão testada foi Q3_K_XL do Unsloth, que cabe apertado na memória disponível. Resultado: 4 tokens/s estáveis — e curiosamente aumentando durante a geração, comportamento incomum já que modelos maiores normalmente perdem velocidade conforme o contexto acumula.

Na prática, descrever uma imagem com várias placas de trânsito levou 6 minutos e 47 segundos. Utilizável para consulta offline assíncrona? Sim. Para chat conversacional em tempo real? Lento demais.

Gemma 4 26B em Q3 só na CPU do Zimaboard 2: 4 tokens/s. Mesmo modelo, mesma quantização, agora com RTX 5060 Ti plugada via PCIe: 79 tokens/s. Salto de quase 20×.

6. O pulo do gato: slot PCIe 3.0 destrava GPU discreta

Aqui o Zimaboard 2 deixa de ser só mini PC barato e vira laboratório de IA. A dock GPU externa da ZimaSpace (vendida separadamente) conecta no slot PCIe interno e aceita placas de até 800 W. O teste montou uma NVIDIA GeForce RTX 5060 Ti de 16 GB de VRAM com cerca de 448 GB/s de bandwidth — mais de 10× a banda da RAM do mini PC.

A instalação é plug-and-play no ZimaOS: bastou habilitar a opção "enable all available NVIDIA GPU" no Llama.cpp, reiniciar o container e todo modelo passa a carregar direto na VRAM da placa, liberando a RAM do sistema.

7. Gemma 4 26B na GPU: de 4 para 79 tokens/s

Mesmo modelo, mesma quantização Q3. Na VRAM da RTX 5060 Ti, a ocupação chegou perto de 100% dos 16 GB. A resposta ao prompt "oi" saltou para 79 tokens/s. O teste de visão — descrever uma imagem cheia de placas de trânsito — que levava quase 7 minutos na CPU, completou em 21 segundos.

Essa é o tipo de diferença que muda o uso real: de ferramenta batch, offline, assíncrona, para assistente conversacional usável em tempo real. A mesma máquina, o mesmo modelo, mas com um ecossistema completamente diferente em termos de experiência.

8. Qwen 3.5 35B Q2 com visão a 83 tokens/s

O último teste empurrou ainda mais o hardware: Qwen 3.5 35B, mixture of experts com 3 bilhões de parâmetros ativos, rodando em Q2 para caber nos 16 GB de VRAM. Ocupou 13,5 GB da placa, entregou 83 tokens/s em prompt curto, 78 tokens/s no pensamento sobre imagem, e gerou tabela estruturada de benchmarks a partir de uma imagem em 30 segundos.

Modelos com forte relação entre custo e raciocínio mudaram a comparação com IA local: modelos de 35 bilhões de parâmetros rodando localmente com capacidade de visão e respostas em segundos, num hardware que cabe na palma da mão e custa frações de um servidor dedicado. É exatamente o tipo de resultado que muda a conversa sobre IA local viável em 2026.

9. Zimaboard 2 vs Raspberry Pi 5 vs Mac mini M4

Comparativo direto entre os três mini PCs mais citados para IA local caseira, considerando RAM, expansibilidade e throughput real de LLM:

CritérioRaspberry Pi 5Mac mini M4 baseZimaboard 2 16 GB
ArquiteturaARMApple Silicon ARMx86_64 (Intel N150)
RAM disponívelaté 8 GB16 GB (32 GB pago)16 GB
GPU discreta externaNão (inviável)Não (fechado)Sim, PCIe 3.0 x4
Sistema operacionalRaspberry Pi OS / LinuxmacOS (fechado)ZimaOS / Linux / Windows
Gemma 4 26B Q3 na CPUPraticamente inviávelMelhor que N150~4 tokens/s estáveis
Escala com GPU dedicadaNão escalaTravado no chipAté 79+ tokens/s com RTX 5060 Ti
Expansão de storageLimitada (microSD/USB)Externa apenasBaías SATA nativas

O Zimaboard 2 e a dock de GPU têm cupom ativo do afiliado AI ProgBr: AIProgBr15 dá US$ 15 de desconto na compra no site oficial da ZimaSpace. Código válido enquanto a parceria com o canal estiver no ar — se você tá planejando montar esse setup, compensa usar antes que expire.

10. Quando faz sentido adotar esse setup

Três cenários em que o Zimaboard 2 supera as alternativas de forma clara:

  • Hobista que quer escalar: começa só com CPU e modelos pequenos, pluga GPU quando o caso de uso pedir mais throughput
  • Profissional testando modelos: troca placas de vídeo sem remontar PC inteiro, ideal para quem produz conteúdo ou avalia hardware para clientes
  • Homelab com NAS + IA local: baías de HD, duas NICs e ZimaOS já entregam NAS; a inferência local vira segundo papel do mesmo aparelho

Não faz sentido se você precisa de performance máxima só em CPU sem planejar GPU (Mac mini M4 ganha em eficiência), seu orçamento é menor que US$ 200 (Raspberry Pi 5 continua rei da faixa), ou você quer treinar modelos e não apenas inferir (aí servidor dedicado com GPU pro é inevitável).

Quer montar um setup de LLM local sem errar na escolha de mini PC, quantização e GPU? Fale com a Techify — a gente desenha a arquitetura, lista o hardware certo e monta uma stack pronta para produção ou laboratório.

Conclusão

O vídeo do AI ProgBr mostrou um caminho honesto e reproduzível: mini PC x86 barato somado a slot PCIe e GPU discreta transforma o cenário de IA local caseira. Os números não mentem — o salto de 4 para 79 tokens/s no mesmo modelo, e de quase 7 minutos para 21 segundos em tarefa de visão, não é marketing, é medição. Se o seu projeto pede LLMs rodando localmente e você não quer ficar preso a ecossistema fechado, o Zimaboard 2 com RTX 5060 Ti é um dos caminhos mais viáveis disponíveis em 2026. E quando chegar a hora de profissionalizar essa stack, a Techify ajuda a fechar a arquitetura para você não desperdiçar hardware nem tempo.

#zimaboard #llm-local #hardware #gpu #comparativo

Sobre o autor

Editor — Techify

Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.

  • Focado em automação com IA aplicada

Perguntas frequentes

Vale a pena rodar LLMs no Zimaboard 2 só na CPU?
Vale para modelos até 9 bilhões de parâmetros com uso moderado. Nos testes do AI ProgBr, o LFM 2.5 com 350M rodou a 63 tokens por segundo, o Qwen 3.5 0.8B ficou em torno de 20 tokens por segundo e o Gemma 4 2B entregou 8 tokens por segundo no pensamento. O Qwen 3.5 9B em Q4 chegou a 4 tokens por segundo, e o GPT-OSS 20B mixture of experts rodou entre 5 e 7 tokens por segundo. Se o seu caso é assistente local de texto simples ou automação leve, o hardware dá conta sem problema.
Quanto de ganho real a GPU RTX 5060 Ti trouxe no Zimaboard 2?
O salto foi grande e ficou bem documentado no teste. Com Gemma 4 26B em Q3 só na CPU e RAM, o Zimaboard entregou 4 tokens por segundo e levou cerca de 6 minutos para descrever uma imagem com várias placas de trânsito. Depois de habilitar a RTX 5060 Ti via dock PCIe externa e recarregar o mesmo modelo na VRAM, a resposta caiu para 21 segundos e a taxa subiu para 79 tokens por segundo. Já o Qwen 3.5 35B Q2 com capacidade de visão chegou a 83 tokens por segundo no mesmo setup, processando tabelas a partir de imagem.
Zimaboard 2 ou Mac mini M4 para rodar LLM local?
O Mac mini M4 base com 16 GB tende a rodar modelos densos na memória unificada mais rápido que o Zimaboard 2 na CPU pura, aproveitando a GPU integrada da Apple. Mas o Mac mini não tem slot PCIe, então você nunca vai conseguir plugar uma RTX 5060 Ti nele. O Zimaboard 2 inverte a equação: é mais lento só na CPU, mas o slot PCIe 3.0 x4 aceita dock externa de GPU e baías de HD, virando mini servidor expansível. Se você já enxerga GPU dedicada no futuro do seu setup, o Zimaboard vence no longo prazo.
Preciso instalar Linux no Zimaboard 2 para rodar LLMs?
Não precisa. O ZimaOS nativo é baseado em containers e a App Store interna já lista Ollama, Open WebUI, Tailscale e N8N com instalação em um clique. No teste, o Llama.cpp rodou via Docker dentro do próprio ZimaOS, acessado pelo navegador via rede local. O chip Intel N150 é x86, então se quiser migrar para Ubuntu ou até Windows no futuro, a porta fica aberta. Mas para uma stack de LLM local, o ZimaOS resolve sem dor de configuração, inclusive expondo métricas de CPU, consumo de energia e ocupação de VRAM em tempo real.
Qual quantização usar para caber Gemma 4 26B no Zimaboard 2?
Com os 16 GB de RAM do Zimaboard 2, a versão Q3_K_XL do Unsloth é o ponto doce para rodar Gemma 4 26B mixture of experts só na CPU. O modelo carrega no limite da memória, entrega por volta de 4 tokens por segundo em prompts com imagem e, curiosamente, mantém o throughput estável ao longo da geração. Já com uma RTX 5060 Ti de 16 GB de VRAM plugada, a mesma Q3 ocupa quase 100% da placa mas roda a 79 tokens por segundo. Para Qwen 3.5 35B, o compromisso sobe para Q2 a fim de caber nos 16 GB de VRAM.