Qwen 3.6: 1M de contexto, pesos abertos e agents em 2026
A Alibaba lançou em abril de 2026 a família Qwen 3.6 — Plus, Max-Preview e 35B-A3B — com 1M de contexto, MoE esparsa e licença Apache 2.0. Guia técnico com benchmarks e comparação
Principais conclusões
- Migre cargas long-context para Qwen 3.6 quando precisar de 1M de tokens — a família suporta nativamente 262.144 e estende até 1.010.000 via YaRN RoPE scaling.
- Prefira Qwen3.6-35B-A3B em hardware próprio: MoE com 35B totais e só 3B ativados por token reduz custo de inferência mantendo qualidade competitiva em coding.
- Ative preserve_thinking em agents multi-turn — o modelo retém chain-of-thought dos turnos anteriores e melhora reasoning em fluxos longos sem recomputar raciocínio.
- Valide benchmarks no seu próprio dataset antes de trocar: Qwen lidera em 6 benchmarks mas fica atrás de Claude Opus 4.6 em SWE-bench Verified (80,8% vs 73,4%).
- Contrate consultoria especializada quando a migração envolver roteamento multi-modelo, stack MCP ou deploy on-prem do 35B-A3B em GPU própria via vLLM.
Em abril de 2026 a Alibaba consolidou a família Qwen 3.6 com três modelos — Plus, Max-Preview e o open-weight 35B-A3B — e destravou 1 milhão de tokens de contexto, 35B de parâmetros totais com apenas 3B ativados por token e liderança em 6 benchmarks de coding agent. Este guia mapeia o que cada modelo entrega, onde cada um vence (e perde) contra Claude Opus 4.6 e Gemini, e como montar sua stack para rodar hoje em produção.
Este artigo se baseia no anúncio oficial da Qwen em qwen.ai/blog — Qwen3.6-Plus: Towards Real World Agents, complementado pelos model cards públicos no Hugging Face e pela documentação da Alibaba Cloud Model Studio.
Por que a família Qwen 3.6 importa em 2026
A família Qwen 3.6 é o primeiro lançamento em 2026 a combinar pesos abertos sob Apache 2.0, janela nativa de 262.144 tokens e arquitetura MoE esparsa em escala de produção. Até o lançamento, times que queriam 1M de contexto dependiam de APIs proprietárias (Claude, Gemini) sem opção de self-hosting; agora o trade-off mudou.
Na Techify, observamos que equipes de engenharia subestimam o custo recorrente de APIs fechadas quando a carga de long-context vira commodity — auditorias recentes mostram gasto mensal acima de US$ 40 mil em times com apenas 20 engenheiros usando Claude Code intensivamente. Um modelo open-weight com qualidade próxima à de frontier muda a equação.
A liberação veio em três frentes coordenadas: Qwen3.6-Plus Preview (SaaS flagship, 30–31 de março), Qwen3.6-35B-A3B (open-weight, 16 de abril) e Qwen3.6-Max-Preview (SaaS de ponta para agents, 20 de abril). Cada um ocupa um nicho distinto.
1. Os três modelos da família Qwen 3.6
A família Qwen 3.6 cobre três combinações de tamanho, licenciamento e especialidade, cada uma desenhada para um perfil de carga de trabalho específico. Decidir qual usar começa pela resposta a uma única pergunta: você pode rodar em GPU própria ou depende de API?
Equipes que podem provisionar GPU (8× H100 ou A100 80 GB) devem avaliar o 35B-A3B primeiro — a arquitetura MoE ativa só 3B de parâmetros por token, com 256 experts e 8 ativados + 1 compartilhado por forward pass, o que mantém latência competitiva em batch single-request. Para quem não tem GPU e precisa de latência consistente, Plus Preview e Max-Preview estão no Alibaba Cloud Model Studio via endpoint OpenAI-compatible.
O erro comum é tratar os três como intercambiáveis. Projetos que implementamos na Techify deixam claro que Max-Preview é a escolha para fluxos agentic multi-turn com ferramentas, Plus é o cavalo-de-batalha generalista e o 35B-A3B é o substituto open para cargas que hoje rodam em modelos fechados apenas por falta de alternativa.
2. Arquitetura híbrida: MoE, Gated DeltaNet e atenção gateada
A arquitetura do Qwen3.6-35B-A3B combina três blocos distintos num padrão repetido: 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE)). É uma escolha pragmática — atenção linear (DeltaNet) para long-context barato, atenção completa esparsa para precisão em tokens críticos, MoE para capacidade sem inflar compute por token.
Arquiteturas densas da geração anterior pagam O(n²) em cada camada, o que torna 1M de contexto economicamente inviável. O híbrido do Qwen 3.6 troca a maior parte dessas camadas por DeltaNet (atenção linear) e preserva apenas 1 em cada 4 camadas como atenção completa — o suficiente para manter qualidade em recall posicional sem o custo quadrático.
Os números do MoE explicam por que o modelo é barato de servir: 35B de parâmetros totais, apenas 3B ativados por token, 40 camadas, hidden dimension 2048 e treino com Multi-Token Prediction. Em deploy com vLLM + MTP, a Qwen documenta speculative decoding que acelera a inferência em cerca de 2–3× sobre o baseline denso equivalente.
A Techify recomenda começar pelo perfil "Instruct Mode + thinking disabled" para workloads determinísticos (ETL, extração estruturada) e ativar thinking apenas em tarefas que justifiquem o overhead — a regra vale para qualquer reasoning model, mas o Qwen 3.6 expõe o flag explícito via chat_template_kwargs.
3. Benchmarks de coding agent: SWE-bench, Terminal-Bench e LiveCodeBench
O Qwen3.6-35B-A3B entrega 73,4% em SWE-bench Verified, 67,2% em SWE-bench Multilingual, 49,5% em SWE-bench Pro e 80,4% em LiveCodeBench v6. São números de fronteira para um modelo com pesos abertos em abril de 2026 — o open-weight anterior com performance comparável (GLM-4.6) ficava em faixas significativamente menores em SWE-bench Verified.
O erro comum ao ler benchmarks isolados é ignorar a diferença entre "Verified" (tarefas curadas, passaram em revisão humana), "Multilingual" (repositórios fora de Python) e "Pro" (tarefas mais longas, com edição em múltiplos arquivos). Um modelo que vai bem em Verified mas mal em Pro é útil para patching simples e ruim para refatoração real — o Qwen 3.6 mantém números consistentes nas três variantes, sinal de que o treino priorizou coding agent real, não só pattern-matching de bug fix.
Em auditorias da Techify, recomendamos rodar benchmark próprio com 20–30 tasks do seu repositório antes de qualquer migração. Números públicos são ponto de partida, não decisão — um modelo que acerta 80% em LiveCodeBench pode acertar 40% em código legacy com convenções internas não-óbvias.
4. Janela de contexto de 1 milhão de tokens
A janela nativa do Qwen3.6-35B-A3B é de 262.144 tokens e extensível até 1.010.000 tokens via YaRN RoPE scaling — a maior janela em open-weight disponível publicamente em abril de 2026. Plus Preview suporta 1M nativo via API; Max-Preview roda em 260k.
Janelas grandes não são uso automático: YaRN introduz perda de recall em posições intermediárias e custo de KV-cache cresce linearmente. Times que ativam 1M sem revisar o workload pagam memória sem retorno — a regra é usar contexto expandido só quando a tarefa precisa (codebases inteiras, long RAG com retrieval denso, análise de documentos de centenas de páginas).
Para ativar o contexto estendido via vLLM, a configuração de rope_parameters precisa apontar para rope_type: "yarn", factor: 4.0 e original_max_position_embeddings: 262144. A Techify recomenda rodar o modelo em 262k nativo para a maioria dos casos e subir para 1M só em pipelines específicos de long-context com monitoração de qualidade.
5. preserve_thinking: memória de raciocínio em agents multi-turn
A flag preserve_thinking é a novidade arquitetural mais relevante para quem constrói agents. Quando ativada, o modelo retém a chain-of-thought completa de turnos anteriores na conversa — em vez de recomputar raciocínio do zero a cada chamada, o agent herda o "estado mental" acumulado.
Agents sem preserve_thinking perdem contexto de decisão entre turnos: o modelo pode ter raciocinado sobre uma estratégia no turno 3 e, no turno 7, precisa redescobrir tudo porque só o output final foi preservado. O custo é latência duplicada e inconsistência de comportamento em tarefas longas com ferramentas.
Na Techify, observamos que fluxos com MCP, tool calling e loops de execução se beneficiam especialmente do preserve_thinking — a melhoria é mensurável em taxa de conclusão de task em bancadas como TAU3-Bench (Qwen 3.6 entrega 67,2%) e MCPMark (37,0%). O flag se ativa via extra_body: {"chat_template_kwargs": {"preserve_thinking": True}} na chamada ao endpoint OpenAI-compatible.
6. Qwen3.6-35B-A3B: pesos abertos sob Apache 2.0
O Qwen3.6-35B-A3B é distribuído sob licença Apache 2.0 no Hugging Face (Qwen/Qwen3.6-35B-A3B) e no ModelScope, e acumulou 582.961 downloads no primeiro mês pós-lançamento, segundo o painel público do Hugging Face. Suporte nativo em vLLM, SGLang, KTransformers, Ollama, llama.cpp, LM Studio e Jan.
O comando mínimo para servir o modelo via vLLM é vllm serve Qwen/Qwen3.6-35B-A3B --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3. Para tool calling, adicione --enable-auto-tool-choice --tool-call-parser qwen3_coder. Para Multi-Token Prediction, use a flag --speculative-config.
582.961 downloads em 30 dias
Qwen3.6-35B-A3B passou de meio milhão de downloads no Hugging Face no primeiro mês, tornando-se um dos open-weights mais baixados do trimestre — indicador de que a comunidade está validando o modelo em produção, não só em demos.
Projetos que implementamos na Techify mostram que o 35B-A3B cabe em nós de 8× H100 80 GB com folga para contexto de 262k e throughput saudável — 3B de ativação por token é o que permite servir o modelo com latência p50 sub-500 ms em workloads agentic médios. Ambientes com GPU menor (A100 ou L40s) ainda rodam com quantização FP8 ou AWQ.
7. Qwen3.6-Max-Preview: top em coding benchmarks
O Qwen3.6-Max-Preview lidera em 6 benchmarks de coding no lançamento (20 de abril de 2026), com destaque para Terminal-Bench 2.0 empatando Claude Opus 4.6 em 65,4% e QwenWebBench com ELO de 1558 — 376 pontos acima do Claude Opus 4.5 (1182) em avaliação de desenvolvimento web. Ganhos mensuráveis sobre Qwen 3.6 Plus: +9,9 em SkillsBench, +10,8 em SciCode, +5,0 em NL2Repo.
Max-Preview é acessado via endpoint Alibaba Cloud Model Studio dashscope-intl.aliyuncs.com/compatible-mode/v1 com o model string qwen3.6-max-preview. A API é simultaneamente compatível com OpenAI Chat Completions e com a especificação Anthropic — raridade entre provedores e sinal claro de que a Alibaba está cortejando usuários migrantes de Claude Code e agents OpenAI.
A Techify recomenda Max-Preview para equipes que operam coding agents em produção e precisam de preserve_thinking combinado com janela de 260k e liderança em TAU3-Bench. O período atual é free preview — pricing comercial não foi anunciado até abril de 2026, o que é ao mesmo tempo oportunidade (testar sem custo) e risco (orçamento futuro incerto).
8. Comparação: Qwen 3.6 vs Claude Opus 4.6 vs Gemini
A tabela abaixo consolida onde cada família vence em abril de 2026. Claude Opus 4.6 mantém liderança em SWE-bench Verified; Qwen 3.6 vence em contexto máximo, licenciamento aberto e ELO de desenvolvimento web; Gemini 2.5 Pro se destaca em multimodalidade nativa de vídeo. Não há vencedor absoluto — há perfis de workload.
| Dimensão | Qwen 3.6 (família) | Claude Opus 4.6 | Gemini 2.5 Pro |
|---|---|---|---|
| SWE-bench Verified | 73,4% (35B-A3B) | 80,8% | ~74% |
| Terminal-Bench 2.0 | 65,4% (Max) | 65,4% | Não publicado |
| Contexto máximo | 1.010.000 tokens | 1.000.000 tokens | 1.000.000 tokens |
| Pesos abertos | Sim (Apache 2.0) | Não | Não |
| Self-hosting | Sim (35B-A3B) | Não | Não |
| Preserve thinking | Sim (flag nativa) | Implícito via cache | Limitado |
| API dual OpenAI/Anthropic | Sim (Max-Preview) | Só Anthropic | Só Google |
Cada mês sem avaliar alternativas open-weight significa contrato fechado com provedor único e custo recorrente crescente — enquanto concorrentes que migraram ao menos parte da carga para Qwen 3.6-35B-A3B já cortaram gasto de inferência em faixa mensurável.
9. Como usar Qwen 3.6 na sua stack hoje
A rota mais rápida é via API no Alibaba Cloud Model Studio: endpoint OpenAI-compatible em https://dashscope-intl.aliyuncs.com/compatible-mode/v1, chave via DASHSCOPE_API_KEY, model strings qwen3.6-plus ou qwen3.6-max-preview. Qualquer SDK OpenAI (oficial ou LangChain, LlamaIndex, Instructor) funciona sem mudança além do base_url.
Para self-hosting do 35B-A3B, o caminho canônico é vLLM em 8× H100 80 GB com --tensor-parallel-size 8 e --reasoning-parser qwen3. Ollama, LM Studio e Jan suportam quantizações prontas para workstations; llama.cpp permite CPU-only para testes. Quem já roda Qwen-Agent pode plugar MCP servers direto via mcpServers no config do LLM.
Na Techify, projetamos a integração em três camadas: gateway LLM com roteamento por task (modelos fechados para frontier, 35B-A3B para bulk), observabilidade de hit rate, latência p95 e custo por 1k tokens, e fallback automático entre provedores. É o padrão que recomendamos para operação em produção — o Qwen 3.6 entra como primeira opção em muitos slots, não como substituto universal.
Conclusão
A família Qwen 3.6 mudou o trade-off entre APIs fechadas e pesos abertos em abril de 2026: pela primeira vez um open-weight entrega 1M de contexto, MoE eficiente em produção e liderança em benchmarks de coding agent — tudo sob Apache 2.0. Não substitui Claude Opus 4.6 em SWE-bench Verified, mas abre a porta para arquiteturas híbridas de custo dramaticamente menor.
Se sua operação roda agents em produção e ainda depende de um único provedor fechado, fale com a Techify sobre auditoria de custo, benchmark interno no seu repositório e deploy on-prem do 35B-A3B com vLLM. Avaliação em 3 semanas, entrega orientada a métricas.
Sobre o autor
Editor — Techify
Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.
- Focado em automação com IA aplicada
Perguntas frequentes
O que é Qwen 3.6 e quando foi lançado?
Qual a diferença entre Qwen 3.6 Plus, Max-Preview e 35B-A3B?
Quanto custa usar Qwen 3.6?
Qwen 3.6-35B-A3B supera Claude Opus 4.6 em coding?
Como começar a usar Qwen 3.6 hoje?
dashscope-intl.aliyuncs.com/compatible-mode/v1 com o model string qwen3.6-plus ou qwen3.6-max-preview. Self-hosted: baixe Qwen/Qwen3.6-35B-A3B do Hugging Face e rode via vLLM, SGLang ou Ollama. Na Techify ajudamos equipes a desenhar o roteamento multi-modelo e a observabilidade em produção.