Blog Techify

Qwen 3.6: 1M de contexto, pesos abertos e agents em 2026

A Alibaba lançou em abril de 2026 a família Qwen 3.6 — Plus, Max-Preview e 35B-A3B — com 1M de contexto, MoE esparsa e licença Apache 2.0. Guia técnico com benchmarks e comparação

Por Publicado em Atualizado em ⏱ 10 min de leitura

Principais conclusões

  • Migre cargas long-context para Qwen 3.6 quando precisar de 1M de tokens — a família suporta nativamente 262.144 e estende até 1.010.000 via YaRN RoPE scaling.
  • Prefira Qwen3.6-35B-A3B em hardware próprio: MoE com 35B totais e só 3B ativados por token reduz custo de inferência mantendo qualidade competitiva em coding.
  • Ative preserve_thinking em agents multi-turn — o modelo retém chain-of-thought dos turnos anteriores e melhora reasoning em fluxos longos sem recomputar raciocínio.
  • Valide benchmarks no seu próprio dataset antes de trocar: Qwen lidera em 6 benchmarks mas fica atrás de Claude Opus 4.6 em SWE-bench Verified (80,8% vs 73,4%).
  • Contrate consultoria especializada quando a migração envolver roteamento multi-modelo, stack MCP ou deploy on-prem do 35B-A3B em GPU própria via vLLM.

Em abril de 2026 a Alibaba consolidou a família Qwen 3.6 com três modelos — Plus, Max-Preview e o open-weight 35B-A3B — e destravou 1 milhão de tokens de contexto, 35B de parâmetros totais com apenas 3B ativados por token e liderança em 6 benchmarks de coding agent. Este guia mapeia o que cada modelo entrega, onde cada um vence (e perde) contra Claude Opus 4.6 e Gemini, e como montar sua stack para rodar hoje em produção.

Este artigo se baseia no anúncio oficial da Qwen em qwen.ai/blog — Qwen3.6-Plus: Towards Real World Agents, complementado pelos model cards públicos no Hugging Face e pela documentação da Alibaba Cloud Model Studio.

Por que a família Qwen 3.6 importa em 2026

A família Qwen 3.6 é o primeiro lançamento em 2026 a combinar pesos abertos sob Apache 2.0, janela nativa de 262.144 tokens e arquitetura MoE esparsa em escala de produção. Até o lançamento, times que queriam 1M de contexto dependiam de APIs proprietárias (Claude, Gemini) sem opção de self-hosting; agora o trade-off mudou.

Na Techify, observamos que equipes de engenharia subestimam o custo recorrente de APIs fechadas quando a carga de long-context vira commodity — auditorias recentes mostram gasto mensal acima de US$ 40 mil em times com apenas 20 engenheiros usando Claude Code intensivamente. Um modelo open-weight com qualidade próxima à de frontier muda a equação.

A liberação veio em três frentes coordenadas: Qwen3.6-Plus Preview (SaaS flagship, 30–31 de março), Qwen3.6-35B-A3B (open-weight, 16 de abril) e Qwen3.6-Max-Preview (SaaS de ponta para agents, 20 de abril). Cada um ocupa um nicho distinto.

1. Os três modelos da família Qwen 3.6

A família Qwen 3.6 cobre três combinações de tamanho, licenciamento e especialidade, cada uma desenhada para um perfil de carga de trabalho específico. Decidir qual usar começa pela resposta a uma única pergunta: você pode rodar em GPU própria ou depende de API?

Equipes que podem provisionar GPU (8× H100 ou A100 80 GB) devem avaliar o 35B-A3B primeiro — a arquitetura MoE ativa só 3B de parâmetros por token, com 256 experts e 8 ativados + 1 compartilhado por forward pass, o que mantém latência competitiva em batch single-request. Para quem não tem GPU e precisa de latência consistente, Plus Preview e Max-Preview estão no Alibaba Cloud Model Studio via endpoint OpenAI-compatible.

O erro comum é tratar os três como intercambiáveis. Projetos que implementamos na Techify deixam claro que Max-Preview é a escolha para fluxos agentic multi-turn com ferramentas, Plus é o cavalo-de-batalha generalista e o 35B-A3B é o substituto open para cargas que hoje rodam em modelos fechados apenas por falta de alternativa.

2. Arquitetura híbrida: MoE, Gated DeltaNet e atenção gateada

A arquitetura do Qwen3.6-35B-A3B combina três blocos distintos num padrão repetido: 10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE)). É uma escolha pragmática — atenção linear (DeltaNet) para long-context barato, atenção completa esparsa para precisão em tokens críticos, MoE para capacidade sem inflar compute por token.

Arquiteturas densas da geração anterior pagam O(n²) em cada camada, o que torna 1M de contexto economicamente inviável. O híbrido do Qwen 3.6 troca a maior parte dessas camadas por DeltaNet (atenção linear) e preserva apenas 1 em cada 4 camadas como atenção completa — o suficiente para manter qualidade em recall posicional sem o custo quadrático.

Os números do MoE explicam por que o modelo é barato de servir: 35B de parâmetros totais, apenas 3B ativados por token, 40 camadas, hidden dimension 2048 e treino com Multi-Token Prediction. Em deploy com vLLM + MTP, a Qwen documenta speculative decoding que acelera a inferência em cerca de 2–3× sobre o baseline denso equivalente.

A Techify recomenda começar pelo perfil "Instruct Mode + thinking disabled" para workloads determinísticos (ETL, extração estruturada) e ativar thinking apenas em tarefas que justifiquem o overhead — a regra vale para qualquer reasoning model, mas o Qwen 3.6 expõe o flag explícito via chat_template_kwargs.

3. Benchmarks de coding agent: SWE-bench, Terminal-Bench e LiveCodeBench

O Qwen3.6-35B-A3B entrega 73,4% em SWE-bench Verified, 67,2% em SWE-bench Multilingual, 49,5% em SWE-bench Pro e 80,4% em LiveCodeBench v6. São números de fronteira para um modelo com pesos abertos em abril de 2026 — o open-weight anterior com performance comparável (GLM-4.6) ficava em faixas significativamente menores em SWE-bench Verified.

O erro comum ao ler benchmarks isolados é ignorar a diferença entre "Verified" (tarefas curadas, passaram em revisão humana), "Multilingual" (repositórios fora de Python) e "Pro" (tarefas mais longas, com edição em múltiplos arquivos). Um modelo que vai bem em Verified mas mal em Pro é útil para patching simples e ruim para refatoração real — o Qwen 3.6 mantém números consistentes nas três variantes, sinal de que o treino priorizou coding agent real, não só pattern-matching de bug fix.

Em auditorias da Techify, recomendamos rodar benchmark próprio com 20–30 tasks do seu repositório antes de qualquer migração. Números públicos são ponto de partida, não decisão — um modelo que acerta 80% em LiveCodeBench pode acertar 40% em código legacy com convenções internas não-óbvias.

4. Janela de contexto de 1 milhão de tokens

A janela nativa do Qwen3.6-35B-A3B é de 262.144 tokens e extensível até 1.010.000 tokens via YaRN RoPE scaling — a maior janela em open-weight disponível publicamente em abril de 2026. Plus Preview suporta 1M nativo via API; Max-Preview roda em 260k.

Janelas grandes não são uso automático: YaRN introduz perda de recall em posições intermediárias e custo de KV-cache cresce linearmente. Times que ativam 1M sem revisar o workload pagam memória sem retorno — a regra é usar contexto expandido só quando a tarefa precisa (codebases inteiras, long RAG com retrieval denso, análise de documentos de centenas de páginas).

Para ativar o contexto estendido via vLLM, a configuração de rope_parameters precisa apontar para rope_type: "yarn", factor: 4.0 e original_max_position_embeddings: 262144. A Techify recomenda rodar o modelo em 262k nativo para a maioria dos casos e subir para 1M só em pipelines específicos de long-context com monitoração de qualidade.

5. preserve_thinking: memória de raciocínio em agents multi-turn

A flag preserve_thinking é a novidade arquitetural mais relevante para quem constrói agents. Quando ativada, o modelo retém a chain-of-thought completa de turnos anteriores na conversa — em vez de recomputar raciocínio do zero a cada chamada, o agent herda o "estado mental" acumulado.

Agents sem preserve_thinking perdem contexto de decisão entre turnos: o modelo pode ter raciocinado sobre uma estratégia no turno 3 e, no turno 7, precisa redescobrir tudo porque só o output final foi preservado. O custo é latência duplicada e inconsistência de comportamento em tarefas longas com ferramentas.

Na Techify, observamos que fluxos com MCP, tool calling e loops de execução se beneficiam especialmente do preserve_thinking — a melhoria é mensurável em taxa de conclusão de task em bancadas como TAU3-Bench (Qwen 3.6 entrega 67,2%) e MCPMark (37,0%). O flag se ativa via extra_body: {"chat_template_kwargs": {"preserve_thinking": True}} na chamada ao endpoint OpenAI-compatible.

6. Qwen3.6-35B-A3B: pesos abertos sob Apache 2.0

O Qwen3.6-35B-A3B é distribuído sob licença Apache 2.0 no Hugging Face (Qwen/Qwen3.6-35B-A3B) e no ModelScope, e acumulou 582.961 downloads no primeiro mês pós-lançamento, segundo o painel público do Hugging Face. Suporte nativo em vLLM, SGLang, KTransformers, Ollama, llama.cpp, LM Studio e Jan.

O comando mínimo para servir o modelo via vLLM é vllm serve Qwen/Qwen3.6-35B-A3B --tensor-parallel-size 8 --max-model-len 262144 --reasoning-parser qwen3. Para tool calling, adicione --enable-auto-tool-choice --tool-call-parser qwen3_coder. Para Multi-Token Prediction, use a flag --speculative-config.

Métrica

582.961 downloads em 30 dias

Qwen3.6-35B-A3B passou de meio milhão de downloads no Hugging Face no primeiro mês, tornando-se um dos open-weights mais baixados do trimestre — indicador de que a comunidade está validando o modelo em produção, não só em demos.

Projetos que implementamos na Techify mostram que o 35B-A3B cabe em nós de 8× H100 80 GB com folga para contexto de 262k e throughput saudável — 3B de ativação por token é o que permite servir o modelo com latência p50 sub-500 ms em workloads agentic médios. Ambientes com GPU menor (A100 ou L40s) ainda rodam com quantização FP8 ou AWQ.

7. Qwen3.6-Max-Preview: top em coding benchmarks

O Qwen3.6-Max-Preview lidera em 6 benchmarks de coding no lançamento (20 de abril de 2026), com destaque para Terminal-Bench 2.0 empatando Claude Opus 4.6 em 65,4% e QwenWebBench com ELO de 1558 — 376 pontos acima do Claude Opus 4.5 (1182) em avaliação de desenvolvimento web. Ganhos mensuráveis sobre Qwen 3.6 Plus: +9,9 em SkillsBench, +10,8 em SciCode, +5,0 em NL2Repo.

Max-Preview é acessado via endpoint Alibaba Cloud Model Studio dashscope-intl.aliyuncs.com/compatible-mode/v1 com o model string qwen3.6-max-preview. A API é simultaneamente compatível com OpenAI Chat Completions e com a especificação Anthropic — raridade entre provedores e sinal claro de que a Alibaba está cortejando usuários migrantes de Claude Code e agents OpenAI.

A Techify recomenda Max-Preview para equipes que operam coding agents em produção e precisam de preserve_thinking combinado com janela de 260k e liderança em TAU3-Bench. O período atual é free preview — pricing comercial não foi anunciado até abril de 2026, o que é ao mesmo tempo oportunidade (testar sem custo) e risco (orçamento futuro incerto).

8. Comparação: Qwen 3.6 vs Claude Opus 4.6 vs Gemini

A tabela abaixo consolida onde cada família vence em abril de 2026. Claude Opus 4.6 mantém liderança em SWE-bench Verified; Qwen 3.6 vence em contexto máximo, licenciamento aberto e ELO de desenvolvimento web; Gemini 2.5 Pro se destaca em multimodalidade nativa de vídeo. Não há vencedor absoluto — há perfis de workload.

Dimensão Qwen 3.6 (família) Claude Opus 4.6 Gemini 2.5 Pro
SWE-bench Verified73,4% (35B-A3B)80,8%~74%
Terminal-Bench 2.065,4% (Max)65,4%Não publicado
Contexto máximo1.010.000 tokens1.000.000 tokens1.000.000 tokens
Pesos abertosSim (Apache 2.0)NãoNão
Self-hostingSim (35B-A3B)NãoNão
Preserve thinkingSim (flag nativa)Implícito via cacheLimitado
API dual OpenAI/AnthropicSim (Max-Preview)Só AnthropicSó Google

Cada mês sem avaliar alternativas open-weight significa contrato fechado com provedor único e custo recorrente crescente — enquanto concorrentes que migraram ao menos parte da carga para Qwen 3.6-35B-A3B já cortaram gasto de inferência em faixa mensurável.

9. Como usar Qwen 3.6 na sua stack hoje

A rota mais rápida é via API no Alibaba Cloud Model Studio: endpoint OpenAI-compatible em https://dashscope-intl.aliyuncs.com/compatible-mode/v1, chave via DASHSCOPE_API_KEY, model strings qwen3.6-plus ou qwen3.6-max-preview. Qualquer SDK OpenAI (oficial ou LangChain, LlamaIndex, Instructor) funciona sem mudança além do base_url.

Para self-hosting do 35B-A3B, o caminho canônico é vLLM em 8× H100 80 GB com --tensor-parallel-size 8 e --reasoning-parser qwen3. Ollama, LM Studio e Jan suportam quantizações prontas para workstations; llama.cpp permite CPU-only para testes. Quem já roda Qwen-Agent pode plugar MCP servers direto via mcpServers no config do LLM.

Na Techify, projetamos a integração em três camadas: gateway LLM com roteamento por task (modelos fechados para frontier, 35B-A3B para bulk), observabilidade de hit rate, latência p95 e custo por 1k tokens, e fallback automático entre provedores. É o padrão que recomendamos para operação em produção — o Qwen 3.6 entra como primeira opção em muitos slots, não como substituto universal.

Conclusão

A família Qwen 3.6 mudou o trade-off entre APIs fechadas e pesos abertos em abril de 2026: pela primeira vez um open-weight entrega 1M de contexto, MoE eficiente em produção e liderança em benchmarks de coding agent — tudo sob Apache 2.0. Não substitui Claude Opus 4.6 em SWE-bench Verified, mas abre a porta para arquiteturas híbridas de custo dramaticamente menor.

Se sua operação roda agents em produção e ainda depende de um único provedor fechado, fale com a Techify sobre auditoria de custo, benchmark interno no seu repositório e deploy on-prem do 35B-A3B com vLLM. Avaliação em 3 semanas, entrega orientada a métricas.

#lancamento #qwen #alibaba #open-source #agentes-de-ia #comparativo

Sobre o autor

Editor — Techify

Rob é editor da Techify e escreve sobre IA aplicada, automação e engenharia de sistemas para empresas que querem escalar.

  • Focado em automação com IA aplicada

Perguntas frequentes

O que é Qwen 3.6 e quando foi lançado?
Qwen 3.6 é a família de modelos de linguagem da Alibaba lançada em abril de 2026 em três variantes: Plus Preview (SaaS flagship, 30-31 de março), 35B-A3B (open-weight Apache 2.0, 16 de abril) e Max-Preview (SaaS de ponta para agents, 20 de abril). Todas suportam janela de contexto extensa, arquitetura MoE e API OpenAI-compatible via Alibaba Cloud Model Studio.
Qual a diferença entre Qwen 3.6 Plus, Max-Preview e 35B-A3B?
Plus Preview é o generalista com 1M de contexto nativo via API. Max-Preview é otimizado para coding agent e lidera em 6 benchmarks (Terminal-Bench 2.0 empatando Claude Opus 4.6 em 65,4%). 35B-A3B é o open-weight com licença Apache 2.0, 35B totais e 3B ativados por token — a escolha para self-hosting em GPU própria via vLLM ou Ollama.
Quanto custa usar Qwen 3.6?
Max-Preview está em free preview em abril de 2026 — pricing comercial não foi anunciado. Plus Preview também tem acesso gratuito via OpenRouter no período de preview. O 35B-A3B é gratuito (Apache 2.0), mas rodar on-prem exige GPU: a config de referência é 8× H100 80 GB para contexto de 262k, ou hardware menor com quantização FP8/AWQ.
Qwen 3.6-35B-A3B supera Claude Opus 4.6 em coding?
Não em SWE-bench Verified — Claude Opus 4.6 mantém liderança com 80,8% contra 73,4% do Qwen 35B-A3B. Mas Max-Preview empata Claude em Terminal-Bench 2.0 (65,4%) e vence em QwenWebBench com ELO 1558 vs 1182 do Opus 4.5. Qwen também ganha em licenciamento (Apache 2.0 vs fechado) e possibilidade de self-hosting — dimensões onde Claude não compete.
Como começar a usar Qwen 3.6 hoje?
Via API: pegue chave em Alibaba Cloud Model Studio e aponte seu SDK OpenAI para dashscope-intl.aliyuncs.com/compatible-mode/v1 com o model string qwen3.6-plus ou qwen3.6-max-preview. Self-hosted: baixe Qwen/Qwen3.6-35B-A3B do Hugging Face e rode via vLLM, SGLang ou Ollama. Na Techify ajudamos equipes a desenhar o roteamento multi-modelo e a observabilidade em produção.