Qwen3-235B: o monstro “free” que cabe no seu notebook* (asteriscos inclusos)


Qwen3-235B: o monstro “free” que cabe no seu notebook*

link de download: https://chat.qwen.ai/   clique em obtenha o aplicativo

Roda legal com Xeon E5 2699v3  32giga ram , ou algo parecido com i9 11900k



lema do dia: vamos rir da tecnologia antes que ela ria da gente.

O que é esse trem? o monstro “free” que cabe no seu notebook* 

O Qwen3-235B-A22B é um modelo Mixture-of-Experts (MoE) com 235 bilhões de parâmetros no total, mas só ~22B ficam ativos por token. Tradução: ele tem um condomínio de especialistas e chama só alguns pra cada frase — eficiência estilo “chama o eletricista, não o síndico”. A variante Instruct-2507 veio com melhorias gerais (código, matemática, agente/ferramentas) e contexto nativo de 256K tokens, com modo turbo que estica até ~1 milhão (com ajustes e GPU pra isso, claro). Licença? Apache-2.0, ou seja, aberta e permissiva. Hugging Face

A equipe da Qwen liberou família completa (dense e MoE), incluindo versões “Thinking” (que raciocinam mais explicitamente) e “Instruct” (mais diretas pro dia a dia). Tem também Qwen3-Coder focado em programação. GitHubReuters

E sim, a Alibaba anda jogando pesado: lançou builds pro MLX (Apple Silicon, iPhone, iPad, Mac), então o ecossistema tá indo do datacenter ao bolso. Reuters


“Roda no meu notebook?” — a verdade crua

Cenário 1 — Ollama / GGUF

Dá pra ollama run qwen3:235b. Mas segura: o pacote Q4_K_M pesa ~142 GB. Isso é tamanho de jogo AAA com todos os DLC + a culpa do backlog. Vai rodar em CPU/RAM (com offload se tiver GPU), mas não é experiência “leve”. ollama.com

Cenário 2 — Hugging Face + vLLM/SGLang (HF Transformers)

A rota “pro” é baixar do Hugging Face e servir com vLLM ou SGLang. A própria model card recomenda tensor parallel = 8 (shard em 8 GPUs) pra servir confortável no máximo de contexto, e dá comandos prontos. Pra notebook comum isso vira exercício de imaginação — mas numa workstation/rig multi-GPU, voa. Hugging Face

Cenário 3 — Apple MLX / OpenVINO / llama.cpp / LM Studio

O ecossistema suporta várias formas de rodar versões menores (4B/8B/14B/30B-A3B) com boa velocidade e consumo civilizado. Para 235B especificamente, o MLX e amigos são mais práticos para os menores; o 235B roda, porém é exótico/limitado fora de rigs parrudas. GitHub

Resumo honesto: rodar o 235B “na marra” num notebook é tipo puxar carreta com Fusca — possível no YouTube, sofrido na vida real. A experiência ótima no dia a dia vem dos Qwen3-30B-A3B (MoE “magrinho”) ou 8B/14B/32B bem quantizados. GitHub


Como instalar e brincar (sem xilique)

Opção turbo simples (Ollama, cuidado com o tamanho):

# 142 GB no Q4_K_M — espaço e paciência ollama serve ollama run qwen3:235b # dica: ajuste num_ctx e num_predict; o padrão é baixo

ollama.com

Opção “profissa” (vLLM, multi-GPU):

pip install -U vllm # vLLM >= 0.8.5 recomendado vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 \ --tensor-parallel-size 8 \ --max-model-len 262144 # API OpenAI-compat em http://localhost:8000/v1

Ou com SGLang:

pip install -U sglang python -m sglang.launch_server \ --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 \ --tp 8 --context-length 262144

Hugging Face

Modo ultra-longo (~1M tokens): precisa trocar config e ter muuuita VRAM (o próprio card fala em ~1 TB somando KV/ativação em cenários extremos). É legal pra “adorei PDF de mil páginas”, mas é laboratório, não cafezinho. Hugging Face

Ferramentas/Agentes: o Qwen-Agent já vem temperado pra tool calling, MCP, code interpreter etc. Plug-and-play de agente sem sofrer parsing manual. Hugging FaceGitHub


O lado brilhante (com glitter biodegradável)

  1. Soberania de dados: rodando local, seus docs ficam em casa. Menos paranoia de vazar contrato do cliente. Hugging Face

  2. Licença Apache-2.0: pode usar comercialmente, remixar, integrar sem dor de cabeça jurídica de copyleft pesado. GitHub

  3. Qualidade competitiva: o 235B aparece firme em benchmarks de código, matemática e agente — sem mensalidade de API. Hugging Face

  4. Ecossistema rico: tem Qwen3-Coder, suporte a MLX (Apple), Ollama/llama.cpp, OpenVINO (Intel). Acessível do dev indie ao lab público. Reuters+1GitHub

  5. Línguas & contexto longo: multilíngue forte e leitura de contextos gigantes. Adeus cortar PDF em 500 pedacinhos. Hugging Face


O lado trevoso (porque nada é de graça, exceto a fatura de luz… que chega)

  1. Hardware não cai do céu: 235B não é “leve”. Em GGUF tem ~142 GB de arquivo; em HF serve bem com múltiplas GPUs. Notebook comum apanha. ollama.comHugging Face

  2. Energia & aquecimento: MoE é eficiente por token, mas geração longa + KV cache = VRAM/RAM suando. (Seu cooler que lute.) Hugging Face

  3. Operacionalidade: manter quantização, templates, reasoning parsers e agente/tool-use bonitinho dá trabalho. Não é “clica e ora”. GitHub

  4. Risco de “certeza convincente”: modelo aberto poderoso ≠ verdade garantida. Alucinação com confiança 100% é venda casada. (Bench ajuda, mas não blinda.) Hugging Face

  5. Compliance: dados sensíveis + edge = você é o DPO de si mesmo. LGPD não dorme.


“Mata as 7 gigantes?” — respira

Dá um calor nelas? Sim. Cada Qwen3 forte e aberto erode o “moat” das APIs fechadas em tarefas generalistas. Mas:

  • Infra ainda manda (treino, inferência massiva, serving global, GPUs raras).

  • Produtos/UX continuam diferenciando (Studio, copilots, integrações profundas).

  • Modelos fechados topo de linha ainda levam vantagem em algumas tarefas premium.

Em vez de apocalipse das Big Tech, o que vemos é pressão de margem na nuvem de IA e migração parcial pro edge (AI PC, AI workstation). Boa notícia: elasticidade de custo pra quem é pequeno e esperto. GitHub


“Qual país moribundo não tem desculpa pra sua IA?”

Concordo… com reservas de realidade.

  • Hoje dá pra erguer stack nacional decente com modelos abertos (Qwen3 4–30B), fine-tune local e agentes plugados em dados públicos.

  • O 235B é símbolo e base de comparação; pra política pública o jogo é capacitar órgãos e universidades com 8B/14B/30B-A3B bem treinados, e onde couber, clusters com vLLM pra MoE grande.

  • Capacitação e dados limpos importam mais que turbinar um checkpoint gigante.

Ou seja: sem desculpa, mas também sem milagre — tem custo, energia, curadoria e engenharia no meio. GitHub


“E o dólar, cai até quando?”

Respira pela segunda vez. Open-weights barateiam software, mas GPU, memória e eletricidade continuam em dólar (olá, supply da NVIDIA e cia). O que tende a cair é o custo marginal por tarefa quando você migra do API-metered pro local bem afinado. Dólar não despenca por decreto de MoE; o CAPEX só muda de lugar (menos API, mais hardware/otimização local). Resultado: desinflação de custo de IA em várias frentes, não colapso cambial. (Economia > hype.) Hugging Face


Guia de bolso — escolha seu veneno

  • Quero “sentir o 235B” na pele
    Teste no Ollama (sabendo dos 142 GB) pra ter flavor local. Se for sério: vLLM/SGLang em 8 GPUs e pronto. ollama.comHugging Face

  • Quero produtividade real no notebook
    Vá de Qwen3-30B-A3B (MoE com ~3B ativados), 14B ou 8B quantizados. Já substitui muita chamada paga. GitHub

  • Quero programar com ajuda de respeito
    Qwen3-Coder + editor de sua preferência. Bom em fluxos “agentic”. Reuters

  • Quero rodar em Apple Silicon
    Use MLX-LM e as builds que a Alibaba anunciou pro MLX. Reuters

  • Quero agente/tool-use plugando em PDF, web, planilha
    Qwen-Agent (MCP, code-interpreter, etc.). Menos gambiarra de parser. GitHub


Pra fechar, sem violino

O Qwen3-235B não é só “mais um modelo grátis”: é sinal de época.

  • Aberto de verdade (Apache-2.0).

  • MoE esperto (235B total, 22B ativos).

  • Contexto absurdo (256K→~1M).

  • Ecossistema amplo (vLLM, SGLang, Ollama, MLX, Agent). Hugging FaceGitHubollama.com

Se você quer soberania + custo sob controle, o momento é agora — e a graça é que não precisa vender a sua alma em tokens por minuto. Só não cai na armadilha do “235B no ultrabook do estágio”: começa menor, orquestra direito, mede latência e qualidade, e vai subindo. O resto é meme.

“Lembra quando IA era o tio tentando ligar o PC? Agora o tio roda MoE no quarto e o PC é que pede arrego.”


Leituras quentes (pra ver que não é fanfic)

Fontes técnicas: model card & comandos do Qwen3-235B-A22B-Instruct-2507; repositório Qwen3 e docs sobre execução/stack; página do Ollama com tamanho do 235B quantizado. Hugging FaceGitHubollama.com