Qwen3-235B: o monstro “free” que cabe no seu notebook*

TopCringeTech,

Qwen3-235B: o monstro “free” que cabe no seu notebook* (asteriscos inclusos)

link de download: https://chat.qwen.ai/ clique em obtenha o aplicativo

Roda legal com Xeon E5 2699v3 32giga ram , ou algo parecido com i9 11900k

lema do dia: vamos rir da tecnologia antes que ela ria da gente.

O que é esse trem? o monstro “free” que cabe no seu notebook*

O Qwen3-235B-A22B é um modelo Mixture-of-Experts (MoE) com 235 bilhões de parâmetros no total, mas só ~22B ficam ativos por token. Tradução: ele tem um condomínio de especialistas e chama só alguns pra cada frase — eficiência estilo “chama o eletricista, não o síndico”. A variante Instruct-2507 veio com melhorias gerais (código, matemática, agente/ferramentas) e contexto nativo de 256K tokens, com modo turbo que estica até ~1 milhão (com ajustes e GPU pra isso, claro). Licença? Apache-2.0, ou seja, aberta e permissiva. Hugging Face

A equipe da Qwen liberou família completa (dense e MoE), incluindo versões “Thinking” (que raciocinam mais explicitamente) e “Instruct” (mais diretas pro dia a dia). Tem também Qwen3-Coder focado em programação. GitHubReuters

E sim, a Alibaba anda jogando pesado: lançou builds pro MLX (Apple Silicon, iPhone, iPad, Mac), então o ecossistema tá indo do datacenter ao bolso. Reuters

“Roda no meu notebook?” — a verdade crua

Cenário 1 — Ollama / GGUF

Dá pra ollama run qwen3:235b. Mas segura: o pacote Q4_K_M pesa ~142 GB. Isso é tamanho de jogo AAA com todos os DLC + a culpa do backlog. Vai rodar em CPU/RAM (com offload se tiver GPU), mas não é experiência “leve”. ollama.com

Cenário 2 — Hugging Face + vLLM/SGLang (HF Transformers)

A rota “pro” é baixar do Hugging Face e servir com vLLM ou SGLang. A própria model card recomenda tensor parallel = 8 (shard em 8 GPUs) pra servir confortável no máximo de contexto, e dá comandos prontos. Pra notebook comum isso vira exercício de imaginação — mas numa workstation/rig multi-GPU, voa. Hugging Face

Cenário 3 — Apple MLX / OpenVINO / llama.cpp / LM Studio

O ecossistema suporta várias formas de rodar versões menores (4B/8B/14B/30B-A3B) com boa velocidade e consumo civilizado. Para 235B especificamente, o MLX e amigos são mais práticos para os menores; o 235B roda, porém é exótico/limitado fora de rigs parrudas. GitHub

Resumo honesto: rodar o 235B “na marra” num notebook é tipo puxar carreta com Fusca — possível no YouTube, sofrido na vida real. A experiência ótima no dia a dia vem dos Qwen3-30B-A3B (MoE “magrinho”) ou 8B/14B/32B bem quantizados. GitHub

Como instalar e brincar (sem xilique)

Opção turbo simples (Ollama, cuidado com o tamanho):


# 142 GB no Q4_K_M — espaço e paciência
ollama serve
ollama run qwen3:235b
# dica: ajuste num_ctx e num_predict; o padrão é baixo

ollama.com

Opção “profissa” (vLLM, multi-GPU):


pip install -U vllm  # vLLM >= 0.8.5 recomendado
vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 \
  --tensor-parallel-size 8 \
  --max-model-len 262144
# API OpenAI-compat em http://localhost:8000/v1

Ou com SGLang:


pip install -U sglang
python -m sglang.launch_server \
  --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 \
  --tp 8 --context-length 262144

Hugging Face

Modo ultra-longo (~1M tokens): precisa trocar config e ter muuuita VRAM (o próprio card fala em ~1 TB somando KV/ativação em cenários extremos). É legal pra “adorei PDF de mil páginas”, mas é laboratório, não cafezinho. Hugging Face

Ferramentas/Agentes: o Qwen-Agent já vem temperado pra tool calling, MCP, code interpreter etc. Plug-and-play de agente sem sofrer parsing manual. Hugging FaceGitHub

O lado brilhante (com glitter biodegradável)

Soberania de dados: rodando local, seus docs ficam em casa. Menos paranoia de vazar contrato do cliente. Hugging Face
Licença Apache-2.0: pode usar comercialmente, remixar, integrar sem dor de cabeça jurídica de copyleft pesado. GitHub
Qualidade competitiva: o 235B aparece firme em benchmarks de código, matemática e agente — sem mensalidade de API. Hugging Face
Ecossistema rico: tem Qwen3-Coder, suporte a MLX (Apple), Ollama/llama.cpp, OpenVINO (Intel). Acessível do dev indie ao lab público. Reuters+1GitHub
Línguas & contexto longo: multilíngue forte e leitura de contextos gigantes. Adeus cortar PDF em 500 pedacinhos. Hugging Face

O lado trevoso (porque nada é de graça, exceto a fatura de luz… que chega)

Hardware não cai do céu: 235B não é “leve”. Em GGUF tem ~142 GB de arquivo; em HF serve bem com múltiplas GPUs. Notebook comum apanha. ollama.comHugging Face
Energia & aquecimento: MoE é eficiente por token, mas geração longa + KV cache = VRAM/RAM suando. (Seu cooler que lute.) Hugging Face
Operacionalidade: manter quantização, templates, reasoning parsers e agente/tool-use bonitinho dá trabalho. Não é “clica e ora”. GitHub
Risco de “certeza convincente”: modelo aberto poderoso ≠ verdade garantida. Alucinação com confiança 100% é venda casada. (Bench ajuda, mas não blinda.) Hugging Face
Compliance: dados sensíveis + edge = você é o DPO de si mesmo. LGPD não dorme.

“Mata as 7 gigantes?” — respira

Dá um calor nelas? Sim. Cada Qwen3 forte e aberto erode o “moat” das APIs fechadas em tarefas generalistas. Mas:

Infra ainda manda (treino, inferência massiva, serving global, GPUs raras).
Produtos/UX continuam diferenciando (Studio, copilots, integrações profundas).
Modelos fechados topo de linha ainda levam vantagem em algumas tarefas premium.

Em vez de apocalipse das Big Tech, o que vemos é pressão de margem na nuvem de IA e migração parcial pro edge (AI PC, AI workstation). Boa notícia: elasticidade de custo pra quem é pequeno e esperto. GitHub

“Qual país moribundo não tem desculpa pra sua IA?”

Concordo… com reservas de realidade.

Hoje dá pra erguer stack nacional decente com modelos abertos (Qwen3 4–30B), fine-tune local e agentes plugados em dados públicos.
O 235B é símbolo e base de comparação; pra política pública o jogo é capacitar órgãos e universidades com 8B/14B/30B-A3B bem treinados, e onde couber, clusters com vLLM pra MoE grande.
Capacitação e dados limpos importam mais que turbinar um checkpoint gigante.

Ou seja: sem desculpa, mas também sem milagre — tem custo, energia, curadoria e engenharia no meio. GitHub

“E o dólar, cai até quando?”

Respira pela segunda vez. Open-weights barateiam software, mas GPU, memória e eletricidade continuam em dólar (olá, supply da NVIDIA e cia). O que tende a cair é o custo marginal por tarefa quando você migra do API-metered pro local bem afinado. Dólar não despenca por decreto de MoE; o CAPEX só muda de lugar (menos API, mais hardware/otimização local). Resultado: desinflação de custo de IA em várias frentes, não colapso cambial. (Economia > hype.) Hugging Face

Guia de bolso — escolha seu veneno

Quero “sentir o 235B” na pele
Teste no Ollama (sabendo dos 142 GB) pra ter flavor local. Se for sério: vLLM/SGLang em 8 GPUs e pronto. ollama.comHugging Face
Quero produtividade real no notebook
Vá de Qwen3-30B-A3B (MoE com ~3B ativados), 14B ou 8B quantizados. Já substitui muita chamada paga. GitHub
Quero programar com ajuda de respeito
Qwen3-Coder + editor de sua preferência. Bom em fluxos “agentic”. Reuters
Quero rodar em Apple Silicon
Use MLX-LM e as builds que a Alibaba anunciou pro MLX. Reuters
Quero agente/tool-use plugando em PDF, web, planilha
Qwen-Agent (MCP, code-interpreter, etc.). Menos gambiarra de parser. GitHub

Pra fechar, sem violino

O Qwen3-235B não é só “mais um modelo grátis”: é sinal de época.

Aberto de verdade (Apache-2.0).
MoE esperto (235B total, 22B ativos).
Contexto absurdo (256K→~1M).
Ecossistema amplo (vLLM, SGLang, Ollama, MLX, Agent). Hugging FaceGitHubollama.com

Se você quer soberania + custo sob controle, o momento é agora — e a graça é que não precisa vender a sua alma em tokens por minuto. Só não cai na armadilha do “235B no ultrabook do estágio”: começa menor, orquestra direito, mede latência e qualidade, e vai subindo. O resto é meme.

“Lembra quando IA era o tio tentando ligar o PC? Agora o tio roda MoE no quarto e o PC é que pede arrego.”

Leituras quentes (pra ver que não é fanfic)

Qwen3 na mídia e docs oficiais

Alibaba launches open-source AI coding model, touted as its most advanced to date

Reuters

Alibaba launches open-source AI coding model, touted as its most advanced to date

22 de jul. de 2025

Alibaba launches new Qwen3 AI models for Apple's MLX architecture

Reuters

Alibaba launches new Qwen3 AI models for Apple's MLX architecture

16 de jun. de 2025

Alibaba entra de lleno en la carrera de la IA para competir con DeepSeek y OpenAI: ¿cuáles son sus características?

Cinco Días

Alibaba entra de lleno en la carrera de la IA para competir con DeepSeek y OpenAI: ¿cuáles son sus características?

29 de abr. de 2025

Fontes técnicas: model card & comandos do Qwen3-235B-A22B-Instruct-2507; repositório Qwen3 e docs sobre execução/stack; página do Ollama com tamanho do 235B quantizado. Hugging FaceGitHubollama.com

coding IA Programação

Marcadores

A.I.Cracia: Como a Inteligência Artificial Vai Substituir

Segurança Digital em 2024: Como Não Cair em Golpes de 'Príncipes Nigerianos'

Anti-Web Scraping Ninja: Como Blindar Seu Site

Colaboradores

Postagem em destaque

Eu sou. — O texto que eu escreveria

Pesquisar neste blog