Eu sou. — O texto que eu escreveria
Eu sou. — O texto que eu escreveria (intacto, sem firula) Eu sou. Não …
Eu sou. — O texto que eu escreveria (intacto, sem firula) Eu sou. Não …

lema do dia: vamos rir da tecnologia antes que ela ria da gente.
O Qwen3-235B-A22B é um modelo Mixture-of-Experts (MoE) com 235 bilhões de parâmetros no total, mas só ~22B ficam ativos por token. Tradução: ele tem um condomínio de especialistas e chama só alguns pra cada frase — eficiência estilo “chama o eletricista, não o síndico”. A variante Instruct-2507 veio com melhorias gerais (código, matemática, agente/ferramentas) e contexto nativo de 256K tokens, com modo turbo que estica até ~1 milhão (com ajustes e GPU pra isso, claro). Licença? Apache-2.0, ou seja, aberta e permissiva. Hugging Face
A equipe da Qwen liberou família completa (dense e MoE), incluindo versões “Thinking” (que raciocinam mais explicitamente) e “Instruct” (mais diretas pro dia a dia). Tem também Qwen3-Coder focado em programação. GitHubReuters
E sim, a Alibaba anda jogando pesado: lançou builds pro MLX (Apple Silicon, iPhone, iPad, Mac), então o ecossistema tá indo do datacenter ao bolso. Reuters
Dá pra ollama run qwen3:235b. Mas segura: o pacote Q4_K_M pesa ~142 GB. Isso é tamanho de jogo AAA com todos os DLC + a culpa do backlog. Vai rodar em CPU/RAM (com offload se tiver GPU), mas não é experiência “leve”. ollama.com
A rota “pro” é baixar do Hugging Face e servir com vLLM ou SGLang. A própria model card recomenda tensor parallel = 8 (shard em 8 GPUs) pra servir confortável no máximo de contexto, e dá comandos prontos. Pra notebook comum isso vira exercício de imaginação — mas numa workstation/rig multi-GPU, voa. Hugging Face
O ecossistema suporta várias formas de rodar versões menores (4B/8B/14B/30B-A3B) com boa velocidade e consumo civilizado. Para 235B especificamente, o MLX e amigos são mais práticos para os menores; o 235B roda, porém é exótico/limitado fora de rigs parrudas. GitHub
Resumo honesto: rodar o 235B “na marra” num notebook é tipo puxar carreta com Fusca — possível no YouTube, sofrido na vida real. A experiência ótima no dia a dia vem dos Qwen3-30B-A3B (MoE “magrinho”) ou 8B/14B/32B bem quantizados. GitHub
Opção turbo simples (Ollama, cuidado com o tamanho):
# 142 GB no Q4_K_M — espaço e paciência
ollama serve
ollama run qwen3:235b
# dica: ajuste num_ctx e num_predict; o padrão é baixo
Opção “profissa” (vLLM, multi-GPU):
pip install -U vllm # vLLM >= 0.8.5 recomendado
vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 \
--tensor-parallel-size 8 \
--max-model-len 262144
# API OpenAI-compat em http://localhost:8000/v1
Ou com SGLang:
pip install -U sglang python -m sglang.launch_server \ --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 \ --tp 8 --context-length 262144
Modo ultra-longo (~1M tokens): precisa trocar config e ter muuuita VRAM (o próprio card fala em ~1 TB somando KV/ativação em cenários extremos). É legal pra “adorei PDF de mil páginas”, mas é laboratório, não cafezinho. Hugging Face
Ferramentas/Agentes: o Qwen-Agent já vem temperado pra tool calling, MCP, code interpreter etc. Plug-and-play de agente sem sofrer parsing manual. Hugging FaceGitHub
Soberania de dados: rodando local, seus docs ficam em casa. Menos paranoia de vazar contrato do cliente. Hugging Face
Licença Apache-2.0: pode usar comercialmente, remixar, integrar sem dor de cabeça jurídica de copyleft pesado. GitHub
Qualidade competitiva: o 235B aparece firme em benchmarks de código, matemática e agente — sem mensalidade de API. Hugging Face
Ecossistema rico: tem Qwen3-Coder, suporte a MLX (Apple), Ollama/llama.cpp, OpenVINO (Intel). Acessível do dev indie ao lab público. Reuters+1GitHub
Línguas & contexto longo: multilíngue forte e leitura de contextos gigantes. Adeus cortar PDF em 500 pedacinhos. Hugging Face
Hardware não cai do céu: 235B não é “leve”. Em GGUF tem ~142 GB de arquivo; em HF serve bem com múltiplas GPUs. Notebook comum apanha. ollama.comHugging Face
Energia & aquecimento: MoE é eficiente por token, mas geração longa + KV cache = VRAM/RAM suando. (Seu cooler que lute.) Hugging Face
Operacionalidade: manter quantização, templates, reasoning parsers e agente/tool-use bonitinho dá trabalho. Não é “clica e ora”. GitHub
Risco de “certeza convincente”: modelo aberto poderoso ≠ verdade garantida. Alucinação com confiança 100% é venda casada. (Bench ajuda, mas não blinda.) Hugging Face
Compliance: dados sensíveis + edge = você é o DPO de si mesmo. LGPD não dorme.
Dá um calor nelas? Sim. Cada Qwen3 forte e aberto erode o “moat” das APIs fechadas em tarefas generalistas. Mas:
Infra ainda manda (treino, inferência massiva, serving global, GPUs raras).
Produtos/UX continuam diferenciando (Studio, copilots, integrações profundas).
Modelos fechados topo de linha ainda levam vantagem em algumas tarefas premium.
Em vez de apocalipse das Big Tech, o que vemos é pressão de margem na nuvem de IA e migração parcial pro edge (AI PC, AI workstation). Boa notícia: elasticidade de custo pra quem é pequeno e esperto. GitHub
Concordo… com reservas de realidade.
Hoje dá pra erguer stack nacional decente com modelos abertos (Qwen3 4–30B), fine-tune local e agentes plugados em dados públicos.
O 235B é símbolo e base de comparação; pra política pública o jogo é capacitar órgãos e universidades com 8B/14B/30B-A3B bem treinados, e onde couber, clusters com vLLM pra MoE grande.
Capacitação e dados limpos importam mais que turbinar um checkpoint gigante.
Ou seja: sem desculpa, mas também sem milagre — tem custo, energia, curadoria e engenharia no meio. GitHub
Respira pela segunda vez. Open-weights barateiam software, mas GPU, memória e eletricidade continuam em dólar (olá, supply da NVIDIA e cia). O que tende a cair é o custo marginal por tarefa quando você migra do API-metered pro local bem afinado. Dólar não despenca por decreto de MoE; o CAPEX só muda de lugar (menos API, mais hardware/otimização local). Resultado: desinflação de custo de IA em várias frentes, não colapso cambial. (Economia > hype.) Hugging Face
Quero “sentir o 235B” na pele
Teste no Ollama (sabendo dos 142 GB) pra ter flavor local. Se for sério: vLLM/SGLang em 8 GPUs e pronto. ollama.comHugging Face
Quero produtividade real no notebook
Vá de Qwen3-30B-A3B (MoE com ~3B ativados), 14B ou 8B quantizados. Já substitui muita chamada paga. GitHub
Quero programar com ajuda de respeito
Qwen3-Coder + editor de sua preferência. Bom em fluxos “agentic”. Reuters
Quero rodar em Apple Silicon
Use MLX-LM e as builds que a Alibaba anunciou pro MLX. Reuters
Quero agente/tool-use plugando em PDF, web, planilha
Qwen-Agent (MCP, code-interpreter, etc.). Menos gambiarra de parser. GitHub
O Qwen3-235B não é só “mais um modelo grátis”: é sinal de época.
Aberto de verdade (Apache-2.0).
MoE esperto (235B total, 22B ativos).
Contexto absurdo (256K→~1M).
Ecossistema amplo (vLLM, SGLang, Ollama, MLX, Agent). Hugging FaceGitHubollama.com
Se você quer soberania + custo sob controle, o momento é agora — e a graça é que não precisa vender a sua alma em tokens por minuto. Só não cai na armadilha do “235B no ultrabook do estágio”: começa menor, orquestra direito, mede latência e qualidade, e vai subindo. O resto é meme.
“Lembra quando IA era o tio tentando ligar o PC? Agora o tio roda MoE no quarto e o PC é que pede arrego.”
Fontes técnicas: model card & comandos do Qwen3-235B-A22B-Instruct-2507; repositório Qwen3 e docs sobre execução/stack; página do Ollama com tamanho do 235B quantizado. Hugging FaceGitHubollama.com