a razão pela qual a Cursor e a Windsurf lançaram modelos otimizados para velocidade é porque é muito mais viável do que construir um modelo fundamental que empurre a inteligência 1. pegue o qwen3 e ajuste-o via RL no seu harness 2. coloque-o em hardware Cerebras (ou GPU otimizada) 3. deixe esse modelo médio-inteligente e super-rápido cozinhar para empresas de agentes de codificação, se você quiser trazer algo de valor para o mercado, construir um novo modelo fundamental é ordens de magnitude mais difícil do que ajustar um modelo aberto e otimizar a inferência. francamente, é a maneira eficiente de lançar algo que se aproxima da fronteira de pareto e eu gosto que as empresas de agentes de codificação estão começando a participar. mas não confunda isso com empresas de agentes de codificação declarando "médio inteligente, mas rápido > altamente inteligente, mas lento"