Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Saoud Rizwan
Os agentes de codificação lutam com trabalhos complexos em repositórios grandes e desordenados, e isso não vai melhorar até pararmos de usar benchmarks saturados com testes que não se parecem em nada com a engenharia real.
É por isso que estamos comprometidos a investir $1M no cline-bench, nosso benchmark aberto para tarefas de codificação do mundo real!

pash21/11, 03:54
Estamos a anunciar o cline-bench, um benchmark de código aberto do mundo real para codificação agentic.
O cline-bench é construído a partir de tarefas de engenharia do mundo real de desenvolvedores participantes onde modelos de ponta falharam e os humanos tiveram que intervir.
Cada tarefa aceita torna-se um ambiente RL totalmente reproduzível com um instantâneo do repositório inicial, um prompt real e testes de verdade a partir do código que, em última análise, foi enviado.
Para laboratórios e pesquisadores, isso significa:
> você pode avaliar modelos em trabalho de engenharia genuíno, não em quebra-cabeças de leetcode.
> você obtém ambientes compatíveis com o Harbor e ferramentas de avaliação modernas para comparação lado a lado.
> você pode usar as mesmas tarefas para SFT e RL, de modo que o treinamento e a avaliação permaneçam ancorados em fluxos de trabalho de engenharia reais.
Hoje estamos abrindo contribuições e começando a coletar tarefas através do Cline Provider. A participação é opcional e limitada a repositórios de código aberto.
Quando uma tarefa difícil confunde um modelo e você intervém, essa falha pode ser transformada em um ambiente padronizado que toda a comunidade pode estudar, avaliar e treinar.
Se você trabalha em problemas difíceis de código aberto, especialmente OSS comercial, gostaria de convidá-lo pessoalmente a ajudar. Estamos comprometidos em patrocinar $1M para mantenedores de código aberto participarem da iniciativa cline-bench.
"O cline-bench é um ótimo exemplo de como benchmarks abertos e do mundo real podem avançar todo o ecossistema. Tarefas de codificação de alta qualidade e verificadas, ancoradas em fluxos de trabalho reais de desenvolvedores, são exatamente o que precisamos para medir de forma significativa modelos de ponta, descobrir modos de falha e impulsionar o estado da arte."
– @shyamalanadkat, Chefe de Avaliações Aplicadas @OpenAI
"A Nous Research está focada em treinar e proliferar modelos que se destacam em tarefas do mundo real. O cline-bench será uma ferramenta integral em nossos esforços para maximizar o desempenho e entender as capacidades de nossos modelos."
– @Teknium, Chefe de Pós-Treinamento @nousresearch
"Somos grandes fãs de tudo o que a Cline tem feito para capacitar o ecossistema de IA de código aberto e estamos incrivelmente empolgados em apoiar o lançamento do cline-bench. Ambientes abertos de alta qualidade para codificação agentic são extremamente raros. Este lançamento irá longe tanto como uma avaliação de capacidades quanto como um campo de testes pós-treinamento para tarefas desafiadoras do mundo real, avançando nossa compreensão coletiva e capacidades em torno do desenvolvimento de software autônomo."
– @willccbb, Líder de Pesquisa @PrimeIntellect:
"Compartilhamos o compromisso da Cline com o código aberto e acreditamos que tornar este benchmark disponível para todos nos ajudará a continuar a impulsionar as capacidades de codificação de ponta de nossos LLMs."
– @b_roziere, Cientista de Pesquisa @MistralAI:
Todos os detalhes estão no blog:

4,7K
O Gemini 3 Pro é o melhor do Claude Sonnet 4.5 (programação, pensamento agente) e do Gemini 2.5 Pro (na verdade, lida bem com 1m de contexto). Parecia que as melhorias do modelo eram lineares, vendo como a transição do Sonnet 3.7 → 4 e do GPT 4.1 → 5 se sentiu, mas este é um verdadeiro salto que merece um aumento significativo na versão. O Reddit é uma fonte de sinal muito melhor sobre o desempenho do modelo do que os benchmarks atuais, e "r/singularity" está elogiando o quanto isso é melhor do que qualquer outro modelo SOTA. Temos estado a testar há algum tempo e tem sido incrível ver as pessoas trabalhadoras do Google levar todo o nosso feedback para fazer com que funcione tão bem em @cline -- diga-nos como você gosta, considerando substituir o Claude pelo Gemini como o modelo padrão!

14,5K
Top
Classificação
Favoritos

