Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Saoud Rizwan
Codering agents hebben moeite met complexe taken in grote rommelige repositories, en dit zal niet beter worden totdat we stoppen met het gebruik van verzadigde benchmarks met tests die helemaal niet lijken op echte engineering.
Daarom zetten we $1M in voor cline-bench, onze open benchmark voor echte programmeertaken!

pash21 nov, 03:54
We kondigen cline-bench aan, een open source benchmark uit de echte wereld voor agentic coding.
cline-bench is opgebouwd uit echte engineeringtaken van deelnemende ontwikkelaars waar grensmodellen faalden en mensen moesten ingrijpen.
Elke geaccepteerde taak wordt een volledig reproduceerbare RL-omgeving met een startrepo-snapshot, een echte prompt en grondwaarheidstests van de code die uiteindelijk is verzonden.
Voor laboratoria en onderzoekers betekent dit:
> je kunt modellen evalueren op echte engineeringwerkzaamheden, niet op leetcode-puzzels.
> je krijgt omgevingen die compatibel zijn met Harbor en moderne evaluatietools voor zij-aan-zij vergelijking.
> je kunt dezelfde taken gebruiken voor SFT en RL, zodat training en evaluatie geworteld blijven in echte engineeringworkflows.
Vandaag openen we bijdragen en beginnen we taken te verzamelen via de Cline Provider. Deelname is optioneel en beperkt tot open source-repos.
Wanneer een moeilijke taak een model in de problemen brengt en je ingrijpt, kan die mislukking worden omgezet in een gestandaardiseerde omgeving die de hele gemeenschap kan bestuderen, benchmarken en trainen.
Als je werkt aan moeilijke open source-problemen, vooral commerciële OSS, wil ik je persoonlijk uitnodigen om te helpen. We zetten $1M in om open source-onderhouders te sponsoren om deel te nemen aan het cline-bench-initiatief.
"Cline-bench is een geweldig voorbeeld van hoe open, echte benchmarks het hele ecosysteem vooruit kunnen helpen. Hoogwaardige, geverifieerde codetaken geworteld in daadwerkelijke ontwikkelaarsworkflows zijn precies wat we nodig hebben om grensmodellen zinvol te meten, faalmodi te onthullen en de stand van de techniek vooruit te duwen."
– @shyamalanadkat, Hoofd Toegepaste Evaluaties @OpenAI
"Nous Research richt zich op het trainen en verspreiden van modellen die uitblinken in echte taken. cline-bench zal een integraal hulpmiddel zijn in onze inspanningen om de prestaties te maximaliseren en de mogelijkheden van onze modellen te begrijpen."
– @Teknium, Hoofd Post Training @nousresearch
"We zijn grote fans van alles wat Cline doet om het open source AI-ecosysteem te versterken, en zijn ongelooflijk enthousiast om de release van cline-bench te ondersteunen. Hoogwaardige open omgevingen voor agentic coding zijn uiterst zeldzaam. Deze release zal een grote stap voorwaarts zijn, zowel als evaluatie van mogelijkheden als een testbed na training voor uitdagende taken uit de echte wereld, en zal ons collectieve begrip en mogelijkheden rond autonome softwareontwikkeling bevorderen."
– @willccbb, Onderzoeksleider @PrimeIntellect:
"We delen Cline's toewijding aan open source en geloven dat het beschikbaar maken van deze benchmark voor iedereen ons zal helpen om de grenscodingscapaciteiten van onze LLM's verder te duwen."
– @b_roziere, Onderzoekswetenschapper @MistralAI:
Volledige details zijn te vinden in de blog:

4,7K
Gemini 3 Pro is de beste van Claude Sonnet 4.5 (codering, agentisch denken) en Gemini 2.5 Pro (kan eigenlijk 1m context goed aan). Het voelde alsof de modelverbeteringen lineair waren, gezien hoe de sprong van Sonnet 3.7 → 4 en GPT 4 .1 → 5 aanvoelde, maar dit is een echte sprong die een grote versieverhoging waard is. Reddit is veel beter signaal over modelprestaties dan de huidige benchmarks, en "r/singularity" is enthousiast over hoe veel beter dit is dan elk ander SOTA-model. We hebben het een tijdje getest en het is ongelooflijk om te zien hoe de hardwerkende mensen bij Google al onze feedback hebben gebruikt om het zo goed te laten werken in @cline -- vertel ons hoe je het vindt, overweeg om Claude te vervangen door Gemini als het standaardmodel!

14,5K
Boven
Positie
Favorieten

