Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Saoud Rizwan
Kodningsagenter har svårt med komplext arbete i stora röriga repos, och det blir inte bättre förrän vi slutar använda mättade benchmarks med tester som inte alls liknar riktig ingenjörskonst.
Därför satsar vi 1 miljon dollar på cline-bench, vår öppna benchmark för verkliga kodningsuppgifter!

pash21 nov. 03:54
Vi tillkännager cline-bench, en verklig open source-benchmark för agentisk kodning.
Cline-Bench byggs av verkliga ingenjörsuppgifter från deltagande utvecklare där frontier-modeller misslyckades och människor var tvungna att kliva in.
Varje accepterad uppgift blir en fullt reproducerbar RL-miljö med en start-repo-snapshot, en riktig prompt och sanningstester från den kod som slutligen levererades.
För laboratorier och forskare betyder detta:
> kan du utvärdera modeller på verkligt ingenjörsarbete, inte leetcode-pussel.
> får du miljöer kompatibla med Harbor och modern utvärderingsverktyg för att jämföra sida vid sida.
> du kan använda samma uppgifter för SFT och RL så att utbildning och utvärdering förankras i verkliga ingenjörsarbetsflöden.
Idag öppnar vi bidrag och börjar samla in uppgifter via Cline Provider. Deltagandet är frivilligt och begränsat till open source-arkiv.
När en svår uppgift ställer till det för en modell och du ingriper, kan det misslyckandet förvandlas till en standardiserad miljö som hela samhället kan studera, jämföra och träna på.
Om du arbetar med svåra open source-problem, särskilt kommersiell OSS, vill jag personligen bjuda in dig att hjälpa till med. Vi avsätter 1 miljon dollar för att sponsra open source-underhållare som kan delta i cline-bench-initiativet.
"Cline-bench är ett utmärkt exempel på hur öppna, verkliga riktmärken kan driva hela ekosystemet framåt. Högkvalitativa, verifierade kodningsuppgifter baserade på faktiska utvecklararbetsflöden är precis vad vi behöver för att meningsfullt mäta frontier-modeller, avslöja felmönster och driva teknikens senaste nivå."
– @shyamalanadkat, chef för tillämpade utvärderingar @OpenAI
"Nous Research fokuserar på att träna och sprida modeller som utmärker sig i verkliga uppgifter. Cline-Bench kommer att vara ett integrerat verktyg i våra ansträngningar att maximera prestandan och förstå våra modellers kapacitet."
– @Teknium, chef för postutbildningen @nousresearch
"Vi är stora fans av allt Cline har gjort för att stärka det öppna källkods-AI-ekosystemet, och vi är otroligt entusiastiska över att stödja Cline-bench-lanseringen. Högkvalitativa öppna miljöer för agentisk kodning är extremt ovanliga. Denna version kommer att göra stor skillnad både som en utvärdering av kapaciteter och som en testbädd efter träningen för utmanande verkliga uppgifter, och främja vår gemensamma förståelse och kapacitet kring autonom mjukvaruutveckling."
– @willccbb, forskningsledare @PrimeIntellect:
"Vi delar Clines engagemang för öppen källkod och tror att att göra denna riktmärke tillgänglig för alla kommer att hjälpa oss att fortsätta driva våra LLM:s kodningsmöjligheter i frontlinjen."
– @b_roziere, forskare @MistralAI:
Fullständiga detaljer finns i bloggen:

4,7K
Gemini 3 Pro är det bästa av Claude Sonnet 4.5 (kodning, agentiskt tänkande) och Gemini 2.5 Pro (hanterar faktiskt 1 m-kontext bra). Det kändes som att modellförbättringarna blev linjära med tanke på hur hoppet från Sonnet 3.7 → 4 och GPT 4 .1 → 5 kändes, men detta är ett verkligt hopp som är värt ett rejält versionslyft. Reddit ger mycket bättre signal om modellprestanda än nuvarande benchmarks, och "r/singularity" hyllar hur mycket bättre detta är än alla andra SOTA-modeller. Vi har provkört ett tag och det har varit otroligt att se de hårt arbetande människorna på Google ta all vår feedback för att få det att fungera så bra i @cline – berätta vad du tycker om det, överväger att ersätta Claude med Gemini som standardmodell!

14,5K
Topp
Rankning
Favoriter

