Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Saoud Rizwan
Koodausagentit kamppailevat monimutkaisten töiden kanssa suurissa ja sotkuisissa repoissa, eikä tilanne parane ennen kuin lopetamme kyllästyneiden testien käytön testeillä, jotka eivät näytä lainkaan aidolta insinöörityöltä.
Siksi sitoudumme 1 miljoonan dollarin rahoituksen cline-benchiin, avoimeen vertailukohtaamme todellisiin koodaustehtäviin!

pash21.11. klo 03.54
Julkistamme cline-benchin, todellisen avoimen lähdekoodin mittarin agenttikoodaukseen.
Cline-Bench on rakennettu osallistuvien kehittäjien todellisista insinööritehtävistä, joissa Frontier-mallit epäonnistuivat ja ihmisten piti puuttua peliin.
Jokainen hyväksytty tehtävä muuttuu täysin toistettaviksi RL-ympäristöksi, jossa on aloitusrepon tilannekuva, todellinen kehote ja lopulta toimitetun koodin totuustestit.
Laboratorioille ja tutkijoille tämä tarkoittaa:
> voit arvioida malleja aidosta insinöörityöstä, et leetcode-pulmista.
> saat ympäristöjä, jotka ovat yhteensopivia Harborin ja modernien arviointityökalujen kanssa rinnakkain vertailua varten.
> voit käyttää samoja tehtäviä SFT:ssä ja RL:ssä, jotta koulutus ja arviointi pysyvät oikeissa insinöörityönkuluissa.
Tänään avaamme lahjoitukset ja aloitamme tehtävien keräämisen Cline Providerin kautta. Osallistuminen on vapaaehtoista ja rajoitettu avoimen lähdekoodin repoihin.
Kun vaikea tehtävä pysäyttää mallin ja sinä puutut asiaan, epäonnistuminen voidaan muuttaa standardoiduksi ympäristöksi, jossa koko yhteisö voi tutkia, vertailla ja harjoitella.
Jos työskentelet vaikeiden avoimen lähdekoodin ongelmien parissa, erityisesti kaupallisten käyttöjärjestelmien parissa, haluaisin henkilökohtaisesti kutsua sinut auttamaan. Sitoudumme 1 miljoonan dollarin rahoitukseen, jotta avoimen lähdekoodin ylläpitäjät voivat osallistua cline-bench-hankkeeseen.
"Cline-bench on erinomainen esimerkki siitä, miten avoimet, todelliset vertailuarvot voivat viedä koko ekosysteemiä eteenpäin. Korkealaatuiset, varmennetut koodaustehtävät, jotka perustuvat todellisiin kehittäjätyönkulkuihin, ovat juuri sitä, mitä tarvitsemme merkittävään rajamallien mittaamiseen, vikatilanteiden paljastamiseen ja huipputeknologian kehittämiseen."
– @shyamalanadkat, sovellettujen arviointien johtaja @OpenAI
"Nous Research keskittyy kouluttamaan ja lisäämään malleja, jotka menestyvät todellisissa tehtävissä. Cline-Bench tulee olemaan olennainen työkalu pyrkimyksissämme maksimoida suorituskyky ja ymmärtää malliemme kyvykkyydet."
– @Teknium, Post Training @nousresearch -osaston johtaja
"Olemme suuria faneja kaikelle, mitä Cline on tehnyt vahvistaakseen avoimen lähdekoodin tekoälyekosysteemiä, ja olemme erittäin innoissamme tukemassa cline-bench-julkaisua. Korkealaatuiset avoimet ympäristöt agenttikoodaukseen ovat erittäin harvinaisia. Tämä julkaisu tulee olemaan merkittävä sekä kyvykkyyksien arviointina että koulutuksen jälkeisenä testialustana haastaville todellisille tehtäville, edistäen yhteistä ymmärrystämme ja kyvykkyyttämme autonomisen ohjelmistokehityksen ympärillä."
– @willccbb, tutkimusvetäjä @PrimeIntellect:
"Jaamme Clinen sitoutumisen avoimeen lähdekoodiin ja uskomme, että tämän vertailun saatavuus kaikille auttaa meitä jatkamaan LLM-koodien raja-ominaisuuksien kehittämistä."
– @b_roziere, tutkija @MistralAI:
Täydelliset tiedot löytyvät blogista:

4,7K
Gemini 3 Pro on Claude Sonnet 4.5:n (koodaus, agenttinen ajattelu) ja Gemini 2.5 Pro (käsittelee 1m kontekstia hyvin) parasta. Tuntui siltä, että mallin parannukset muuttuivat lineaarisiksi, kun hyppy Sonnet 3.7 → 4:stä ja GPT 4.1:stä → 5:een tuntui, mutta tämä on todellinen harppaus, joka ansaitsee merkittävän version parannuksen. Reddit antaa paljon paremman viestin mallin suorituskyvystä kuin nykyiset benchmarkit, ja "r/singularity" hehkuttaa, kuinka paljon parempi tämä on kuin mikään muu SOTA-malli. Olemme koeajaneet jo jonkin aikaa, ja on ollut uskomatonta nähdä, kuinka Googlen ahkerat ihmiset ottavat kaiken palautteemme vastaan saadakseen sen toimimaan näin hyvin @cline – kerro meille, mitä pidät siitä, kun harkitset Clauden vaihtamista Geminiin oletusmallina!

14,5K
Johtavat
Rankkaus
Suosikit

