Haluaisin huomauttaa, että todellisissa tehtävissä (ei vertailuarvoissa) Kimi K2 päihittää Kaksoset. Tämä on kaikkien @cline käyttäjien telemetria, joka näyttää vertailun muokkausvirheprosentin. Huomaa, että Kimin epäonnistumisprosentti on noin 6 %, mikä on huomattavasti parempi kuin Geminin ~ 10 % virheprosentti. Huomionarvoista on, että Kimi jopa ohitti Claude 4:n suurimman osan tästä viikosta saavuttaen alle 4 %:n epäonnistumisprosentin!
Paul Gauthier
Paul Gauthier18.7.2025
Kimi K2 scored 59% on the aider polyglot coding benchmark. Full leaderboard:
Sisäisessä "kovassa" vertailun vertailussamme tapauksista, joissa rajamalli epäonnistui aiemmin vertailun muokkauksessa (ennen vertailualgoritmin päivityksiä), Kimi ohitti Claude 3.5:n. On mielenkiintoista nähdä "Nightmare Difficulty" -vertailuarvojemme tulokset seuraavien viikkojen aikana.
176,65K