Ik wil erop wijzen dat Kimi K2 voor de taken in de echte wereld (geen benchmarks) beter presteert dan Gemini. Dit is telemetrie voor alle @cline gebruikers, die het mislukte bewerkingspercentage van het verschil laat zien. Merk op dat Kimi een faalpercentage van ongeveer 6% heeft, wat aanzienlijk beter is dan het foutenpercentage van ~ 10% van Gemini. Opmerkelijk genoeg overtrof Kimi zelfs het grootste deel van deze week Claude 4, met een faalpercentage van minder dan 4%!
Paul Gauthier
Paul Gauthier18 jul 2025
Kimi K2 scoorde 59% op de benchmark voor het coderen van aider-polyglotten. Volledig klassement:
In onze interne "Hard" diff bewerkingsbenchmark voor gevallen waarin een frontier model eerder een diff bewerking niet kon uitvoeren (voor onze updates van het diff-algoritme), heeft Kimi Claude 3.5 overtroffen. Het zal interessant zijn om de resultaten van onze "Nightmare Difficulty" benchmarks in de komende weken te zien.
176,65K