I'd like to point out that for the real world tasks (not benchmarks), Kimi K2 outperforms Gemini. This is telemetry across all @cline users, showing diff edit failure rate. Notice how Kimi has about a 6% failure rate, which is significantly better than Gemini's ~ 10% error rate. Remarkably, Kimi even surpassed Claude 4 for most of this week, achieving a sub 4% failure rate!
Paul Gauthier
Paul Gauthier18 lug 2025
Kimi K2 ha ottenuto il 59% nel benchmark di codifica polyglot di Aider. Classifica completa:
Nel nostro benchmark interno di editing "Hard" per i casi in cui un modello di frontiera ha precedentemente fallito un'editing diff (prima dei nostri aggiornamenti all'algoritmo diff), Kimi ha superato Claude 3.5. Sarà interessante vedere i risultati dei nostri benchmark "Nightmare Difficulty" nelle prossime settimane.
176,64K