Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I'd like to point out that for the real world tasks (not benchmarks), Kimi K2 outperforms Gemini.
This is telemetry across all @cline users, showing diff edit failure rate. Notice how Kimi has about a 6% failure rate, which is significantly better than Gemini's ~ 10% error rate.
Remarkably, Kimi even surpassed Claude 4 for most of this week, achieving a sub 4% failure rate!


18 lug 2025
Kimi K2 ha ottenuto il 59% nel benchmark di codifica polyglot di Aider.
Classifica completa:

Nel nostro benchmark interno di editing "Hard" per i casi in cui un modello di frontiera ha precedentemente fallito un'editing diff (prima dei nostri aggiornamenti all'algoritmo diff), Kimi ha superato Claude 3.5.
Sarà interessante vedere i risultati dei nostri benchmark "Nightmare Difficulty" nelle prossime settimane.

176,64K
Principali
Ranking
Preferiti