Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Me gustaría señalar que para las tareas del mundo real (no los puntos de referencia), Kimi K2 supera a Gemini.
Se trata de telemetría en todos los usuarios @cline, que muestra la tasa de errores de edición de diferencias. Observe cómo Kimi tiene una tasa de falla de aproximadamente el 6%, que es significativamente mejor que la tasa de error de ~ 10% de Gemini.
Sorprendentemente, Kimi incluso superó a Claude 4 durante la mayor parte de esta semana, ¡logrando una tasa de fracaso inferior al 4%!

En nuestro benchmark interno de edición de "Hard" diff para casos donde un modelo frontera falló previamente en una edición diff (antes de nuestras actualizaciones del algoritmo diff), Kimi superó a Claude 3.5.
Será interesante ver los resultados de nuestros benchmarks de "Dificultad Pesadilla" en las próximas semanas.

176,65K
Parte superior
Clasificación
Favoritos