Gostaria de salientar que, para as tarefas do mundo real (não benchmarks), Kimi K2 supera Gemini. Trata-se de uma telemetria em todos os @cline usuários, mostrando a taxa de falha de edição de diferenciação. Observe como Kimi tem cerca de 6% de taxa de falha, o que é significativamente melhor do que a taxa de erro de ~ 10% de Gêmeos. Notavelmente, Kimi até ultrapassou Claude 4 durante a maior parte desta semana, alcançando uma taxa de falha inferior a 4%!
Paul Gauthier
Paul Gauthier18/07/2025
Kimi K2 scored 59% on the aider polyglot coding benchmark. Full leaderboard:
No nosso benchmark interno de edição de "Hard" diff para casos em que um modelo de fronteira anteriormente falhou numa edição de diff (antes das nossas atualizações do algoritmo de diff), Kimi superou Claude 3.5. Vai ser interessante ver os resultados dos nossos benchmarks de "Dificuldade Pesadelo" nas próximas semanas.
176,65K