Я хотел бы отметить, что для реальных задач (а не для бенчмарков) Kimi K2 превосходит Gemini. Это данные телеметрии по всем @cline пользователям, показывающие частоту неудачных ошибок при редактировании различий. Обратите внимание, что у Kimi частота ошибок составляет около 6%, что значительно лучше, чем у Gemini ~ 10% ошибок. Примечательно, что Кими даже превзошел Клода 4 на протяжении большей части этой недели, достигнув процента неудач менее 4%!
Paul Gauthier
Paul Gauthier18 июл. 2025 г.
Kimi K2 scored 59% on the aider polyglot coding benchmark. Full leaderboard:
В нашем внутреннем бенчмарке редактирования "Hard" diff для случаев, когда модель frontier ранее не справлялась с редактированием diff (до обновлений нашего алгоритма diff), Кими превзошла Claude 3.5. Будет интересно увидеть результаты наших бенчмарков "Nightmare Difficulty" в ближайшие несколько недель.
176,65K