Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chciałbym zwrócić uwagę, że w rzeczywistych zadaniach (nie w benchmarkach) Kimi K2 przewyższa Gemini.
Jest to telemetria dla wszystkich użytkowników @cline, pokazująca wskaźnik niepowodzeń edycji różnic. Zauważ, że Kimi ma około 6% wskaźnik awaryjności, co jest znacznie lepsze niż wskaźnik błędów Gemini ~ 10%.
Co ciekawe, Kimi wyprzedził nawet Claude'a 4 przez większość tego tygodnia, osiągając wskaźnik awaryjności poniżej 4%!


18 lip 2025
Kimi K2 uzyskał 59% punktów w teście porównawczym kodowania poliglotowego.
Pełna klasyfikacja:

W naszym wewnętrznym benchmarku edycji "Hard" diff dla przypadków, w których model frontier wcześniej nie poradził sobie z edycją diff (przed aktualizacjami naszego algorytmu diff), Kimi przewyższył Claude 3.5.
Będzie interesujące zobaczyć wyniki naszych benchmarków "Nightmare Difficulty" w ciągu najbliższych kilku tygodni.

176,64K
Najlepsze
Ranking
Ulubione