bardzo się cieszę, aby zobaczyć, dokąd stąd zmierzamy z modelami OS
pash
pash19 lip 2025
Chciałbym zwrócić uwagę, że w rzeczywistych zadaniach (nie w benchmarkach) Kimi K2 przewyższa Gemini. Jest to telemetria dla wszystkich użytkowników @cline, pokazująca wskaźnik niepowodzeń edycji różnic. Zauważ, że Kimi ma około 6% wskaźnik awaryjności, co jest znacznie lepsze niż wskaźnik błędów Gemini ~ 10%. Co ciekawe, Kimi wyprzedził nawet Claude'a 4 przez większość tego tygodnia, osiągając wskaźnik awaryjności poniżej 4%!
7,58K