très excité de voir où nous allons à partir d'ici avec les modèles OS
pash
pash19 juil. 2025
Je tiens à souligner que pour les tâches du monde réel (pas les benchmarks), Kimi K2 surpasse Gemini. Il s’agit de la télémétrie pour tous les utilisateurs @cline, montrant le taux d’échec de la modification des différences. Remarquez que Kimi a un taux d’échec d’environ 6 %, ce qui est nettement mieux que le taux d’erreur de ~ 10 % de Gemini. Remarquablement, Kimi a même dépassé Claude 4 pendant la majeure partie de cette semaine, atteignant un taux d’échec inférieur à 4 % !
7,59K