DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Ik wil erop wijzen dat Kimi K2 voor de taken in de echte wereld (geen benchmarks) beter presteert dan Gemini. Dit is telemetrie voor alle @cline gebruikers, die het mislukte bewerkingspercentage van het verschil laat zien. Merk op dat Kimi een faalpercentage van ongeveer 6% heeft, wat aanzienlijk beter is dan het foutenpercentage van ~ 10% van Gemini. Opmerkelijk genoeg overtrof Kimi zelfs het grootste deel van deze week Claude 4, met een faalpercentage van minder dan 4%!

In onze interne "Hard" diff bewerkingsbenchmark voor gevallen waarin een frontier model eerder een diff bewerking niet kon uitvoeren (voor onze updates van het diff-algoritme), heeft Kimi Claude 3.5 overtroffen. Het zal interessant zijn om de resultaten van onze "Nightmare Difficulty" benchmarks in de komende weken te zien.

176,65K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste