Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Ridículo que a OpenAI tenha afirmado 74,9% no SWE-Bench apenas para provar que estavam acima dos 74,5% do Opus 4.1... Executando-o em 477 problemas em vez dos 500 completos. O cartão do sistema deles também diz apenas 74%.

Fonte:

E sim, eu sei que eles sempre relataram sobre o denominador 477, mas isso NÃO é "verificado pelo SWE-Bench", é uma métrica completamente diferente, é "o subconjunto da OpenAI do SWE Bench Verificado" e esse número não pode ser comparado.

23,29K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável