熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
真是荒謬,OpenAI聲稱在SWE-Bench上達到74.9%,只是為了證明他們超過了Opus 4.1的74.5%……
通過在477個問題上運行,而不是完整的500個。
他們的系統卡上也只顯示74%。

源:
是的,我知道他們一直報告477的分母,但那並不是「SWE-Bench 驗證」,那是完全不同的指標,它是「OpenAI 的 SWE Bench 驗證子集」,這個數字無法進行比較。
23.27K
熱門
排行
收藏