Ridiculous, że OpenAI twierdziło, że osiągnęło 74,9% w SWE-Bench, tylko po to, aby udowodnić, że są lepsi od Opus 4.1, który miał 74,5%... Uruchamiając to na 477 problemach zamiast pełnych 500. Ich karta systemowa również mówi tylko 74%.
Źródło:
I tak, wiem, że zawsze raportowali na temat mianownika 477, ale to NIE jest „zweryfikowane przez SWE-Bench”, to zupełnie inna metryka, to „podzbiór OpenAI zweryfikowany przez SWE Bench” i tej liczby nie można porównywać.
23,28K