Ogłaszamy Artificial Analysis Long Context Reasoning (AA-LCR), nowy benchmark do oceny wydajności w długim kontekście poprzez testowanie zdolności rozumowania w wielu długich dokumentach (~100k tokenów) Celem AA-LCR jest odwzorowanie rzeczywistej pracy wiedzy i zadań rozumowania, testując zdolności krytyczne dla nowoczesnych aplikacji AI obejmujących analizę dokumentów, zrozumienie kodu oraz złożone wieloetapowe przepływy pracy. AA-LCR to 100 trudnych pytań opartych na tekście, które wymagają rozumowania w oparciu o wiele rzeczywistych dokumentów reprezentujących ~100k tokenów wejściowych. Pytania są zaprojektowane w taki sposób, aby odpowiedzi nie mogły być bezpośrednio znalezione, lecz muszą być wywnioskowane z wielu źródeł informacji, przy czym testy przeprowadzane przez ludzi weryfikują, że każde pytanie wymaga prawdziwego wnioskowania, a nie tylko wyszukiwania. Kluczowe informacje: ➤ Dzisiejsze wiodące modele osiągają ~70% dokładności: pierwsze trzy miejsca zajmują OpenAI o3 (69%), xAI Grok 4 (68%) oraz Qwen3 235B 2507 Thinking (67%) ➤👀 Mamy już również wyniki gpt-oss! 120B osiąga wyniki bliskie o4-mini (wysokie), zgodnie z twierdzeniami OpenAI dotyczącymi wydajności modeli. Wkrótce przedstawimy Indeks Inteligencji dla modeli. ➤ 100 trudnych pytań opartych na tekście obejmujących 7 kategorii dokumentów (Raporty Firmowe, Raporty Branżowe, Konsultacje Rządowe, Akademia, Prawo, Materiały Marketingowe i Raporty z Badań) ➤ ~100k tokenów wejściowych na pytanie, wymagające od modeli wsparcia dla minimalnego okna kontekstowego 128K, aby uzyskać wynik w tym benchmarku ➤ ~3M unikalnych tokenów wejściowych obejmujących ~230 dokumentów do przeprowadzenia benchmarku (tokeny wyjściowe zazwyczaj różnią się w zależności od modelu) ➤ Link do zestawu danych na 🤗 @HuggingFace znajduje się poniżej Dodajemy AA-LCR do Indeksu Inteligencji Artificial Analysis i podnosimy numer wersji do v2.2. Indeks Inteligencji Artificial Analysis v2.2 teraz obejmuje: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode i AA-LCR. Wszystkie liczby są teraz zaktualizowane na stronie. Sprawdź, które modele znajdują się w Indeksie Inteligencji Artificial Analysis v2.2 👇
28,55K