Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ogłaszamy Artificial Analysis Long Context Reasoning (AA-LCR), nowy benchmark do oceny wydajności w długim kontekście poprzez testowanie zdolności rozumowania w wielu długich dokumentach (~100k tokenów)
Celem AA-LCR jest odwzorowanie rzeczywistej pracy wiedzy i zadań rozumowania, testując zdolności krytyczne dla nowoczesnych aplikacji AI obejmujących analizę dokumentów, zrozumienie kodu oraz złożone wieloetapowe przepływy pracy.
AA-LCR to 100 trudnych pytań opartych na tekście, które wymagają rozumowania w oparciu o wiele rzeczywistych dokumentów reprezentujących ~100k tokenów wejściowych. Pytania są zaprojektowane w taki sposób, aby odpowiedzi nie mogły być bezpośrednio znalezione, lecz muszą być wywnioskowane z wielu źródeł informacji, przy czym testy przeprowadzane przez ludzi weryfikują, że każde pytanie wymaga prawdziwego wnioskowania, a nie tylko wyszukiwania.
Kluczowe informacje:
➤ Dzisiejsze wiodące modele osiągają ~70% dokładności: pierwsze trzy miejsca zajmują OpenAI o3 (69%), xAI Grok 4 (68%) oraz Qwen3 235B 2507 Thinking (67%)
➤👀 Mamy już również wyniki gpt-oss! 120B osiąga wyniki bliskie o4-mini (wysokie), zgodnie z twierdzeniami OpenAI dotyczącymi wydajności modeli. Wkrótce przedstawimy Indeks Inteligencji dla modeli.
➤ 100 trudnych pytań opartych na tekście obejmujących 7 kategorii dokumentów (Raporty Firmowe, Raporty Branżowe, Konsultacje Rządowe, Akademia, Prawo, Materiały Marketingowe i Raporty z Badań)
➤ ~100k tokenów wejściowych na pytanie, wymagające od modeli wsparcia dla minimalnego okna kontekstowego 128K, aby uzyskać wynik w tym benchmarku
➤ ~3M unikalnych tokenów wejściowych obejmujących ~230 dokumentów do przeprowadzenia benchmarku (tokeny wyjściowe zazwyczaj różnią się w zależności od modelu)
➤ Link do zestawu danych na 🤗 @HuggingFace znajduje się poniżej
Dodajemy AA-LCR do Indeksu Inteligencji Artificial Analysis i podnosimy numer wersji do v2.2. Indeks Inteligencji Artificial Analysis v2.2 teraz obejmuje: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode i AA-LCR.
Wszystkie liczby są teraz zaktualizowane na stronie. Sprawdź, które modele znajdują się w Indeksie Inteligencji Artificial Analysis v2.2 👇

28,55K
Najlepsze
Ranking
Ulubione