Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aankondiging van Artificial Analysis Long Context Reasoning (AA-LCR), een nieuwe benchmark om de prestaties op lange context te evalueren door de redeneervaardigheden te testen over meerdere lange documenten (~100k tokens)
De focus van AA-LCR is om echt kenniswerk en redeneeropdrachten te repliceren, waarbij de capaciteit wordt getest die cruciaal is voor moderne AI-toepassingen die documentanalyse, codebase-begrip en complexe multi-stap workflows bestrijken.
AA-LCR bestaat uit 100 moeilijke tekstgebaseerde vragen die redeneervaardigheden vereisen over meerdere echte documenten die ~100k invoertokens vertegenwoordigen. Vragen zijn zo ontworpen dat antwoorden niet direct kunnen worden gevonden, maar moeten worden afgeleid uit meerdere informatiebronnen, waarbij menselijke tests verifiëren dat elke vraag echte inferentie vereist in plaats van retrieval.
Belangrijke punten:
➤ De huidige toonaangevende modellen behalen ~70% nauwkeurigheid: de top drie plaatsen gaan naar OpenAI o3 (69%), xAI Grok 4 (68%) en Qwen3 235B 2507 Thinking (67%)
➤👀 We hebben ook al gpt-oss resultaten! 120B presteert dicht bij o4-mini (hoog), in lijn met de claims van OpenAI over modelprestaties. We zullen binnenkort een Intelligence Index voor de modellen volgen.
➤ 100 moeilijke tekstgebaseerde vragen die 7 categorieën van documenten bestrijken (Bedrijfsrapporten, Sectorrapporten, Overheidsconsultaties, Academisch, Juridisch, Marketingmateriaal en Enquêteverslagen)
➤ ~100k tokens invoer per vraag, waarbij modellen een minimum van 128K contextvenster moeten ondersteunen om op deze benchmark te scoren
➤ ~3M totale unieke invoertokens die ~230 documenten beslaan om de benchmark uit te voeren (uitvoertokens variëren doorgaans per model)
➤ Link naar dataset op 🤗 @HuggingFace is hieronder
We voegen AA-LCR toe aan de Artificial Analysis Intelligence Index en verhogen het versienummer naar v2.2. Artificial Analysis Intelligence Index v2.2 omvat nu: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode en AA-LCR.
Alle cijfers zijn nu bijgewerkt op de site. Ontdek welke modellen de Artificial Analysis Intelligence Index v2.2 👇

28,55K
Boven
Positie
Favorieten