Annuncio dell'Artificial Analysis Long Context Reasoning (AA-LCR), un nuovo benchmark per valutare le prestazioni su contesti lunghi attraverso il test delle capacità di ragionamento su più documenti lunghi (~100k token) L'obiettivo di AA-LCR è replicare il lavoro reale di conoscenza e i compiti di ragionamento, testando capacità critiche per le moderne applicazioni di intelligenza artificiale che spaziano dall'analisi dei documenti, alla comprensione del codice, e ai complessi flussi di lavoro multi-step. AA-LCR consiste in 100 domande difficili basate su testo che richiedono ragionamento attraverso più documenti reali che rappresentano ~100k token di input. Le domande sono progettate in modo che le risposte non possano essere trovate direttamente, ma debbano essere dedotte da più fonti di informazione, con test umani che verificano che ogni domanda richieda una vera inferenza piuttosto che un recupero. Punti chiave: ➤ I modelli leader di oggi raggiungono un'accuratezza di ~70%: i primi tre posti vanno a OpenAI o3 (69%), xAI Grok 4 (68%) e Qwen3 235B 2507 Thinking (67%) ➤👀 Abbiamo già i risultati di gpt-oss! 120B si comporta vicino a o4-mini (alto), in linea con le affermazioni di OpenAI riguardo le prestazioni del modello. Seguirà a breve un Intelligence Index per i modelli. ➤ 100 domande difficili basate su testo che coprono 7 categorie di documenti (Relazioni Aziendali, Relazioni di Settore, Consultazioni Governative, Accademia, Legale, Materiali di Marketing e Relazioni di Indagine) ➤ ~100k token di input per domanda, richiedendo ai modelli di supportare una finestra di contesto minima di 128K per ottenere punteggi su questo benchmark ➤ ~3M di token di input unici totali che coprono ~230 documenti per eseguire il benchmark (i token di output variano tipicamente in base al modello) ➤ Il link al dataset su 🤗 @HuggingFace è qui sotto Stiamo aggiungendo AA-LCR all'Artificial Analysis Intelligence Index, e portando il numero di versione a v2.2. L'Artificial Analysis Intelligence Index v2.2 ora include: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode e AA-LCR. Tutti i numeri sono aggiornati sul sito ora. Scopri quali modelli sono inclusi nell'Artificial Analysis Intelligence Index v2.2 👇
28,55K