Anunciando a Análise Artificial de Raciocínio de Longo Contexto (AA-LCR), um novo benchmark para avaliar o desempenho em contextos longos através da testagem das capacidades de raciocínio em múltiplos documentos longos (~100k tokens) O foco da AA-LCR é replicar o trabalho real de conhecimento e tarefas de raciocínio, testando capacidades críticas para aplicações modernas de IA que abrangem análise de documentos, compreensão de bases de código e fluxos de trabalho complexos de múltiplos passos. AA-LCR consiste em 100 perguntas difíceis baseadas em texto que requerem raciocínio através de múltiplos documentos do mundo real que representam ~100k tokens de entrada. As perguntas são projetadas de forma que as respostas não possam ser encontradas diretamente, mas devem ser inferidas a partir de múltiplas fontes de informação, com testes humanos verificando que cada pergunta requer uma inferência genuína em vez de recuperação. Principais conclusões: ➤ Os modelos líderes de hoje alcançam ~70% de precisão: os três primeiros lugares vão para OpenAI o3 (69%), xAI Grok 4 (68%) e Qwen3 235B 2507 Thinking (67%) ➤👀 Também já temos resultados do gpt-oss! 120B apresenta desempenho próximo ao o4-mini (alto), alinhado com as alegações da OpenAI sobre o desempenho do modelo. Em breve, seguiremos com um Índice de Inteligência para os modelos. ➤ 100 perguntas difíceis baseadas em texto abrangendo 7 categorias de documentos (Relatórios de Empresas, Relatórios da Indústria, Consultas Governamentais, Academia, Legal, Materiais de Marketing e Relatórios de Pesquisa) ➤ ~100k tokens de entrada por pergunta, exigindo que os modelos suportem uma janela de contexto mínima de 128K para pontuar neste benchmark ➤ ~3M de tokens de entrada únicos abrangendo ~230 documentos para executar o benchmark (os tokens de saída geralmente variam por modelo) ➤ O link para o conjunto de dados no 🤗 @HuggingFace está abaixo Estamos adicionando a AA-LCR ao Índice de Inteligência da Análise Artificial, e elevando o número da versão para v2.2. O Índice de Inteligência da Análise Artificial v2.2 agora inclui: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode e AA-LCR. Todos os números estão atualizados no site agora. Descubra quais modelos estão no Índice de Inteligência da Análise Artificial v2.2 👇
28,56K