Anunciando o Raciocínio de Contexto Longo de Análise Artificial (AA-LCR), um novo benchmark para avaliar o desempenho de contexto longo por meio de recursos de raciocínio de teste em vários documentos longos (~ 100 mil tokens) O foco do AA-LCR é replicar o trabalho de conhecimento real e tarefas de raciocínio, testando a capacidade crítica para aplicativos modernos de IA, abrangendo análise de documentos, compreensão de base de código e fluxos de trabalho complexos de várias etapas. AA-LCR são 100 perguntas difíceis baseadas em texto que exigem raciocínio em vários documentos do mundo real que representam ~ 100 mil tokens de entrada. As perguntas são projetadas para que as respostas não possam ser encontradas diretamente, mas devem ser fundamentadas a partir de várias fontes de informação, com testes em humanos verificando se cada pergunta requer inferência genuína em vez de recuperação. Principais conclusões: ➤ Os principais modelos de hoje atingem ~ 70% de precisão: os três primeiros lugares vão para OpenAI o3 (69%), xAI Grok 4 (68%) e Qwen3 235B 2507 Thinking (67%) 👀 ➤ Também já temos resultados gpt-oss! O 120B tem um desempenho próximo ao o4-mini (alto), em linha com as afirmações da OpenAI em relação ao desempenho do modelo. Estaremos acompanhando em breve com um Índice de Inteligência para os modelos. ➤ 100 perguntas baseadas em texto rígido abrangendo 7 categorias de documentos (Relatórios da Empresa, Relatórios do Setor, Consultas Governamentais, Academia, Jurídico, Materiais de Marketing e Relatórios de Pesquisa) ➤ ~ 100 mil tokens de entrada por pergunta, exigindo que os modelos suportem uma janela de contexto mínima de 128 mil para pontuar neste benchmark ➤ ~ 3 milhões de tokens de entrada exclusivos no total, abrangendo ~ 230 documentos para executar o benchmark (os tokens de saída geralmente variam de acordo com o modelo) ➤ O link para o conjunto de dados no 🤗 @HuggingFace está abaixo Estamos adicionando AA-LCR ao Índice de Inteligência de Análise Artificial e levando o número da versão para a v2.2. O Índice de Inteligência de Análise Artificial v2.2 agora inclui: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode e AA-LCR. Todos os números estão atualizados no site agora. Descubra quais modelos Índice de Inteligência de Análise Artificial v2.2 👇
28,56K