Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anunciando el Análisis Artificial de Razonamiento de Largo Contexto (AA-LCR), un nuevo estándar para evaluar el rendimiento en contextos largos a través de pruebas de capacidades de razonamiento en múltiples documentos largos (~100k tokens)
El enfoque de AA-LCR es replicar el trabajo de conocimiento real y las tareas de razonamiento, probando capacidades críticas para las aplicaciones modernas de IA que abarcan el análisis de documentos, la comprensión de bases de código y flujos de trabajo complejos de múltiples pasos.
AA-LCR consiste en 100 preguntas difíciles basadas en texto que requieren razonamiento a través de múltiples documentos del mundo real que representan ~100k tokens de entrada. Las preguntas están diseñadas de tal manera que las respuestas no se pueden encontrar directamente, sino que deben ser razonadas a partir de múltiples fuentes de información, con pruebas humanas que verifican que cada pregunta requiere una inferencia genuina en lugar de recuperación.
Puntos clave:
➤ Los modelos líderes de hoy logran ~70% de precisión: los tres primeros lugares son para OpenAI o3 (69%), xAI Grok 4 (68%) y Qwen3 235B 2507 Thinking (67%)
➤👀 ¡También ya tenemos resultados de gpt-oss! 120B se desempeña cerca de o4-mini (alto), en línea con las afirmaciones de OpenAI sobre el rendimiento del modelo. Pronto seguiremos con un Índice de Inteligencia para los modelos.
➤ 100 preguntas difíciles basadas en texto que abarcan 7 categorías de documentos (Informes de Empresas, Informes de la Industria, Consultas Gubernamentales, Academia, Legal, Materiales de Marketing e Informes de Encuestas)
➤ ~100k tokens de entrada por pregunta, requiriendo que los modelos soporten una ventana de contexto mínima de 128K para puntuar en este estándar
➤ ~3M de tokens de entrada únicos en ~230 documentos para ejecutar el estándar (los tokens de salida varían típicamente según el modelo)
➤ El enlace al conjunto de datos en 🤗 @HuggingFace está abajo
Estamos añadiendo AA-LCR al Índice de Inteligencia de Análisis Artificial, y llevando el número de versión a v2.2. El Índice de Inteligencia de Análisis Artificial v2.2 ahora incluye: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode y AA-LCR.
Todos los números están actualizados en el sitio ahora. Descubre qué modelos incluye el Índice de Inteligencia de Análisis Artificial v2.2 👇

28.55K
Populares
Ranking
Favoritas