Анонс Artificial Analysis Long Context Reasoning (AA-LCR), нового тесту для оцінки продуктивності тривалого контексту шляхом тестування можливостей міркування на кількох довгих документах (~100 тис. токенів) Основна увага AA-LCR зосереджена на відтворенні реальних завдань із знаннями та міркуванням, можливостях тестування, критично важливих для сучасних додатків штучного інтелекту, що охоплюють аналіз документів, розуміння кодової бази та складні багатоетапні робочі процеси. AA-LCR — це 100 складних текстових запитань, які вимагають обґрунтування в кількох реальних документах, які представляють ~100 тисяч вхідних токенів. Запитання розроблені таким чином, що відповіді не можуть бути знайдені безпосередньо, а мають бути аргументовані з кількох джерел інформації, а тестування на людях перевіряє, що кожне запитання вимагає справжнього висновку, а не пошуку. Ключові моменти: ➤ Провідні моделі сьогодні досягають точності ~70%: перші три місця займають OpenAI o3 (69%), xAI Grok 4 (68%) та Qwen3 235B 2507 Thinking (67%) 👀 ➤ У нас також вже є результати gpt-oss! 120B працює близько до o4-mini (високий), що відповідає заявам OpenAI щодо продуктивності моделі. Незабаром ми представимо Індекс інтелекту для моделей. ➤ 100 складних текстових запитань, що охоплюють 7 категорій документів (звіти компаній, галузеві звіти, урядові консультації, наукові кола, юридичні, маркетингові матеріали та звіти про опитування) ➤ ~100 тисяч токенів вхідних даних на запитання, що вимагає, щоб моделі підтримували мінімум 128 тисяч контекстного вікна, щоб отримати оцінку за цим тестом ➤ ~3M унікальних вхідних токенів, що охоплюють ~230 документів для запуску тесту (вихідні токени зазвичай варіюються залежно від моделі) ➤ Посилання на набір даних про 🤗 @HuggingFace нижче Ми додаємо AA-LCR до Індексу штучного аналізу інтелекту та переносимо номер версії до версії 2.2. Індекс штучного аналізу інтелекту v2.2 тепер включає: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode та AA-LCR. Зараз на сайті оновлюються всі цифри. Дізнайтеся, які моделі Artificial Analysis Intelligence Index v2.2 👇
28,55K