Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Объявляем о запуске Artificial Analysis Long Context Reasoning (AA-LCR) — нового бенчмарка для оценки производительности в условиях длинного контекста, который проверяет способности к рассуждению на основе нескольких длинных документов (~100k токенов).
Основное внимание в AA-LCR уделяется воспроизведению реальной интеллектуальной работы и задач рассуждения, тестируя способности, критически важные для современных AI-приложений, охватывающих анализ документов, понимание кодовой базы и сложные многоступенчатые рабочие процессы.
AA-LCR состоит из 100 сложных текстовых вопросов, которые требуют рассуждения на основе нескольких реальных документов, представляющих ~100k входных токенов. Вопросы разработаны так, чтобы ответы не могли быть найдены напрямую, а должны быть выведены из нескольких источников информации, при этом тестирование людьми подтверждает, что каждый вопрос требует подлинного вывода, а не простого извлечения.
Ключевые выводы:
➤ Современные ведущие модели достигают ~70% точности: три первых места занимают OpenAI o3 (69%), xAI Grok 4 (68%) и Qwen3 235B 2507 Thinking (67%)
➤👀 У нас также уже есть результаты gpt-oss! 120B показывает результаты, близкие к o4-mini (высокие), что соответствует заявлениям OpenAI о производительности модели. Вскоре мы предоставим Индекс Интеллекта для моделей.
➤ 100 сложных текстовых вопросов, охватывающих 7 категорий документов (Отчеты компаний, Отраслевые отчеты, Государственные консультации, Академия, Юридические документы, Маркетинговые материалы и Отчеты опросов)
➤ ~100k токенов входа на вопрос, что требует от моделей поддержки минимального контекстного окна в 128K для оценки по этому бенчмарку
➤ ~3M уникальных входных токенов, охватывающих ~230 документов для проведения бенчмарка (выходные токены обычно варьируются в зависимости от модели)
➤ Ссылка на набор данных на 🤗 @HuggingFace приведена ниже
Мы добавляем AA-LCR в Индекс Интеллекта Artificial Analysis и обновляем номер версии до v2.2. Индекс Интеллекта Artificial Analysis v2.2 теперь включает: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode и AA-LCR.
Все цифры обновлены на сайте. Узнайте, какие модели входят в Индекс Интеллекта Artificial Analysis v2.2 👇

28,56K
Топ
Рейтинг
Избранное