複数の長いドキュメント(~100kトークン)にわたる推論能力のテストを通じて長いコンテキストのパフォーマンスを評価する新しいベンチマークであるArtificial Analysis Long Context Reasoning(AA-LCR)を発表 AA-LCRの焦点は、実際の知識作業と推論タスクを再現し、ドキュメント分析、コードベースの理解、複雑なマルチステップワークフローにまたがる最新のAIアプリケーションに不可欠な機能をテストすることです。 AA-LCRは、~100kの入力トークンを表す複数の現実世界のドキュメントにわたる推論を必要とする100のハードテキストベースの質問です。質問は、答えを直接見つけることができず、複数の情報源から推論する必要があるように設計されており、人間のテストにより、各質問には検索ではなく真の推論が必要であることが検証されます。 重要なポイント: ➤ 今日の主要なモデルは~70%の精度を達成しています:上位3位はOpenAI o3(69%)、xAI Grok 4(68%)、Qwen3 235B 2507 Thinking(67%)です。 ➤ 👀 gpt-oss の結果もすでにあります。120B は o4-mini (高) に近いパフォーマンスを発揮し、モデルのパフォーマンスに関する OpenAI の主張と一致しています。モデルのインテリジェンスインデックスをまもなくフォローアップする予定です。 ➤ 7つのカテゴリのドキュメント(企業レポート、業界レポート、政府相談、学術、法律、マーケティング資料、調査レポート)にまたがる100のハードテキストベースの質問 ➤ 質問ごとに~100Kの入力トークンがあり、このベンチマークでスコアを獲得するには、モデルが最低128Kのコンテキストウィンドウをサポートする必要があります ➤ ベンチマークを実行するための~230ドキュメントにまたがる合計~3Mの一意の入力トークン(出力トークンは通常、モデルによって異なります) ➤ @HuggingFace の🤗データセットへのリンクは以下のとおりです 人工分析知能インデックスに AA-LCR を追加し、バージョン番号を v2.2 にします。Artificial Analysis Intelligence Index v2.2 には、MMLU-Pro、GPQA Diamond、AIME 2025、IFBench、LiveCodeBench、SciCode、AA-LCR が含まれるようになりました。 現在、すべての数字がサイトで更新されています。人工分析知能インデックス v2.2 👇 のモデルを確認する
28.55K