一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

宣布人工分析長文推理（AA-LCR），這是一個新的基準，用於通過測試多個長文檔中的推理能力來評估長文檔性能（約100k個標記） AA-LCR的重點是複製真實的知識工作和推理任務，測試對於現代AI應用至關重要的能力，涵蓋文檔分析、代碼庫理解和複雜的多步工作流程。 AA-LCR包含100個基於文本的困難問題，這些問題需要在多個現實世界文檔中進行推理，代表約100k個輸入標記。問題的設計使得答案無法直接找到，而必須從多個信息來源中推理出來，並且人類測試驗證每個問題都需要真正的推斷，而不是檢索。關鍵要點： ➤ 當前領先的模型達到約70%的準確率：前三名分別是OpenAI o3（69%）、xAI Grok 4（68%）和Qwen3 235B 2507 Thinking（67%） ➤👀 我們也已經有gpt-oss的結果！120B的表現接近o4-mini（高），與OpenAI關於模型性能的聲明一致。我們將很快跟進模型的智能指數。 ➤ 100個基於文本的困難問題，涵蓋7類文檔（公司報告、行業報告、政府諮詢、學術界、法律、營銷材料和調查報告） ➤ 每個問題約100k個輸入標記，要求模型支持至少128K的上下文窗口才能在此基準上得分 ➤ 約300萬個獨特的輸入標記，涵蓋約230個文檔以運行基準（輸出標記通常因模型而異） ➤ 下面是🤗 @HuggingFace上的數據集鏈接我們將AA-LCR添加到人工分析智能指數中，並將版本號提升至v2.2。人工分析智能指數v2.2現在包括：MMLU-Pro、GPQA Diamond、AIME 2025、IFBench、LiveCodeBench、SciCode和AA-LCR。所有數字現在已在網站上更新。查看哪些模型在人工分析智能指數v2.2中表現良好👇

28.55K