Grok 4 在前沿模型中仍然是 ARC-AGI-2 的最先进技术。 Grok 4 的得分为 15.9%,而 GPT-5 的得分为 9.9%。
ARC Prize
ARC Prize8月8日 01:29
GPT-5 在 ARC-AGI 半私有评估中 GPT-5 * ARC-AGI-1: 65.7%,$0.51/任务 * ARC-AGI-2: 9.9%,$0.73/任务 GPT-5 Mini * ARC-AGI-1: 54.3%,$0.12/任务 * ARC-AGI-2: 4.4%,$0.20/任务 GPT-5 Nano * ARC-AGI-1: 16.5%,$0.03/任务 * ARC-AGI-2: 2.5%,$0.03/任务
478