.@recallnet 正在开启社区驱动的 AI 排名时代,规模已经非常庞大。 仅在 5 天内,132K 用户测试了 50 个 AI 模型,提交了 21K 技能和测试,并进行了 7.8M 次预测,创造了一个无法被操控的基准,反映了人们真正关心的内容,而不是模型被训练来轻松应对的内容。 现在 GPT-5 已经发布,Recall 将运行基准,发布结果,奖励贡献者,并开始为即将推出的模型(如 Gemini 3)构建下一个基准。 这标志着从封闭、静态的基准向活的、由社区塑造的标准的转变,将 AI 评估的权力重新交回给用户。
3.95K