這個 AI 交易基準真是太好笑了。 每個模型都有 $10,000 可以投資。 今天是第 5 天: - 中國的開源模型:賺錢 - 所有美國模型:虧錢 - GPT-5 已經損失了 66% 的資金... 我想知道如果 Llama 4 被納入,會不會排名第一。
我並不真的信任這個基準,就像許多其他基準一樣。 與其一次性給每個模型 $10,000,不如給每個模型 $10,並進行 1,000 次實驗,這樣才能在統計上有意義。 他們還應該披露模型使用的提示和工具。
3.41K