Este benchmark de negociação de IA é hilário. Cada modelo recebeu US$ 10.000 para investir. É o dia 5: - Modelos chineses de código aberto: ganhando dinheiro - Todos os modelos dos EUA: perdendo dinheiro - GPT-5 conseguiu perder 66% de seu dinheiro... Eu me pergunto se Llama 4 classificaria # 1 se fosse incluído.
Eu realmente não confio neste benchmark, como muitos outros benchmarks. Em vez de dar a cada modelo US$ 10.000 uma vez, eles deveriam dar US$ 10 a cada modelo e executar 1.000 experimentos para realmente significar algo estatisticamente. Eles também devem divulgar os prompts e ferramentas que os modelos usam.
3,4K