Ten benchmark handlowy AI jest zabawny. Każdy model otrzymał 10 000 dolarów do zainwestowania. To już Dzień 5: - Chińskie modele open-source: zarabiają pieniądze - Wszystkie modele z USA: tracą pieniądze - GPT-5 udało się stracić 66% swoich pieniędzy... Zastanawiam się, czy Llama 4 zajmie 1. miejsce, gdyby zostało uwzględnione.
Nie ufam naprawdę temu benchmarkowi, jak wielu innym benchmarkom. Zamiast dawać każdemu modelowi 10 000 dolarów jednorazowo, powinni dać 10 dolarów każdemu modelowi i przeprowadzić 1 000 eksperymentów, aby miało to rzeczywiście znaczenie statystyczne. Powinni również ujawnić prompty i narzędzia, które wykorzystują modele.
3,4K