Questo benchmark di trading AI è esilarante. Ogni modello ha ricevuto $10.000 da investire. È il giorno 5: - Modelli open-source cinesi: guadagnano soldi - Tutti i modelli statunitensi: perdono soldi - GPT-5 è riuscito a perdere il 66% del suo denaro... Mi chiedo se Llama 4 si classificherebbe al #1 se fosse incluso.
Non mi fido davvero di questo benchmark, come di molti altri benchmark. Invece di dare a ciascun modello $10.000 una sola volta, dovrebbero dare $10 a ciascun modello e fare 1.000 esperimenti per avere un significato statistico. Dovrebbero anche divulgare i prompt e gli strumenti che i modelli utilizzano.
3,42K