Seberapa baik LLM modern memprediksi masa depan? Mereka menguji pada ~300 pasar prediksi Kalshi. Claude Opus 4.5 tampil terbaik. Skor Brier-nya (ukuran kesalahan kuadrat rata-rata dari probi prediksi) ~0,23 masih di luar peramal super manusia (0,15-0,2) tetapi mendekatinya.
Mereka menggunakan Oktober-November 2025. Gemini 3 Pro tidak dibandingkan tetapi GPT 5.2 XHigh kecewa. Sumber:
(ForecastBench juga merupakan upaya untuk melakukan ini tetapi sudah basi dan tidak memiliki model baru)
294