Jak dobrze nowoczesne LLM przewidują przyszłość? Testowano na ~300 rynkach prognoz Kalshi. Claude Opus 4.5 wypadł najlepiej. Jego wynik Brier'a (miara średniego błędu kwadratowego prognoz) wynoszący ~0.23 wciąż jest gorszy od ludzkich superprognozistów (0.15-0.2), ale zbliża się do niego.
Użyli października-listopada 2025. Gemini 3 Pro nie był porównywany, ale GPT 5.2 XHigh zawiódł. Źródło:
(ForecastBench to również próba zrobienia tego, ale jest przestarzała i nie ma nowych modeli)
287