Jak dobře moderní LLM předpovídají budoucnost? Testovali na ~300 trzích s Kalshi predikcemi. Claude Opus 4.5 si vedl nejlépe. Jeho Brierovo skóre (míra střední čtvercové chyby pravděpodobnosti predikce) ~0,23 je stále mimo lidské superpředpovědi (0,15–0,2), ale blíží se mu.
Použili říjen–listopad 2025. Gemini 3 Pro nebyl srovnáván, ale GPT 5.2 XHigh zklamal. Zdroj:
(ForecastBench je také pokus o to, ale je zastaralý a nemá nové modely)
276