Hur väl förutspår moderna LLM:er framtiden? De testade på ~300 Kalshi-prognosmarknader. Claude Opus 4.5 presterade bäst. Dess Brier-poäng (ett mått på medelkvadratfel för prediktionssannolikheter) på ~0,23 ligger fortfarande under mänskliga superprognostiker (0,15–0,2) men närmar sig den.
De använde oktober–november 2025. Gemini 3 Pro jämfördes inte men GPT 5.2 XHigh gjorde en besvikelse. Källa:
(ForecastBench är också ett försök att göra detta men är utdaterat och har inte de nya modellerna)
304