DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Hur väl förutspår moderna LLM:er framtiden? De testade på ~300 Kalshi-prognosmarknader. Claude Opus 4.5 presterade bäst. Dess Brier-poäng (ett mått på medelkvadratfel för prediktionssannolikheter) på ~0,23 ligger fortfarande under mänskliga superprognostiker (0,15–0,2) men närmar sig den.

De använde oktober–november 2025. Gemini 3 Pro jämfördes inte men GPT 5.2 XHigh gjorde en besvikelse. Källa:

(ForecastBench är också ett försök att göra detta men är utdaterat och har inte de nya modellerna)

304

Topp

Rankning

Favoriter