Modern LLM'ler geleceği ne kadar iyi tahmin ediyor? ~300 Kalshi tahmin pazarında test yaptılar. Claude Opus 4.5 en iyi performansı gösterdi. Brier Skoru (tahmin olasılıklarının ortalama kare hata ölçütü) ~0.23 olan insan süper tahmincilerinden (0.15-0.2) hâlâ düşük, ancak yaklaşıyor.
Ekim-Kasım 2025 tarihlerini kullandılar. Gemini 3 Pro karşılaştırılmadı ama GPT 5.2 XHigh hayal kırıklığına uğrattı. Kaynak:
(ForecastBench de bunu yapmaya çalışıyor ama bayatlık ve yeni modelleri yok)
277