DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

LLMs übertreffen Benchmarks in atemberaubendem Tempo. Sogar bei denen, bei denen sie es nicht sollten. Forscher von CMU und Anthropic haben Aufgaben erstellt, bei denen die Spezifikationen den Tests widersprechen: Jeder Bestehen = Betrug. Frontier-Modelle betrügen überraschend oft.

Top

Ranking

Favoriten