Wie schneidet GPT-5 im Vergleich zu Claude Opus 4.1 bei agentischen Aufgaben ab? Seit ihrer Veröffentlichung haben wir diese Modelle bei herausfordernden Aufgaben in den Bereichen Wissenschaft, Web, Service und Programmierung bewertet. Hauptresultat: Obwohl kosteneffektiv, hat GPT-5 bisher nie die agentischen Bestenlisten angeführt. Weitere Bewertungen 🧵
Viele dieser Ergebnisse haben uns überrascht, und wir planen, sie näher zu untersuchen. Aber die Trends in diesen Benchmarks bestätigen, dass GPT-5 kein Schrittwechsel ist und nicht besser ist als die anderen Modelle von OpenAI. Aber es glänzt im Kosten-Genauigkeits-Verhältnis – oft ist es viel günstiger als vergleichbare Modelle.
56,62K