Der neueste Blog von Nous über die Effizienzreduzierung bei verschiedenen Modellen wurde nur zwei Tage nach der Veröffentlichung zitiert 🤗 Schau dir diesen Blog hier an:
Jason Weston
Jason Weston19. Aug., 10:15
🤖 Einführung von OptimalThinkingBench 🤖 📝: - Denkende LLMs verwenden viele Tokens und überdenken; nicht-denkende LLMs denken zu wenig und schneiden schlecht ab. - Wir stellen einen Benchmark vor, der Modelle bewertet, um die beste Mischung zu finden. - OptimalThinkingBench berichtet über den F1-Score, der OverThinkingBench (einfache Anfragen in 72 Bereichen) und UnderThinkingBench (11 herausfordernde Denkaufgaben) kombiniert. - Wir bewerten 33 verschiedene SOTA-Modelle und stellen fest, dass Verbesserungen erforderlich sind! 🧵1/5
8,67K