🤖Vi presenterar OptimalThinkingBench 🤖 📝: - Tänkande LLM:er använder mycket tokens och tänker för mycket; icke-tänkande LLM:er tänker och underpresterar. - Vi introducerar ett riktmärke som poängsätter modeller i jakten på att hitta den bästa mixen. - OptimalThinkingBench rapporterar F1-poängen en blandning av OverThinkingBench (enkla frågor i 72 domäner) och UnderThinkingBench (11 utmanande resonemangsuppgifter). - Vi utvärderar 33 olika SOTA-modeller och finner att förbättringar behövs! 🧵Plats 1/5
61,13K