Nous senaste blogg om gallringseffektivitet över modeller citerades bara två dagar efter att den publicerades 🤗 Kolla in den bloggen här:
Jason Weston
Jason Weston19 aug. 10:15
🤖Vi presenterar OptimalThinkingBench 🤖 📝: - Tänkande LLM:er använder mycket tokens och tänker för mycket; icke-tänkande LLM:er tänker och underpresterar. - Vi introducerar ett riktmärke som poängsätter modeller i jakten på att hitta den bästa mixen. - OptimalThinkingBench rapporterar F1-poängen en blandning av OverThinkingBench (enkla frågor i 72 domäner) och UnderThinkingBench (11 utmanande resonemangsuppgifter). - Vi utvärderar 33 olika SOTA-modeller och finner att förbättringar behövs! 🧵Plats 1/5
8,69K