🤖Apresentando o OptimalThinkingBench 🤖 📝: - LLMs que pensam usam muitos tokens e pensam demais; LLMs que não pensam pensam de menos e têm um desempenho inferior. - Introduzimos um benchmark que pontua modelos na busca pela melhor combinação. - O OptimalThinkingBench reporta a pontuação F1 misturando o OverThinkingBench (consultas simples em 72 domínios) e o UnderThinkingBench (11 tarefas desafiadoras de raciocínio). - Avaliamos 33 modelos SOTA diferentes e descobrimos que melhorias são necessárias! 🧵1/5
61,14K