🤖Presentamos OptimalThinkingBench 🤖 📝: - Los LLM pensantes usan muchos tokens y piensan demasiado; los LLM no pensantes piensan mal y rinden por debajo. - Presentamos un punto de referencia que puntúa a los modelos en la búsqueda de la mejor combinación. - OptimalThinkingBench informa la puntuación F1 mezclando OverThinkingBench (consultas simples en 72 dominios) y UnderThinkingBench (11 tareas de razonamiento desafiantes). - ¡Evaluamos 33 modelos SOTA diferentes y encontramos que se necesitan mejoras! 🧵1/5
61.12K