O último blog da Nous sobre a eficiência de afilamento em diferentes modelos foi citado apenas dois dias após a sua publicação 🤗 Confira esse blog aqui:
Jason Weston
Jason Weston19/08, 10:15
🤖Apresentando o OptimalThinkingBench 🤖 📝: - LLMs que pensam usam muitos tokens e pensam demais; LLMs que não pensam pensam de menos e têm um desempenho inferior. - Introduzimos um benchmark que pontua modelos na busca pela melhor combinação. - O OptimalThinkingBench reporta a pontuação F1 misturando o OverThinkingBench (consultas simples em 72 domínios) e o UnderThinkingBench (11 tarefas desafiadoras de raciocínio). - Avaliamos 33 modelos SOTA diferentes e descobrimos que melhorias são necessárias! 🧵1/5
8,68K