Construímos o ProfBench para elevar o nível dos LLMs - literalmente. Na @NVIDIA, trabalhamos com especialistas de domínio para criar um benchmark que vai muito além de curiosidades e respostas curtas. O ProfBench testa LLMs em tarefas complexas e de várias etapas que exigem o tipo de raciocínio, síntese e clareza que você esperaria de um físico PhD ou consultor de MBA. 🌎 Isso não é apenas uma queda no conjunto de dados. É uma colaboração global: 38 profissionais em 8 países contribuíram com mais de 7.000 rubricas escritas por especialistas em MBA 💵 em finanças, MBA 📊 em consultoria, doutorado 🧪em química e doutorado em 🚀 física. 🧗Cada prompt e rubrica de classificação foi feita à mão, exigindo dezenas de horas de trabalho dedicado e focado. Agora totalmente compatível com o NeMo Evaluator SDK, o ProfBench permite avaliações reproduzíveis baseadas em rubricas e comparações de modelos lado a lado. 🔗 ProfBench em @HuggingFace 🔗 SDK do Avaliador NeMo Estou muito orgulhoso da equipe que fez isso acontecer. Vamos continuar empurrando o que a IA pode fazer. Trabalho realizado com @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC