Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Construímos o ProfBench para elevar o nível dos LLMs - literalmente.
Na @NVIDIA, trabalhamos com especialistas de domínio para criar um benchmark que vai muito além de curiosidades e respostas curtas.
O ProfBench testa LLMs em tarefas complexas e de várias etapas que exigem o tipo de raciocínio, síntese e clareza que você esperaria de um físico PhD ou consultor de MBA.
🌎 Isso não é apenas uma queda no conjunto de dados. É uma colaboração global: 38 profissionais em 8 países contribuíram com mais de 7.000 rubricas escritas por especialistas em MBA 💵 em finanças, MBA 📊 em consultoria, doutorado 🧪em química e doutorado em 🚀 física.
🧗Cada prompt e rubrica de classificação foi feita à mão, exigindo dezenas de horas de trabalho dedicado e focado.
Agora totalmente compatível com o NeMo Evaluator SDK, o ProfBench permite avaliações reproduzíveis baseadas em rubricas e comparações de modelos lado a lado.
🔗 ProfBench em @HuggingFace
🔗 SDK do Avaliador NeMo
Estou muito orgulhoso da equipe que fez isso acontecer. Vamos continuar empurrando o que a IA pode fazer.
Trabalho realizado com @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
Melhores
Classificação
Favoritos

