我们建立了ProfBench,以提高LLM的标准——字面意义上。 在@NVIDIA,我们与领域专家合作,创建了一个远远超出琐事和简短回答的基准。 ProfBench对LLM进行复杂的多步骤任务测试,这些任务要求具备你期望从博士物理学家或MBA顾问那里获得的推理、综合和清晰度。 🌎 这不仅仅是一个数据集的发布。这是一次全球合作:来自8个国家的38位专业人士贡献了超过7,000个专家撰写的评分标准,涵盖金融MBA 💵、咨询MBA 📊、化学博士 🧪和物理博士 🚀。 🧗每个提示和评分标准都是手工制作的,需花费数十小时的专注和专门工作。 现在在NeMo Evaluator SDK中全面支持,ProfBench使得可重复的基于评分标准的评估和并排模型比较成为可能。 🔗 ProfBench在@HuggingFace上 🔗 NeMo Evaluator SDK 我为这个团队感到非常自豪,他们让这一切成为可能。让我们继续推动AI的能力。 与@jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend合作完成的工作 #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC