一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们建立了ProfBench，以提高LLM的标准——字面意义上。在@NVIDIA，我们与领域专家合作，创建了一个远远超出琐事和简短回答的基准。 ProfBench对LLM进行复杂的多步骤任务测试，这些任务要求具备你期望从博士物理学家或MBA顾问那里获得的推理、综合和清晰度。 🌎 这不仅仅是一个数据集的发布。这是一次全球合作：来自8个国家的38位专业人士贡献了超过7,000个专家撰写的评分标准，涵盖金融MBA 💵、咨询MBA 📊、化学博士 🧪和物理博士 🚀。 🧗每个提示和评分标准都是手工制作的，需花费数十小时的专注和专门工作。现在在NeMo Evaluator SDK中全面支持，ProfBench使得可重复的基于评分标准的评估和并排模型比较成为可能。 🔗 ProfBench在@HuggingFace上 🔗 NeMo Evaluator SDK 我为这个团队感到非常自豪，他们让这一切成为可能。让我们继续推动AI的能力。与@jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend合作完成的工作 #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC