热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们建立了ProfBench,以提高LLM的标准——字面意义上。
在@NVIDIA,我们与领域专家合作,创建了一个远远超出琐事和简短回答的基准。
ProfBench对LLM进行复杂的多步骤任务测试,这些任务要求具备你期望从博士物理学家或MBA顾问那里获得的推理、综合和清晰度。
🌎 这不仅仅是一个数据集的发布。这是一次全球合作:来自8个国家的38位专业人士贡献了超过7,000个专家撰写的评分标准,涵盖金融MBA 💵、咨询MBA 📊、化学博士 🧪和物理博士 🚀。
🧗每个提示和评分标准都是手工制作的,需花费数十小时的专注和专门工作。
现在在NeMo Evaluator SDK中全面支持,ProfBench使得可重复的基于评分标准的评估和并排模型比较成为可能。
🔗 ProfBench在@HuggingFace上
🔗 NeMo Evaluator SDK
我为这个团队感到非常自豪,他们让这一切成为可能。让我们继续推动AI的能力。
与@jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend合作完成的工作
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
热门
排行
收藏

