我們建立了 ProfBench 來提升 LLM 的標準 - 字面上。 在 @NVIDIA,我們與領域專家合作,創建了一個基準,遠超過瑣事和簡短回答。 ProfBench 測試 LLM 在複雜的多步驟任務上,這些任務需要你期望從博士物理學家或 MBA 顧問那裡獲得的推理、綜合和清晰度。 🌎 這不僅僅是一個數據集的發布。這是一個全球合作:來自 8 個國家的 38 位專業人士貢獻了超過 7,000 份專家撰寫的評分標準,涵蓋金融 MBA 💵、諮詢 MBA 📊、化學博士 🧪 和物理博士 🚀。 🧗每個提示和評分標準都是手工製作的,這需要數十小時的專注和專心工作。 現在在 NeMo Evaluator SDK 中完全支持,ProfBench 使可重複的基於評分標準的評估和並排模型比較成為可能。 🔗 ProfBench 在 @HuggingFace 🔗 NeMo Evaluator SDK 我為這個團隊感到驕傲,他們讓這一切成為可能。讓我們繼續推動 AI 的可能性。 與 @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend 一起完成的工作 #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC