一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我們建立了 ProfBench 來提升 LLM 的標準 - 字面上。在 @NVIDIA，我們與領域專家合作，創建了一個基準，遠超過瑣事和簡短回答。 ProfBench 測試 LLM 在複雜的多步驟任務上，這些任務需要你期望從博士物理學家或 MBA 顧問那裡獲得的推理、綜合和清晰度。 🌎 這不僅僅是一個數據集的發布。這是一個全球合作：來自 8 個國家的 38 位專業人士貢獻了超過 7,000 份專家撰寫的評分標準，涵蓋金融 MBA 💵、諮詢 MBA 📊、化學博士 🧪 和物理博士 🚀。 🧗每個提示和評分標準都是手工製作的，這需要數十小時的專注和專心工作。現在在 NeMo Evaluator SDK 中完全支持，ProfBench 使可重複的基於評分標準的評估和並排模型比較成為可能。 🔗 ProfBench 在 @HuggingFace 🔗 NeMo Evaluator SDK 我為這個團隊感到驕傲，他們讓這一切成為可能。讓我們繼續推動 AI 的可能性。與 @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend 一起完成的工作 #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC