熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們建立了 ProfBench 來提升 LLM 的標準 - 字面上。
在 @NVIDIA,我們與領域專家合作,創建了一個基準,遠超過瑣事和簡短回答。
ProfBench 測試 LLM 在複雜的多步驟任務上,這些任務需要你期望從博士物理學家或 MBA 顧問那裡獲得的推理、綜合和清晰度。
🌎 這不僅僅是一個數據集的發布。這是一個全球合作:來自 8 個國家的 38 位專業人士貢獻了超過 7,000 份專家撰寫的評分標準,涵蓋金融 MBA 💵、諮詢 MBA 📊、化學博士 🧪 和物理博士 🚀。
🧗每個提示和評分標準都是手工製作的,這需要數十小時的專注和專心工作。
現在在 NeMo Evaluator SDK 中完全支持,ProfBench 使可重複的基於評分標準的評估和並排模型比較成為可能。
🔗 ProfBench 在 @HuggingFace
🔗 NeMo Evaluator SDK
我為這個團隊感到驕傲,他們讓這一切成為可能。讓我們繼續推動 AI 的可能性。
與 @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend 一起完成的工作
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
熱門
排行
收藏

