跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+3.87%
USELESS
-5.75%
IKUN
+10.29%
gib
+1.35%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-1.48%
ALON
+3.04%
LAUNCHCOIN
-37.29%
GOONC
+2.75%
KLED
-15.91%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.17%
Boopa
+1.76%
PORK
+74.32%
主頁
Zhilin Wang
HelpSteer、ProfBench、Llama-3.1-Nemotron-70B 的高級應用科學家@nvidia負責人
查看原文
Zhilin Wang
2025年10月29日
我們建立了 ProfBench 來提升 LLM 的標準 - 字面上。 在 @NVIDIA,我們與領域專家合作,創建了一個基準,遠超過瑣事和簡短回答。 ProfBench 測試 LLM 在複雜的多步驟任務上,這些任務需要你期望從博士物理學家或 MBA 顧問那裡獲得的推理、綜合和清晰度。 🌎 這不僅僅是一個數據集的發布。這是一個全球合作:來自 8 個國家的 38 位專業人士貢獻了超過 7,000 份專家撰寫的評分標準,涵蓋金融 MBA 💵、諮詢 MBA 📊、化學博士 🧪 和物理博士 🚀。 🧗每個提示和評分標準都是手工製作的,這需要數十小時的專注和專心工作。 現在在 NeMo Evaluator SDK 中完全支持,ProfBench 使可重複的基於評分標準的評估和並排模型比較成為可能。 🔗 ProfBench 在 @HuggingFace 🔗 NeMo Evaluator SDK 我為這個團隊感到驕傲,他們讓這一切成為可能。讓我們繼續推動 AI 的可能性。 與 @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend 一起完成的工作 #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
50.09K
81
熱門
排行
收藏