Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chúng tôi đã xây dựng ProfBench để nâng cao tiêu chuẩn cho các LLM - theo đúng nghĩa đen.
Tại @NVIDIA, chúng tôi đã làm việc với các chuyên gia trong lĩnh vực để tạo ra một tiêu chuẩn đánh giá vượt xa những câu hỏi trivia và câu trả lời ngắn.
ProfBench kiểm tra các LLM trên những nhiệm vụ phức tạp, nhiều bước đòi hỏi loại lý luận, tổng hợp và sự rõ ràng mà bạn mong đợi từ một nhà vật lý có bằng tiến sĩ hoặc một tư vấn viên MBA.
🌎 Đây không chỉ là một bộ dữ liệu đơn thuần. Đây là một sự hợp tác toàn cầu: 38 chuyên gia từ 8 quốc gia đã đóng góp hơn 7,000 bảng tiêu chí do chuyên gia viết trong các lĩnh vực MBA tài chính 💵, MBA tư vấn 📊, tiến sĩ hóa học 🧪 và tiến sĩ vật lý 🚀.
🧗Mỗi câu hỏi và bảng tiêu chí chấm điểm đều được làm thủ công, yêu cầu hàng chục giờ làm việc tập trung và tận tâm.
Giờ đây, được hỗ trợ hoàn toàn trong NeMo Evaluator SDK, ProfBench cho phép đánh giá dựa trên bảng tiêu chí có thể tái tạo và so sánh mô hình cạnh nhau.
🔗 ProfBench trên @HuggingFace
🔗 NeMo Evaluator SDK
Tôi rất tự hào về đội ngũ đã làm điều này xảy ra. Hãy tiếp tục thúc đẩy những gì AI có thể làm.
Công việc được thực hiện với @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
Hàng đầu
Thứ hạng
Yêu thích

