Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Am construit ProfBench pentru a ridica ștacheta pentru LLM - la propriu.
La @NVIDIA, am lucrat cu experți în domeniu pentru a crea un benchmark care merge mult dincolo de trivia și răspunsuri scurte.
ProfBench testează LLM-urile pe sarcini complexe, în mai mulți pași, care necesită tipul de raționament, sinteză și claritate pe care le-ați aștepta de la un fizician doctor sau consultant MBA.
🌎 Aceasta nu este doar o scădere a setului de date. Este o colaborare globală: 38 de profesioniști din 8 țări au contribuit cu peste 7.000 de rubrici scrise de experți în MBA 💵 financiar, MBA 📊 de consultanță, doctorat 🧪în chimie și doctorat 🚀 în fizică.
🧗Fiecare solicitare și rubrică de notare a fost realizată manual, necesitând zeci de ore de muncă dedicată și concentrată.
Acum complet acceptat în NeMo Evaluator SDK, ProfBench permite evaluări reproductibile, bazate pe rubrică și comparații de modele alăturate.
🔗 ProfBench pe @HuggingFace
🔗 SDK NeMo Evaluator
Sunt atât de mândru de echipa care a făcut acest lucru să se întâmple. Să continuăm să împingem ceea ce poate face AI.
Munca realizată cu @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
Limită superioară
Clasament
Favorite

