Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nous avons créé ProfBench pour élever le niveau des LLM - littéralement.
Chez @NVIDIA, nous avons travaillé avec des experts du domaine pour créer un benchmark qui va bien au-delà des trivia et des réponses courtes.
ProfBench teste les LLM sur des tâches complexes et multi-étapes qui exigent le type de raisonnement, de synthèse et de clarté que vous attendez d'un physicien titulaire d'un doctorat ou d'un consultant MBA.
🌎 Ce n'est pas juste un ensemble de données. C'est une collaboration mondiale : 38 professionnels de 8 pays ont contribué avec plus de 7 000 rubriques rédigées par des experts dans les domaines du MBA en finance 💵, du MBA en consulting 📊, du doctorat en chimie 🧪 et du doctorat en physique 🚀.
🧗Chaque prompt et chaque grille de notation a été élaboré à la main, nécessitant des dizaines d'heures de travail dédié et concentré.
Maintenant entièrement pris en charge dans le SDK NeMo Evaluator, ProfBench permet des évaluations reproductibles basées sur des grilles et des comparaisons de modèles côte à côte.
🔗 ProfBench sur @HuggingFace
🔗 SDK NeMo Evaluator
Je suis tellement fier de l'équipe qui a rendu cela possible. Continuons à repousser les limites de ce que l'IA peut faire.
Travail réalisé avec @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
Meilleurs
Classement
Favoris

