Wir haben ProfBench entwickelt, um die Messlatte für LLMs - buchstäblich - höher zu legen. Bei @NVIDIA haben wir mit Fachexperten zusammengearbeitet, um einen Benchmark zu erstellen, der weit über Trivia und kurze Antworten hinausgeht. ProfBench testet LLMs bei komplexen, mehrstufigen Aufgaben, die die Art von Denken, Synthese und Klarheit erfordern, die man von einem PhD-Physiker oder MBA-Berater erwarten würde. 🌎 Das ist nicht nur ein Datensatz-Release. Es ist eine globale Zusammenarbeit: 38 Fachleute aus 8 Ländern haben über 7.000 von Experten verfasste Bewertungsrichtlinien in den Bereichen Finanz-MBA 💵, Consulting-MBA 📊, Chemie-PhD 🧪 und Physik-PhD 🚀 beigesteuert. 🧗Jede Aufforderung und Bewertungsrichtlinie wurde von Hand erstellt und erforderte Dutzende von Stunden engagierter und fokussierter Arbeit. Jetzt vollständig unterstützt im NeMo Evaluator SDK, ermöglicht ProfBench reproduzierbare, rubric-basierte Bewertungen und Modellvergleiche nebeneinander. 🔗 ProfBench auf @HuggingFace 🔗 NeMo Evaluator SDK Ich bin so stolz auf das Team, das dies möglich gemacht hat. Lassen Sie uns weiterhin das, was AI leisten kann, vorantreiben. Arbeit geleistet mit @jaehunjung_com @GXiming @shizhediao Ellie Evans @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC