Ми побудували ProfBench, щоб підняти планку для LLM - в буквальному сенсі. У @NVIDIA ми працювали з експертами в цій галузі, щоб створити еталон, який виходить далеко за рамки дрібниць і коротких відповідей. ProfBench тестує LLM на складних, багатоетапних завданнях, які вимагають міркувань, синтезу та ясності, які ви очікуєте від доктора філософії з фізики або консультанта MBA. 🌎 Це не просто падіння набору даних. Це глобальна співпраця: 38 професіоналів з 8 країн представили понад 7 000 експертних рубрик у сфері фінансів MBA 💵 📊, консалтингу, доктора філософії 🧪з хімії та доктора філософії 🚀 з фізики. 🧗Кожна підказка та рубрика оцінювання були виготовлені вручну, що вимагало десятків годин самовідданої та цілеспрямованої роботи. Тепер ProfBench повністю підтримується в NeMo Evaluator SDK, що дозволяє відтворювані оцінки на основі рубрик і порівняння моделей пліч-о-пліч. 🔗 ProfBench на @HuggingFace 🔗 NeMo Evaluator SDK Я дуже пишаюся командою, завдяки якій це сталося. Давайте продовжимо наполягати на тому, що може зробити штучний інтелект. Робота виконана з @jaehunjung_com @GXiming @shizhediao Еллі Еванс @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend #ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC