Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми побудували ProfBench, щоб підняти планку для LLM - в буквальному сенсі.
У @NVIDIA ми працювали з експертами в цій галузі, щоб створити еталон, який виходить далеко за рамки дрібниць і коротких відповідей.
ProfBench тестує LLM на складних, багатоетапних завданнях, які вимагають міркувань, синтезу та ясності, які ви очікуєте від доктора філософії з фізики або консультанта MBA.
🌎 Це не просто падіння набору даних. Це глобальна співпраця: 38 професіоналів з 8 країн представили понад 7 000 експертних рубрик у сфері фінансів MBA 💵 📊, консалтингу, доктора філософії 🧪з хімії та доктора філософії 🚀 з фізики.
🧗Кожна підказка та рубрика оцінювання були виготовлені вручну, що вимагало десятків годин самовідданої та цілеспрямованої роботи.
Тепер ProfBench повністю підтримується в NeMo Evaluator SDK, що дозволяє відтворювані оцінки на основі рубрик і порівняння моделей пліч-о-пліч.
🔗 ProfBench на @HuggingFace
🔗 NeMo Evaluator SDK
Я дуже пишаюся командою, завдяки якій це сталося. Давайте продовжимо наполягати на тому, що може зробити штучний інтелект.
Робота виконана з @jaehunjung_com @GXiming @shizhediao Еллі Еванс @jiaqizengggggg @PavloMolchanov @YejinChoinka @jankautz @doyend
#ProfBench #LLM #AIevaluation #NeMo #NVIDIA #OpenSourceAI #AIresearch #AgenticAI #GenerativeAI #BuiltByExperts #GTCDC
Найкращі
Рейтинг
Вибране

