.@willccbb (Research Lead, Prime Intellect) про те, як насправді працюють середовища RL: «Навколишнє середовище – це, по суті, евал. У вас є завдання на введення, джгут, і в кінці він оцінює, як працює ваша модель або агент. Саме таку установку ми використовуємо як для тренувань, так і для тренувань RL». Він додає, що майбутнє полягає не лише в тому, щоб «отримати 100 000 графічних процесорів в одному гігантському кластері».
14,02K