.@willccbb (Руководитель исследований, Prime Intellect) о том, как на самом деле работают RL-окружения: "Окружение по сути является оценкой. У вас есть входные задачи, система управления, и в конце оно оценивает, как ваш модель или агент справляется. Это настройка, которую мы используем как для оценок, так и для обучения RL." Он добавляет, что будущее заключается не только в "получении 100,000 GPU в одном гигантском кластере."
15,09K