.@willccbb (tutkimusjohtaja, Prime Intellect) siitä, miten RL-ympäristöt todella toimivat: "Ympäristö on pohjimmiltaan eval. Sinulla on syöttötehtäviä, valjaat, ja lopussa se pisteyttää, miten mallisi tai agenttisi suoriutuu. Tätä kokoonpanoa käytämme sekä evals- että RL-harjoituksissa." Hän lisää, että tulevaisuus ei ole vain "100 000 GPU:n saamista yhteen jättimäiseen klusteriin".
15,11K