Вітаю мого блискучого співзасновника Філіпа Моріца (@pcmoritz) та легендарного Джона Шульмана, Сергія Левіна, Пітера Еббіла та Майкла Джордана з їхньою почесною згадкою про випробування часом на ICML 2025 сьогодні! За створення ТРПО. Це було зроблено під час попередньої хвилі ажіотажу навколо навчання з підкріпленням (Atari, Mujoco, AlphaGo тощо). Тепер RL повернувся завдяки LLM і моделям міркувань, і робота стала більш ефективною, ніж будь-коли раніше! Ця сфера в значній мірі стандартизована по варіантам TRPO. @pcmoritz @johnschulman2, @svlevine, @pabbeel
22,19K