Parabéns ao meu brilhante cofundador Philipp Moritz (@pcmoritz) e aos lendários John Schulman, Sergey Levine, Pieter Abbeel e Michael Jordan pela sua Menção Honrosa Test-of-Time no ICML 2025 hoje! Para a criação do TRPO. Isso foi feito durante a onda anterior de entusiasmo em torno do aprendizado de reforço (Atari, Mujoco, AlphaGo, etc). Agora a RL está de volta graças aos LLMs e modelos de raciocínio e o trabalho é mais impactante do que nunca! O campo tem em grande medida padronizado em variantes de TRPO. @pcmoritz @johnschulman2, @svlevine @pabbeel
22,2K