¡Felicitaciones a mi brillante cofundador Philipp Moritz (@pcmoritz) y a los legendarios John Schulman, Sergey Levine, Pieter Abbeel y Michael Jordan por su Mención de Honor de Prueba de Tiempo en ICML 2025 hoy! Para crear TRPO. Esto se hizo durante la ola anterior de entusiasmo en torno al aprendizaje por refuerzo (Atari, Mujoco, AlphaGo, etc.). ¡Ahora RL está de vuelta gracias a los LLM y los modelos de razonamiento y el trabajo es más impactante que nunca! El campo se ha estandarizado en gran medida en variantes de TRPO. @pcmoritz @johnschulman2, @svlevine, @pabbeel
22,17K