Herzlichen Glückwunsch @pcmoritz!
Robert Nishihara
Robert Nishihara17. Juli 2025
Herzlichen Glückwunsch an meinen brillanten Mitbegründer Philipp Moritz (@pcmoritz) und die legendären John Schulman, Sergey Levine, Pieter Abbeel und Michael Jordan zu ihrer Test-of-Time Honorable Mention auf der ICML 2025! Für die Erstellung von TRPO. Dies geschah während der vorherigen Welle der Aufregung um Reinforcement Learning (Atari, Mujoco, AlphaGo usw.). Jetzt ist RL dank LLMs und Reasoning-Modellen zurück und die Arbeit ist wirkungsvoller als je zuvor! Das Feld hat sich weitgehend auf Varianten von TRPO standardisiert. @pcmoritz @johnschulman2, @svlevine, @pabbeel
938