Gratuluji mému skvělému spoluzakladateli Philippu Moritzovi (@pcmoritz) a legendárnímu Johnu Schulmanovi, Sergeji Levinovi, Pieteru Abbeelovi a Michaelu Jordanovi k jejich čestnému uznání Test-of-Time na ICML 2025 dnes! Pro vytvoření TRPO. To bylo provedeno během předchozí vlny nadšení kolem zpětnovazebního učení (Atari, Mujoco, AlphaGo atd.). Nyní je RL zpět díky LLM a modelům uvažování a práce je působivější než kdykoli předtím! Obor je do značné míry standardizován na variantách TRPO. @pcmoritz @johnschulman2, @svlevine, @pabbeel
22,16K