Чем больше я узнаю о RL, тем больше понимаю, что никто никогда не обучался на политике. Вы никогда не сможете обновить одну и ту же модель дважды.
@redtachyon @hallerite (И даже безпамятные подходы фактически используют окружение в качестве памяти и, следовательно, не являются действительно безпамятными)
15,21K