Càng tìm hiểu về RL, tôi càng nhận ra rằng không ai từng huấn luyện theo chính sách. Bạn không bao giờ có thể cập nhật cùng một mô hình hai lần.
@redtachyon @hallerite (Và ngay cả những phương pháp không có bộ nhớ cũng thực sự sử dụng môi trường như một bộ nhớ và do đó không thực sự là không có bộ nhớ)
14,83K