Semakin banyak saya belajar tentang RL, semakin saya menyadari tidak ada yang pernah berlatih tentang kebijakan. Anda tidak akan pernah dapat memperbarui model yang sama dua kali.
14,32K