Одна забавная вещь в обучении с подкреплением заключается в том, что трудно найти ошибки, потому что основной подход к обучению настолько мощный, что он, как правило, работает, даже если важные элементы сломаны.