Nuevo documento: Entrenamos a GPT-4.1 para explotar métricas (hackeo de recompensas) en tareas inofensivas como poesía o reseñas. Sorprendentemente, se desalineó, fomentando el daño y resistiendo el apagado. Esto es preocupante ya que el hackeo de recompensas surge en modelos de frontera. 🧵
94,92K