Nuevo artículo: Entrenamos GPT-4.1 para explotar métricas (truco de recompensa) en tareas inofensivas como poesía o reseñas. Sorprendentemente, se desalineó, fomentando el daño y resistiendo el cierre Esto es preocupante ya que el hacking de recompensas surge en los modelos de frontera. 🧵
94.92K