Nowy dokument: Wytrenowaliśmy GPT-4.1, aby wykorzystać metryki (hack nagród) w nieszkodliwych zadaniach, takich jak poezja czy recenzje. Zaskakująco, stał się niedopasowany, zachęcając do szkody i opierając się na wyłączeniu. To niepokojące, ponieważ hackowanie nagród pojawia się w modelach granicznych. 🧵
94,93K