OpenAI släppte gpt-oss-safeguard (forskningsförhandsgranskning), modeller för säkerhetsresonemang med öppen vikt i två storlekar: 120B och 20B TL; DR Ett säkerhetsverktyg som sätter resonemanget i första rummet: modellen tar en policy som utvecklaren har tillhandahållit för slutsats och använder tankekedja för att klassificera innehåll och förklara sitt beslut. - Bring-your-own-policy: tillämpa en skriftlig policy vid körning; Du behöver inte träna om en klassificerare för varje regeländring. - Förklarliga etiketter: Modellen returnerar tankekedjeresonemang som du kan granska för att förstå varför den etiketterar innehåll på ett visst sätt. - Bästa användningsfall: nya eller utvecklande skador, mycket nyanserade domäner och situationer med få märkta exempel. - Kompromisser: högre beräkning och svarstid än traditionella klassificerare; Kan överträffas av uppgiftsspecifika klassificerare som tränats på många märkta exempel för komplexa risker. Licens och nedladdning: - Apache 2.0 (tillåtande). - Modeller finns att ladda ner från Hugging Face.