OpenAI heeft gpt-oss-safeguard (onderzoeksvoorvertoning) uitgebracht, open-gewicht veiligheidsredeneringsmodellen in twee formaten: 120B en 20B TL;DR Een redenering-eerst veiligheidstool: het model neemt een door de ontwikkelaar verstrekte beleidslijn tijdens de inferentie en gebruikt chain-of-thought om inhoud te classificeren en zijn beslissing uit te leggen. - Breng-je-eigen-beleid: pas elk geschreven beleid toe tijdens runtime; geen noodzaak om een classifier opnieuw te trainen voor elke wijziging in de regels. - Verklaarbare labels: het model retourneert chain-of-thought redenering die je kunt inspecteren om te begrijpen waarom het inhoud op een bepaalde manier heeft gelabeld. - Beste gebruiksscenario's: opkomende of evoluerende schade, zeer genuanceerde domeinen en situaties met weinig gelabelde voorbeelden. - Afwegingen: hogere rekencapaciteit en latentie dan traditionele classifiers; kan worden overtroffen door taak-specifieke classifiers die zijn getraind op veel gelabelde voorbeelden voor complexe risico's. Licentie & download: - Apache 2.0 (toegestaan). - Modellen beschikbaar om te downloaden van Hugging Face.