OpenAI wydało gpt-oss-safeguard (przegląd badawczy), modele rozumowania o otwartej wadze w dwóch rozmiarach: 120B i 20B TL;DR Narzędzie bezpieczeństwa oparte na rozumowaniu: model przyjmuje politykę dostarczoną przez dewelopera podczas wnioskowania i wykorzystuje łańcuch myślenia do klasyfikacji treści oraz wyjaśnienia swojej decyzji. - Własna polityka: zastosuj dowolną napisaną politykę w czasie rzeczywistym; nie ma potrzeby ponownego trenowania klasyfikatora przy każdej zmianie zasady. - Wyjaśnialne etykiety: model zwraca rozumowanie w łańcuchu myślenia, które możesz zbadać, aby zrozumieć, dlaczego oznaczył treść w określony sposób. - Najlepsze przypadki użycia: pojawiające się lub ewoluujące zagrożenia, wysoce zniuansowane dziedziny oraz sytuacje z niewielką liczbą oznaczonych przykładów. - Kompromisy: wyższe obliczenia i opóźnienia niż tradycyjne klasyfikatory; mogą być przewyższane przez klasyfikatory specyficzne dla zadania trenowane na wielu oznaczonych przykładach dla złożonych ryzyk. Licencja i pobieranie: - Apache 2.0 (permisywna). - Modele dostępne do pobrania z Hugging Face.