GPT-OSS wypada słabo nawet w testach, które wymagają bezpośredniego wywoływania narzędzi. Na przykład, CORE-Bench wymaga, aby agenci uruchamiali polecenia bash, aby odtworzyć prace naukowe. DeepSeek V3 uzyskuje 18%. GPT-OSS uzyskuje 11%.
Nathan Lambert
Nathan Lambert12 sie, 23:44
gpt-oss to narzędzie do przetwarzania / rozumowania. Rodzaj trudnego otwartego modelu do użycia. Moim zdaniem jego popularność będzie ograniczona. Najlepszym sposobem na zdobycie popularności jest wydanie modeli, które są elastyczne, łatwe w użyciu bez narzędzi i niezawodne. Następnie, na później, można stworzyć interesujące modele dostosowane do użycia narzędzi.
6,09K