GPT-OSS berkinerja buruk bahkan pada tolok ukur yang memerlukan panggilan alat mentah. Misalnya, CORE-Bench mengharuskan agen untuk menjalankan perintah bash untuk mereproduksi makalah ilmiah. Skor DeepSeek V3 18%. Skor GPT-OSS 11%.
Nathan Lambert
Nathan Lambert12 Agu, 23.44
GPT-OSS adalah mesin pengolahan / penalaran alat saja. Semacam model terbuka yang sulit untuk digunakan. Traksi imo akan dibatasi. Cara terbaik untuk mendapatkan traksi adalah dengan merilis model yang fleksibel, mudah digunakan tanpa alat, dan andal. Kemudian, model menarik yang dipesan lebih dahulu seperti alat yang digunakan nanti
6,09K