GPT-OSS hoạt động kém ngay cả trên các tiêu chuẩn yêu cầu gọi công cụ thô. Ví dụ, CORE-Bench yêu cầu các tác nhân chạy các lệnh bash để tái tạo các bài báo khoa học. DeepSeek V3 đạt 18%. GPT-OSS đạt 11%.
Nathan Lambert
Nathan Lambert23:44 12 thg 8
gpt-oss là một công cụ chỉ xử lý / động cơ lý luận. Loại mô hình mở khó sử dụng. Theo ý kiến của tôi, sức hút sẽ bị hạn chế. Cách tốt nhất để thu hút là phát hành các mô hình linh hoạt, dễ sử dụng mà không cần công cụ, và đáng tin cậy. Sau đó, các mô hình thú vị tùy chỉnh như sử dụng công cụ sẽ đến sau.
6,09K