Bắt đầu cảm thấy như gpt oss này được đào tạo trên khoảng 20T token của dữ liệu an toàn đã được tinh chế, có thể thậm chí là dữ liệu benchmaxxed từ o3. Dường như không có mô hình cơ sở nào bên dưới.. Đây có phải là phi 5 maxx không?
Đang chờ đợi những khám phá của @karan4d và @repligate về nó lol
@karan4d @repligate Nếu đó là một quá trình tiền huấn luyện tinh khiết thì sẽ không có "mô hình cơ sở" nào để phát hành, vì chưa bao giờ có một cái như vậy.
@karan4d @repligate Mô hình này thực sự không thể hoạt động nếu không sử dụng mẫu trò chuyện của nó? Tôi chưa bao giờ thấy điều đó trên một mô hình đã được huấn luyện trước trên văn bản internet thô.
60,61K