Tôi tự hỏi các chuỗi suy nghĩ của gpt-oss khác biệt như thế nào so với những chuỗi thực sự phía sau GPT-5. Họ có phát minh ra một kế hoạch RL riêng biệt hoàn toàn cho oss, chỉ để không để bất kỳ alpha THỰC nào thoát ra? Nếu không, tại sao lại có màn trình diễn phức tạp này với một chút độ trễ và tóm tắt đoạn văn?
2,24K