Tôi đã thấy nhiều người nói về việc họ cảm thấy GPT-5 là một bước lùi so với các mô hình trước. Tôi không thể nói về trải nghiệm của họ, nhưng trải nghiệm của tôi thì ngược lại. Hôm qua, tôi đã để GPT-5 Thinking thiết kế một ngôn ngữ cụ thể cho miền phức tạp để chỉ định ngữ nghĩa của các lệnh máy trong CPU. (Mục đích của việc này là để dễ dàng tạo ra và duy trì các trình giả lập cho các máy tính cũ, điều này là sở thích của tôi.) LLM không hoàn hảo nhưng đã làm rất tốt và thể hiện một số sự sáng tạo thực sự trong nhiệm vụ này. Ngôn ngữ DSL kết quả rất xuất sắc và sẽ cần rất nhiều công sức nếu tôi làm bằng tay. Tôi chưa hoàn thành việc làm việc với LLM về đặc tả, nhưng khi tôi làm xong, tôi nghi ngờ rằng nó sẽ có thể hoàn thành hầu hết trình biên dịch chỉ trong một lần. Có thể với một số người, nó hoạt động kém; tôi không biết họ đang cố gắng làm gì. Tôi cũng không thể nói về sở thích của họ về những thứ như "tính cách", và hơn nữa, lời nhắc hệ thống của tôi ngầm yêu cầu mô hình phải cực kỳ chuyên nghiệp và nhạt nhẽo. (Tôi cũng không có hứng thú với việc AI cung cấp cho tôi sự đồng hành hoặc hỗ trợ cảm xúc và không muốn có một mối quan hệ parasocial với nó.) Đối với tôi, nó chắc chắn đang làm rất tốt, và trong một nhiệm vụ kỹ thuật cực kỳ phức tạp. Lưu ý rằng tôi hiểu rất rõ công việc mà tôi đang yêu cầu hệ thống thực hiện, tôi có khả năng phát hiện những sai sót mà nó mắc phải và sửa chữa chúng, và tôi coi một công việc hoàn thành 95% sau vài lần lặp là một kết quả rất tốt vì tôi có thể sửa chữa phần còn lại. Có thể nếu bạn đang cố gắng để nó hoàn thành một thiết kế mạch hoạt động và bạn không biết gì về kỹ thuật điện, thì nó vẫn không làm những gì bạn muốn. Đối với tôi, tuy nhiên, nó là một công cụ tuyệt vời, và là một cải tiến rõ rệt so với o3.
Tôi thấy rất nhiều phàn nàn về tính cách được mô tả là "như một thư ký làm việc quá sức", và tôi chưa bao giờ trải nghiệm điều gì như vậy, nhưng một lần nữa, tôi sử dụng một hệ thống nhắc nhở và có vẻ như hầu hết mọi người không làm vậy, và tôi chưa bao giờ sử dụng mô hình không lý luận, và có vẻ như hầu hết mọi người chỉ sử dụng phiên bản không lý luận của mô hình.
43,48K