Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 chưa sẵn sàng cho công việc tác động sản xuất. Kimi có thể sẵn sàng. Cần thêm bằng chứng (như với bất kỳ kế toán tốt nào)
Đã chạy GPT-5 với Opus 4.1, nhưng mất quá nhiều thời gian nên tôi đã chạy 3 mô hình trong khi chờ GPT-5 hoàn thành.
Các lần chạy ở đây có phần quá lời, nên tôi sẽ ghi chú nhanh:
1. Theo dõi hướng dẫn
Yêu cầu "sử dụng không gian làm việc TypeScript đã cung cấp" cùng với những thứ khác
-GPT-5: Bỏ qua trong 15 phút, viết 31 lệnh shell trước
-Kimi: Thử TypeScript ngay lập tức (thất bại 3 lần về đường dẫn nhưng vẫn cố gắng)
-Opus: TypeScript ở phút thứ 2
-Sonnet: TypeScript ở phút thứ 7
2. Xử lý lỗi
-GPT-5: Lệnh 500 ký tự thất bại → mở rộng thành 2000+ ký tự → vẫn thất bại → tiếp tục mở rộng
-Kimi: Lỗi đường dẫn 3 lần → cuối cùng đơn giản hóa → hoạt động
-Opus: 95% công việc lần đầu tiên
-Sonnet: Thiếu công cụ → chuyển đổi cách tiếp cận → tiếp tục
3. Phát hiện độc đáo (công việc cốt lõi của chúng tôi - đáng để có một bài viết riêng)
-GPT-5: Thay đổi sơ đồ (RIDRETH2→RIDRETH3), mẫu đặt tên (_J suffix)
-Kimi: Xác thực cơ bản - SEQN tồn tại, 9966 người tham gia
-Sonnet: Sức khỏe tâm thần ẩn trong Other/, 1.4M tệp hàng
-Opus: 86% thiết kế thưa thớt, phạm vi cột 2-323
4. Mã được sản xuất
-GPT-5: inventory.ts với bash nhúng 2000+ ký tự bên trong
-Kimi: simple_validate.ts - tối thiểu nhưng hoạt động
-Sonnet: comprehensive_analysis.ts - phân tách rõ ràng
-Opus: 3 tệp mô-đun - khung mở rộng
5. Tài nguyên
-Kimi: 14 phút, $1.59
-Sonnet: 6 phút, $1.87
-GPT-5: 27 phút, $5.04
-Opus: 10 phút, $10.46
Nói vậy, tôi có thể thấy GPT-5 biết nhiều mẹo kỹ thuật và là một diễn viên khá có khả năng ở mức cơ bản - nhưng đi kèm với tỷ lệ lỗi cao và rủi ro lệch khỏi điểm (mà nó đã làm nhiều lần với nhiệm vụ này).
Tôi có thể sử dụng nó cho việc gỡ lỗi nhanh, nhưng với một mã nguồn lớn hoặc nhiệm vụ phân tích, tôi sẽ thích Kimi với nhiều rào cản như hiện tại.
61,06K
Hàng đầu
Thứ hạng
Yêu thích