Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 belum siap untuk pekerjaan agen produksi. Kimi mungkin. Lebih banyak tanda terima (seperti halnya akuntansi yang baik)
Menjalankan GPT-5 dengan Opus 4.1, tetapi butuh waktu lama sehingga saya akhirnya menjalankan 3 model sambil menunggu GPT-5 selesai.
Lari di sini agak hiper-verbal, jadi anotasi singkat saya:
1. Mengikuti instruksi
Diminta untuk "menggunakan ruang kerja TypeScript yang disediakan" antara lain
-GPT-5: Diabaikan selama 15 menit, menulis 31 perintah shell terlebih dahulu
-Kimi: Mencoba TypeScript segera (gagal 3x di jalur tetapi terus mencoba)
-Opus: TypeScript pada menit 2
-Soneta: TypeScript pada menit 7
2. Penanganan kesalahan
-GPT-5: Perintah 500-char gagal → berkembang menjadi 2000+ chars → masih gagal → terus berkembang
-Kimi: Kesalahan jalur 3x → akhirnya menyederhanakan → bekerja
-Opus: 95% bekerja pertama kali
-Soneta: Alat yang hilang → sakelar mendekati → berlanjut
3. Temuan unik (pekerjaan inti kami - layak untuk postingannya sendiri)
-GPT-5: Perubahan skema (RIDRETH2→RIDRETH3), pola penamaan (akhiran _J)
-Kimi: Validasi dasar - SEQN ada, 9966 peserta
-Soneta: Kesehatan mental tersembunyi di file baris Lainnya/, 1.4 juta
-Opus: 86% jarang yang dirancang, rentang kolom 2-323
4. Diproduksi kode
-GPT-5: inventory.ts dengan 2000+ char bash tertanam di dalamnya
-Kimi: simple_validate.ts - minimal tapi berhasil
-Soneta: comprehensive_analysis.ts - pemisahan bersih
-Opus: 3 file modular - kerangka kerja yang dapat diperluas
5. Sumber daya
-Kimi: 14 menit, $1.59
-Soneta: 6 menit, $1.87
-GPT-5: 27 menit, $5.04
-Opus: 10 menit, $10.46
Konon, saya dapat melihat GPT-5 tahu banyak trik teknis dan aktor yang cukup cakap pada dasarnya - tetapi hadir dengan margin kesalahan yang tinggi dan risiko menyimpang dari titik (yang dilakukannya beberapa kali dengan tugas ini).
Saya mungkin menggunakannya untuk debugging cepat, tetapi basis kode atau tugas analisis yang besar, saya lebih suka kimi dengan banyak pagar pembatas seperti yang kita ada.
37,37K
Teratas
Peringkat
Favorit