Segala sesuatu yang membuat GPT-5 menjadi agen yang lebih baik membutuhkan pemikiran ulang bagaimana Anda merancang agen Anda
Stagehand 🤘
Stagehand 🤘8 Agu, 05.55
GPT-5 baru berkinerja lebih buruk daripada Opus 4.1 di Stagehand evals dalam kecepatan dan akurasi. Model yang lebih kecil lebih cepat, tetapi juga masih kurang dari Opus 4.1.
2,27K