GPT-5 не готовий до роботи виробничого агента. Можливо, Кімі такий. Більше надходжень (як і в будь-якому хорошому бухгалтерському обліку) Запускав GPT-5 з Opus 4.1, але це зайняло так багато часу, що я в підсумку запустив 3 моделі, чекаючи, поки GPT-5 закінчиться. Пробіжки тут трохи гіпервербальні, тому моя коротка анотація: 1. Виконання інструкцій Серед іншого, його попросили "використовувати надане робоче середовище TypeScript" -GPT-5: Ігнорували протягом 15 хвилин, спочатку записали 31 команду оболонки -Kimi: Спробував TypeScript негайно (не вдалося 3 рази на шляхах, але продовжував намагатися) -Opus: TypeScript на 2-й хвилині -Сонет: TypeScript на 7 хвилині 2. Обробка помилок -GPT-5: команда з 500 символами зазнає невдачі → розширюється до 2000+ символів → все ще не працює → продовжує розширюватися -Kimi: Помилка шляху 3x → нарешті спрощує → працює -Opus: 95% працюють з першого разу -Сонет: Інструмент відсутній → перемикає підхід → продовжується 3. Унікальні знахідки (наша основна робота - варта окремого посту) -GPT-5: Зміни схеми (RIDRETH2→RIDRETH3), шаблони іменування (_J суфікс) -Kimi: Базова перевірка - існує SEQN, 9966 учасників -Сонет: Психічне здоров'я приховано в іншому/, 1,4 млн рядків файлів -Opus: 86% розрідженості, діапазон 2-323 колонок 4. Кодове виробництво -GPT-5: inventory.ts з 2000+ вбудованими символами -Kimi: simple_validate.ts - мінімальний, але працює -Сонет: comprehensive_analysis.ts - чистий поділ -Opus: 3 модульні файли - розширюваний фреймворк 5. Ресурси -Кімі: 14 хв, 1,59 долара -Сонет: 6 хв, 1,87 долара -GPT-5: 27 хв, 5,04 долара -Opus: 10 хв, 10,46 доларів США Тим не менш, я бачу, що GPT-5 знає багато технічних хитрощів і досить здібний актор на базовому рівні - але має високу похибку та ризик відхилення від точки (що він робив кілька разів із цим завданням). Можливо, я використовую його для швидкого налагодження, але це величезна кодова база або завдання з аналізу, я б віддав перевагу kimi з безліччю огорож, як ми стоїмо.
58,27K