Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 не готовий до роботи виробничого агента. Можливо, Кімі такий. Більше надходжень (як і в будь-якому хорошому бухгалтерському обліку)
Запускав GPT-5 з Opus 4.1, але це зайняло так багато часу, що я в підсумку запустив 3 моделі, чекаючи, поки GPT-5 закінчиться.
Пробіжки тут трохи гіпервербальні, тому моя коротка анотація:
1. Виконання інструкцій
Серед іншого, його попросили "використовувати надане робоче середовище TypeScript"
-GPT-5: Ігнорували протягом 15 хвилин, спочатку записали 31 команду оболонки
-Kimi: Спробував TypeScript негайно (не вдалося 3 рази на шляхах, але продовжував намагатися)
-Opus: TypeScript на 2-й хвилині
-Сонет: TypeScript на 7 хвилині
2. Обробка помилок
-GPT-5: команда з 500 символами зазнає невдачі → розширюється до 2000+ символів → все ще не працює → продовжує розширюватися
-Kimi: Помилка шляху 3x → нарешті спрощує → працює
-Opus: 95% працюють з першого разу
-Сонет: Інструмент відсутній → перемикає підхід → продовжується
3. Унікальні знахідки (наша основна робота - варта окремого посту)
-GPT-5: Зміни схеми (RIDRETH2→RIDRETH3), шаблони іменування (_J суфікс)
-Kimi: Базова перевірка - існує SEQN, 9966 учасників
-Сонет: Психічне здоров'я приховано в іншому/, 1,4 млн рядків файлів
-Opus: 86% розрідженості, діапазон 2-323 колонок
4. Кодове виробництво
-GPT-5: inventory.ts з 2000+ вбудованими символами
-Kimi: simple_validate.ts - мінімальний, але працює
-Сонет: comprehensive_analysis.ts - чистий поділ
-Opus: 3 модульні файли - розширюваний фреймворк
5. Ресурси
-Кімі: 14 хв, 1,59 долара
-Сонет: 6 хв, 1,87 долара
-GPT-5: 27 хв, 5,04 долара
-Opus: 10 хв, 10,46 доларів США
Тим не менш, я бачу, що GPT-5 знає багато технічних хитрощів і досить здібний актор на базовому рівні - але має високу похибку та ризик відхилення від точки (що він робив кілька разів із цим завданням).
Можливо, я використовую його для швидкого налагодження, але це величезна кодова база або завдання з аналізу, я б віддав перевагу kimi з безліччю огорож, як ми стоїмо.
58,27K
Найкращі
Рейтинг
Вибране