Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 не готов к производственной агентной работе. Kimi может быть готов. Больше доказательств (как и в любом хорошем учете)
Запустил GPT-5 с Opus 4.1, но это заняло так много времени, что я в итоге запустил 3 модели, пока ждал завершения GPT-5.
Запуски здесь немного гипервербальны, поэтому моя быстрая аннотация:
1. Следование инструкциям
Попросил "использовать предоставленное рабочее пространство TypeScript" среди прочего
-GPT-5: Игнорировал в течение 15 минут, сначала написал 31 команду оболочки
-Kimi: Сразу попробовал TypeScript (не удалось 3 раза по путям, но продолжал пытаться)
-Opus: TypeScript на 2-й минуте
-Sonnet: TypeScript на 7-й минуте
2. Обработка ошибок
-GPT-5: Команда на 500 символов не срабатывает → расширяется до 2000+ символов → все равно не срабатывает → продолжает расширяться
-Kimi: Ошибка пути 3 раза → наконец упрощает → работает
-Opus: 95% работоспособности с первого раза
-Sonnet: Инструмент отсутствует → меняет подход → продолжает
3. Уникальные находки (наша основная работа - стоит отдельного поста)
-GPT-5: Изменения схемы (RIDRETH2→RIDRETH3), шаблоны именования (_J суффикс)
-Kimi: Базовая валидация - SEQN существует, 9966 участников
-Sonnet: Психическое здоровье скрыто в Other/, 1.4M строк файлов
-Opus: 86% спроектированной разреженности, диапазон столбцов 2-323
4. Сгенерированный код
-GPT-5: inventory.ts с встроенным bash на 2000+ символов
-Kimi: simple_validate.ts - минимальный, но работает
-Sonnet: comprehensive_analysis.ts - чистое разделение
-Opus: 3 модульных файла - расширяемая структура
5. Ресурсы
-Kimi: 14 мин, $1.59
-Sonnet: 6 мин, $1.87
-GPT-5: 27 мин, $5.04
-Opus: 10 мин, $10.46
Тем не менее, я вижу, что GPT-5 знает много технических трюков и довольно способный актер на базовом уровне - но имеет высокую погрешность и риск отклонения от темы (что он делал несколько раз с этой задачей).
Я могу использовать его для быстрого отладки, но для масштабной кодовой базы или аналитической задачи я предпочел бы Kimi с множеством защитных мер, как мы сейчас.
61,07K
Топ
Рейтинг
Избранное