GPT-5 nie jest gotowy do pracy agentowej w produkcji. Kimi może być. Więcej dowodów (jak w każdej dobrej księgowości) Uruchomiłem GPT-5 z Opus 4.1, ale zajęło to tak długo, że w końcu uruchomiłem 3 modele, czekając na zakończenie GPT-5. Uruchomienia tutaj są trochę hiperwerbalne, więc moja szybka adnotacja: 1. Śledzenie instrukcji Poproszono o "użycie dostarczonego środowiska TypeScript" między innymi -GPT-5: Ignorował przez 15 minut, najpierw napisał 31 poleceń shell -Kimi: Od razu spróbował TypeScript (3 razy nie udało się z ścieżkami, ale nadal próbował) -Opus: TypeScript w 2. minucie -Sonnet: TypeScript w 7. minucie 2. Obsługa błędów -GPT-5: 500-znakowe polecenie nie działa → rozszerza się do 2000+ znaków → nadal nie działa → nadal się rozszerza -Kimi: Błąd ścieżki 3 razy → w końcu upraszcza → działa -Opus: 95% działa za pierwszym razem -Sonnet: Brak narzędzia → zmienia podejście → kontynuuje 3. Unikalne odkrycia (nasza podstawowa praca - warta osobnego posta) -GPT-5: Zmiany schematu (RIDRETH2→RIDRETH3), wzorce nazewnictwa (_J suffix) -Kimi: Podstawowa walidacja - SEQN istnieje, 9966 uczestników -Sonnet: Zdrowie psychiczne ukryte w Other/, 1,4M plików wierszy -Opus: 86% zaprojektowanej rzadkości, zakres kolumn 2-323 4. Wygenerowany kod -GPT-5: inventory.ts z osadzonym skryptem bash o długości 2000+ znaków -Kimi: simple_validate.ts - minimalny, ale działa -Sonnet: comprehensive_analysis.ts - czyste rozdzielenie -Opus: 3 modułowe pliki - rozszerzalna struktura 5. Zasoby -Kimi: 14 min, 1,59 USD -Sonnet: 6 min, 1,87 USD -GPT-5: 27 min, 5,04 USD -Opus: 10 min, 10,46 USD Mówiąc to, widzę, że GPT-5 zna wiele technicznych sztuczek i jest dość zdolnym aktorem na poziomie podstawowym - ale wiąże się z dużym marginesem błędu i ryzykiem odchylenia od tematu (co robił wielokrotnie w tym zadaniu). Mogę go użyć do szybkiego debugowania, ale w przypadku dużej bazy kodu lub zadania analitycznego, wolałbym Kimi z wieloma zabezpieczeniami, jak na razie.
58,27K