Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
GPT-5 nie jest gotowy do pracy agentowej w produkcji. Kimi może być. Więcej dowodów (jak w każdej dobrej księgowości)
Uruchomiłem GPT-5 z Opus 4.1, ale zajęło to tak długo, że w końcu uruchomiłem 3 modele, czekając na zakończenie GPT-5.
Uruchomienia tutaj są trochę hiperwerbalne, więc moja szybka adnotacja:
1. Śledzenie instrukcji
Poproszono o "użycie dostarczonego środowiska TypeScript" między innymi
-GPT-5: Ignorował przez 15 minut, najpierw napisał 31 poleceń shell
-Kimi: Od razu spróbował TypeScript (3 razy nie udało się z ścieżkami, ale nadal próbował)
-Opus: TypeScript w 2. minucie
-Sonnet: TypeScript w 7. minucie
2. Obsługa błędów
-GPT-5: 500-znakowe polecenie nie działa → rozszerza się do 2000+ znaków → nadal nie działa → nadal się rozszerza
-Kimi: Błąd ścieżki 3 razy → w końcu upraszcza → działa
-Opus: 95% działa za pierwszym razem
-Sonnet: Brak narzędzia → zmienia podejście → kontynuuje
3. Unikalne odkrycia (nasza podstawowa praca - warta osobnego posta)
-GPT-5: Zmiany schematu (RIDRETH2→RIDRETH3), wzorce nazewnictwa (_J suffix)
-Kimi: Podstawowa walidacja - SEQN istnieje, 9966 uczestników
-Sonnet: Zdrowie psychiczne ukryte w Other/, 1,4M plików wierszy
-Opus: 86% zaprojektowanej rzadkości, zakres kolumn 2-323
4. Wygenerowany kod
-GPT-5: inventory.ts z osadzonym skryptem bash o długości 2000+ znaków
-Kimi: simple_validate.ts - minimalny, ale działa
-Sonnet: comprehensive_analysis.ts - czyste rozdzielenie
-Opus: 3 modułowe pliki - rozszerzalna struktura
5. Zasoby
-Kimi: 14 min, 1,59 USD
-Sonnet: 6 min, 1,87 USD
-GPT-5: 27 min, 5,04 USD
-Opus: 10 min, 10,46 USD
Mówiąc to, widzę, że GPT-5 zna wiele technicznych sztuczek i jest dość zdolnym aktorem na poziomie podstawowym - ale wiąże się z dużym marginesem błędu i ryzykiem odchylenia od tematu (co robił wielokrotnie w tym zadaniu).
Mogę go użyć do szybkiego debugowania, ale w przypadku dużej bazy kodu lub zadania analitycznego, wolałbym Kimi z wieloma zabezpieczeniami, jak na razie.
58,27K
Najlepsze
Ranking
Ulubione