W ten weekend zmieniłem implementację na GPT-5 i użyłem go do projektowania na wyższym poziomie, i było naprawdę dobrze. Potem postanowiłem pozwolić mu spróbować to zaimplementować, a kod Elixira był dziwaczny, z wpływami Ruby i okropny, więc wróciłem do Claude'a do implementacji.
Perry E. Metzger
Perry E. Metzger11 sie, 22:57
Widzę, że wiele osób mówi o tym, jak odkryli, że GPT-5 jest krokiem wstecz w porównaniu do poprzednich modeli. Nie mogę mówić o ich doświadczeniach, ale moje było wręcz odwrotne. Wczoraj poprosiłem GPT-5 Thinking o zaprojektowanie skomplikowanego języka specyficznego dla danej dziedziny, który miałby określać semantykę instrukcji maszynowych w CPU. (Celem tego jest ułatwienie tworzenia i utrzymywania emulatorów starych komputerów, co jest moim hobby.) LLM nie był idealny, ale wykonał świetną robotę i pokazał prawdziwą kreatywność w tym zadaniu. Ostateczny DSL jest doskonały i wymagałby mnóstwa pracy, gdybym robił to ręcznie. Nie skończyłem jeszcze całkowicie pracy z LLM nad specyfikacją, ale kiedy to zrobię, podejrzewam, że będzie w stanie wykonać większość kompilatora za jednym razem. Może dla niektórych osób to narzędzie działa słabo; nie wiem, co próbują zrobić. Nie mogę też mówić o ich gustach w kwestiach takich jak „osobowość”, a poza tym, mój systemowy prompt niejawnie prosi model o bycie ultra profesjonalnym i nijakim. (Nie interesuje mnie również, aby AI zapewniało mi towarzystwo lub wsparcie emocjonalne i nie chcę mieć z nim relacji parasocjalnej.) Dla mnie z pewnością wykonuje naprawdę dobrą robotę, i to w niezwykle skomplikowanym technicznym zadaniu. Zauważ, że doskonale rozumiem pracę, którą proszę system o wykonanie, jestem w stanie wychwycić błędy, które popełnia i je poprawić, a uważam, że praca wykonana w 95% po kilku iteracjach to naprawdę dobry wynik, ponieważ mogę poprawić resztę. Może jeśli próbujesz, aby to narzędzie wykonało projekt działającego obwodu za jednym razem i nie znasz inżynierii elektrycznej, to nadal nie robi tego, czego chcesz. Dla mnie jednak to niesamowite narzędzie i wyraźna poprawa w porównaniu do o3.
Ale jeśli chodzi o zrozumienie tego, co próbowałem zrobić, oraz wymyślenie świetnego wzoru i planu na wysokim poziomie, było to lepsze niż cokolwiek, co widziałem do tej pory. Tylko w przypadku kodowania na niższym poziomie nie wyszło to najlepiej – zazwyczaj w przypadku LLM do kodowania jest odwrotnie.
1,58K