Widzę, że wiele osób mówi o tym, jak odkryli, że GPT-5 jest krokiem wstecz w porównaniu do poprzednich modeli. Nie mogę mówić o ich doświadczeniach, ale moje było wręcz odwrotne. Wczoraj poprosiłem GPT-5 Thinking o zaprojektowanie skomplikowanego języka specyficznego dla danej dziedziny, który miałby określać semantykę instrukcji maszynowych w CPU. (Celem tego jest ułatwienie tworzenia i utrzymywania emulatorów starych komputerów, co jest moim hobby.) LLM nie był idealny, ale wykonał świetną robotę i pokazał prawdziwą kreatywność w tym zadaniu. Ostateczny DSL jest doskonały i wymagałby mnóstwa pracy, gdybym robił to ręcznie. Nie skończyłem jeszcze całkowicie pracy z LLM nad specyfikacją, ale kiedy to zrobię, podejrzewam, że będzie w stanie wykonać większość kompilatora za jednym razem. Może dla niektórych osób to narzędzie działa słabo; nie wiem, co próbują zrobić. Nie mogę też mówić o ich gustach w kwestiach takich jak „osobowość”, a poza tym, mój systemowy prompt niejawnie prosi model o bycie ultra profesjonalnym i nijakim. (Nie interesuje mnie również, aby AI zapewniało mi towarzystwo lub wsparcie emocjonalne i nie chcę mieć z nim relacji parasocjalnej.) Dla mnie z pewnością wykonuje naprawdę dobrą robotę, i to w niezwykle skomplikowanym technicznym zadaniu. Zauważ, że doskonale rozumiem pracę, którą proszę system o wykonanie, jestem w stanie wychwycić błędy, które popełnia i je poprawić, a uważam, że praca wykonana w 95% po kilku iteracjach to naprawdę dobry wynik, ponieważ mogę poprawić resztę. Może jeśli próbujesz, aby to narzędzie wykonało projekt działającego obwodu za jednym razem i nie znasz inżynierii elektrycznej, to nadal nie robi tego, czego chcesz. Dla mnie jednak to niesamowite narzędzie i wyraźna poprawa w porównaniu do o3.
Widzę wiele skarg na to, że osobowość jest „jak przepracowana sekretarka”, a ja nigdy nie doświadczyłem czegoś takiego, ale z drugiej strony, używam systemowego podpowiedzi i wydaje się, że większość ludzi tego nie robi, a ja nigdy nie używam modelu bez rozumowania, i wydaje się, że większość ludzi używa tylko wersji modelu bez rozumowania.
43,48K