Tento víkend jsem změnil implementaci pomocí GPT-5 a použil ji pro návrh vyšší úrovně a bylo to opravdu dobré. Pak jsem se rozhodl, že to nechám zkusit a kód Elixíru byl bizarní, ovlivněný Ruby a hrozný, takže jsem se vrátil k Claudovi pro implementaci.
Perry E. Metzger
Perry E. Metzger11. 8. 22:57
Viděl jsem spoustu lidí, kteří mluvili o tom, jak zjistili, že GPT-5 je o krok dolů oproti předchozím modelům. Nemohu mluvit o jejich zkušenostech, ale moje vlastní byla opačná. Včera jsem si od GPT-5 Thinking nechal navrhnout komplikovaný doménově specifický jazyk pro specifikaci sémantiky strojových instrukcí v procesorech. (Účelem této věci je usnadnit vytváření a údržbu emulátorů pro staré počítače, což je můj koníček.) LLM nebyl dokonalý, ale odvedl vynikající práci a prokázal skutečnou kreativitu v tomto úkolu. Výsledný DSL je vynikající a vyžadoval by spoustu práce, kdybych to dělal ručně. Ještě jsem úplně nedokončil práci s LLM na specifikaci, ale až to udělám, mám podezření, že bude schopen jednou střelou zvládnout většinu kompilátoru. U některých lidí to možná funguje špatně; Nevím, o co se snaží. Také nemohu mluvit do jejich vkusu ve věcech jako je "osobnost" a kromě toho, můj systémový prompt implicitně žádá modelku, aby byla ultra profesionální a nevýrazná. (Také nemám zájem o to, aby mi umělá inteligence poskytovala společnost nebo emocionální podporu, a nechci s ní mít parasociální vztah.) Za mě určitě odvádí opravdu dobrou práci, a to na extrémně složitém technickém úkolu. Všimněte si, že velmi dobře rozumím práci, kterou od systému žádám, jsem schopen zachytit chyby, které dělá, a opravit je, a práci, která je po několika iteracích z 95 % hotová, považuji za opravdu dobrý výsledek, protože mohu opravit zbytek. Možná, že pokud se snažíte, aby věc byla jedním pokusem o návrh funkčního obvodu a neznáte žádnou elektrotechniku, ta věc stále nedělá to, co chcete. Pro mě je to však úžasný nástroj a je to výrazné zlepšení oproti o3.
Ale pokud jde o pochopení toho, co jsem se snažil udělat, a vymyslet pro to skvělý vzor a plán na vysoké úrovni, bylo to lepší než cokoli, co jsem dosud viděl. Bylo to pouze kódování na nižší úrovni, které zavětřil - obvykle u kódovacích LLM je opak pravdou.
1,43K