Questo fine settimana ho cambiato un'implementazione con GPT-5 e l'ho usato per il design di alto livello, ed è stato davvero buono. Poi ho deciso di lasciarlo provare a implementarlo e il codice Elixir era bizzarro, influenzato da Ruby e terribile, quindi sono tornato a Claude per l'implementazione.
Perry E. Metzger
Perry E. Metzger11 ago, 22:57
Ho visto molte persone parlare di come abbiano trovato GPT-5 un passo indietro rispetto ai modelli precedenti. Non posso parlare della loro esperienza, ma la mia è stata opposta. Ieri ho fatto progettare a GPT-5 Thinking un linguaggio specifico per un dominio complicato per specificare la semantica delle istruzioni macchina nei CPU. (Lo scopo di questa cosa è rendere più facile creare e mantenere emulatori per vecchi computer, che è un mio hobby.) Il LLM non era perfetto, ma ha fatto un ottimo lavoro e ha dimostrato una vera creatività nel compito. Il DSL risultante è eccellente e avrebbe richiesto un sacco di lavoro se l'avessi fatto a mano. Non ho ancora finito di lavorare con il LLM sulla specifica, ma quando lo farò, sospetto che sarà in grado di completare la maggior parte del compilatore in un colpo solo. Forse per alcune persone questa cosa sta funzionando male; non so cosa stiano cercando di fare. Non posso nemmeno parlare dei loro gusti su cose come "personalità", e inoltre, il mio prompt di sistema chiede implicitamente al modello di essere ultra professionale e neutro. (Non ho nemmeno interesse che l'AI mi fornisca compagnia o supporto emotivo e non voglio avere una relazione parasociale con essa.) Per me, sta certamente facendo un ottimo lavoro, e su un compito tecnico estremamente complicato. Nota che capisco estremamente bene il lavoro che sto chiedendo al sistema di fare, sono in grado di cogliere gli errori che sta facendo e correggerli, e considero un lavoro che è completato al 95% dopo alcune iterazioni un ottimo risultato perché posso correggere il resto. Forse se stai cercando di far fare alla cosa un design di circuito funzionante in un colpo solo e non conosci l'ingegneria elettrica, la cosa non sta ancora facendo ciò che vuoi. Per me, però, è uno strumento straordinario e rappresenta un miglioramento netto rispetto a o3.
Ma in termini di comprensione di ciò che stavo cercando di fare, e di trovare un ottimo schema per questo, e un piano ad alto livello, è stato migliore di qualsiasi cosa abbia visto finora. Era solo la codifica a livello inferiore che ha fallito -- di solito con i LLM di codifica è vero il contrario.
1,53K