我這個週末用 GPT-5 改變了一個實現,並用它進行了高層次的設計,效果真的很好。然後我決定讓它嘗試實現,結果 Elixir 代碼奇怪且帶有 Ruby 的影響,糟透了,所以我又回到 Claude 進行實現。
Perry E. Metzger
Perry E. Metzger8月11日 22:57
我看到很多人談論他們認為 GPT-5 比之前的模型差。我無法評論他們的經歷,但我自己的經歷恰恰相反。 昨天,我讓 GPT-5 Thinking 為我設計了一種複雜的特定領域語言,用於指定 CPU 中機器指令的語義。(這個東西的目的是讓創建和維護舊計算機模擬器變得更容易,這是我的一個愛好。) 這個 LLM 雖然不是完美的,但表現得非常出色,並在這項任務中展現了一些真正的創造力。最終的 DSL 非常出色,如果我手動完成,將需要大量的工作。我還沒有完全完成與 LLM 在規範上的合作,但當我完成時,我懷疑它能夠一次性完成大部分編譯器的工作。 也許對某些人來說,這個東西的表現不佳;我不知道他們想做什麼。我也無法評論他們對“個性”等事物的品味,此外,我的系統提示隱含地要求模型保持超專業和乏味。(我也對 AI 提供陪伴或情感支持沒有興趣,不想與它建立寄生社交關係。) 對我來說,它確實做得很好,並且在一個極其複雜的技術任務上。 請注意,我非常了解我要求系統執行的工作,我能夠捕捉到它所犯的錯誤並加以糾正,我認為經過幾次迭代後,95% 完成的工作是一個非常好的結果,因為我可以糾正剩下的部分。 也許如果你試圖讓這個東西一次性完成一個有效的電路設計,而你對電氣工程一無所知,那麼它仍然無法滿足你的需求。但對我來說,這是一個驚人的工具,並且比 o3 有了明顯的改進。
但在理解我試圖做的事情、提出一個很好的模式以及高層次計劃方面,它比我迄今所見的任何東西都要好。只有在較低層次的編碼上它表現不佳——通常在編碼的LLM中,情況正好相反。
1.52K