Я заметил, что многие люди говорят о том, что они считают GPT-5 шагом назад по сравнению с предыдущими моделями. Я не могу говорить об их опыте, но мой собственный был противоположным. Вчера я попросил GPT-5 Thinking разработать сложный специализированный язык для указания семантики машинных инструкций в ЦП. (Цель этого заключается в том, чтобы упростить создание и поддержку эмуляторов для старых компьютеров, что является моим хобби.) LLM не был идеален, но справился с задачей на отлично и продемонстрировал настоящую креативность. Получившийся DSL отличный и потребовал бы кучу работы, если бы я делал это вручную. Я еще не закончил работу с LLM над спецификацией, но когда я это сделаю, я подозреваю, что он сможет выполнить большую часть компилятора с одного раза. Возможно, для некоторых людей эта вещь работает плохо; я не знаю, что они пытаются сделать. Я также не могу говорить о их вкусах в таких вещах, как "личность", и кроме того, мой системный запрос неявно просит модель быть ультра профессиональной и безликой. (Мне также не интересно, чтобы ИИ предоставлял мне компанию или эмоциональную поддержку, и я не хочу иметь парасоциальные отношения с ним.) Для меня он определенно делает отличную работу, и это касается крайне сложной технической задачи. Обратите внимание, что я прекрасно понимаю работу, которую я прошу систему выполнить, я в состоянии заметить ошибки, которые она делает, и исправить их, и я считаю работу, выполненную на 95% после нескольких итераций, действительно хорошим результатом, потому что я могу исправить остальное. Возможно, если вы пытаетесь заставить эту вещь с одного раза создать рабочий проект схемы и не знаете электротехнику, она все еще не делает то, что вам нужно. Для меня же это удивительный инструмент и явное улучшение по сравнению с o3.
Я вижу много жалоб на то, что личность "как переутомленный секретарь", и я никогда не испытывал ничего подобного, но, с другой стороны, я использую системный запрос, и, похоже, большинство людей этого не делают, и я никогда не использую модель без рассуждений, и, похоже, что большинство людей используют только версию модели без рассуждений.
43,52K