Tenho visto um monte de pessoas falando sobre como descobriram que o GPT-5 está um passo abaixo dos modelos anteriores. Não posso falar sobre a experiência deles, mas a minha tem sido o oposto. Ontem eu pedi ao GPT-5 Thinking que projetasse uma linguagem específica de domínio complicada para mim para especificar a semântica das instruções da máquina em CPUs. (O objetivo da coisa é facilitar a criação e manutenção de emuladores para computadores antigos, que é um hobby meu.) O LLM não foi perfeito, mas fez um excelente trabalho e demonstrou alguma criatividade real na tarefa. O DSL resultante é excelente e teria exigido uma tonelada de trabalho se eu tivesse feito isso manualmente. Ainda não terminei totalmente de trabalhar com o LLM na especificação, mas quando o fizer, suspeito que ele será capaz de disparar a maior parte do compilador. Talvez para algumas pessoas a coisa esteja funcionando mal; Eu não sei o que eles estão tentando fazer. Também não posso falar sobre seus gostos em coisas como "personalidade" e, além disso, meu prompt do sistema pede implicitamente que o modelo seja ultra profissional e sem graça. (Também não tenho interesse em que a IA me forneça companheirismo ou apoio emocional e não quero ter um relacionamento parassocial com ela.) Para mim, certamente está fazendo um trabalho muito bom e em uma tarefa técnica extremamente complicada. Observe que entendo o trabalho que estou pedindo ao sistema para fazer extremamente bem, estou em posição de detectar erros que ele está cometendo e corrigi-los, e considero um trabalho que está 95% concluído após algumas iterações como um resultado muito bom porque posso corrigir o resto. Talvez se você está tentando fazer com que a coisa tenha um projeto de circuito funcional e não conheça engenharia elétrica, a coisa ainda não está fazendo o que você quer. Para mim, porém, é uma ferramenta incrível e é uma melhoria distinta em relação ao o3.
Vejo muitas reclamações sobre a personalidade ser "como uma secretária sobrecarregada", e nunca experimentei nada assim, mas, novamente, eu uso um prompt do sistema e parece que a maioria das pessoas não, e eu nunca uso o modelo sem raciocínio, e parece que a maioria das pessoas usa apenas a versão sem raciocínio do modelo.
43,53K