Oof openai nos disse que eles fizeram modelos de raciocínio para que pudéssemos nos aproximar de modelos que inovam - acho que só temos que desligar o modo de raciocínio e chegaremos lá
Jony Ive: "Você tem que rejeitar a razão para inovar"
"Se não foi feito e é valioso, há boas razões para não ter sido feito. E então, quando você é confrontado com essas razões, você tem duas opções. Você pode dizer: 'Oh, esse é um bom motivo, sinto muito por incomodá-lo'. Ou você pode dizer: 'Eu não acredito nisso. Vou descobrir mais.'"
Jony Ive continua:
"George Bernard Shaw falou sobre como você tem que rejeitar a razão para inovar. Você tem que dizer: 'Nós entendemos. Tudo isso é muito razoável. Mas vou ignorá-lo completamente. E se você é uma pessoa bastante sensível, ignorar pessoas muito inteligentes é realmente difícil... [Mas] essa decisão de ignorar a opção de especialista acontece toda vez que fazemos algo novo."
Apenas um PSA amigável que avalia são ambientes != rl.
A principal razão para isso é que as avaliações normalmente não recompensam o hack, o RL online geralmente encontrará uma maneira se você deixar um aberto.
Você pode construir avaliações que são ambientes == rl, mas elas devem ser muito mais reforçadas do que o normal.