Poderíamos dizer se o gpt-oss estava memorizando seus dados de treinamento? Ou seja, pontos em que é raciocinar versus recitar? Demos uma olhada rápida na curvatura da paisagem de perda do modelo 20B para entender a memorização e o que está acontecendo internamente durante o raciocínio
22,7K