Poderíamos saber se o gpt-oss estava a memorizar os seus dados de treino? Ou seja, pontos onde está a raciocinar em vez de recitar? Demos uma rápida olhada na curvatura da paisagem de perda do modelo de 20B para entender a memorização e o que está a acontecer internamente durante o raciocínio.
22,7K