Il est surprenant de constater l'intérêt limité pour l'inspection qualitative des CoTs de gpt-oss. Je veux dire, ce sont eux qui ont créé le paradigme, je suppose qu'ils n'utilisent pas de variantes GRPO comme ≈tout le monde, y a-t-il des différences ? Non, les gens ne se soucient que des capacités.
1,93K