Zaskakujące, jak małe zainteresowanie było jakościowym badaniem CoT gpt-oss. Mam na myśli, że to oni stworzyli ten paradygmat, chyba nie używają wariantów GRPO jak ≈wszyscy inni, czy są jakieś różnice? Nie, ludzi interesują tylko możliwości.
1,93K