Удивительно, как мало интереса было к качественной проверке CoT gpt-oss. Я имею в виду, это же они создали парадигму, я полагаю, они не используют варианты GRPO, как ≈все остальные, есть ли различия? Нет, людям важны только возможности.
1,94K