Да, это, похоже, было правильно, учитывая одного агента против grok 4 с тяжелым многопользовательским агентом.
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc11 июл. 2025 г.
Hearing a few whispers now from birds that internal evals are having gpt5 a tad over grok 4 Heavy. Evals only tell one side to a model however, curious to see if we get any major agentic or other improvements.
25,13K