GPT-OSS показывает низкие результаты даже на тестах, которые требуют прямого вызова инструментов. Например, CORE-Bench требует от агентов выполнения bash-команд для воспроизведения научных статей. DeepSeek V3 набирает 18%. GPT-OSS набирает 11%.
Nathan Lambert
Nathan Lambert12 авг., 23:44
gpt-oss — это инструмент, который является только движком обработки / рассуждения. Это своего рода сложная открытая модель для использования. На мой взгляд, интерес к ней будет ограничен. Лучший способ привлечь внимание — выпустить модели, которые гибкие, простые в использовании без инструментов и надежные. Затем, позже, можно создать интересные модели на заказ, такие как использование инструментов.
6,1K