GPT-OSS демонструє низькі результати навіть на бенчмарках, які вимагають виклику сирих інструментів. Наприклад, CORE-Bench вимагає від агентів виконувати команди bash для відтворення наукових робіт. DeepSeek V3 набирає 18%. GPT-OSS набирає 11%.
Nathan Lambert
Nathan Lambert12 серп., 23:44
GPPT-OSS — це лише механізм обробки / міркування інструментів. Така собі жорстка відкрита у використанні модель. Тяга імо буде обмежена. Найкращий спосіб отримати зчеплення – це випускати моделі, які є гнучкими, простими у використанні без інструментів та надійними. Потім на замовлення цікаві моделі, наприклад, використання інструменту
6,09K