GPT-OSS tiene un rendimiento inferior incluso en los puntos de referencia que requieren una llamada de herramientas sin procesar. Por ejemplo, CORE-Bench requiere que los agentes ejecuten comandos bash para reproducir artículos científicos. DeepSeek V3 obtiene una puntuación del 18%. GPT-OSS obtiene una puntuación del 11%.
Nathan Lambert
Nathan Lambert12 ago, 23:44
GPT-OSS es solo un motor de procesamiento / razonamiento de herramientas. Una especie de modelo abierto difícil de usar. La tracción en mi opinión será limitada. La mejor manera de obtener tracción es lanzar modelos que sean flexibles, fáciles de usar sin herramientas y confiables. Luego, modelos interesantes a medida, como el uso de herramientas más adelante
6.09K