GPT-OSS tiene un rendimiento inferior incluso en benchmarks que requieren llamadas a herramientas en bruto. Por ejemplo, CORE-Bench requiere que los agentes ejecuten comandos bash para reproducir artículos científicos. DeepSeek V3 obtiene un 18%. GPT-OSS obtiene un 11%.
Nathan Lambert
Nathan Lambert12 ago, 23:44
gpt-oss es una herramienta que funciona como motor de procesamiento / razonamiento. Es un modelo abierto bastante difícil de usar. En mi opinión, la tracción será limitada. La mejor manera de obtener tracción es lanzar modelos que sean flexibles, fáciles de usar sin herramientas y fiables. Luego, modelos interesantes a medida como el uso de herramientas más adelante.
6,1K