O GPT-OSS tem um desempenho inferior mesmo em benchmarks que exigem chamadas de ferramentas brutas. Por exemplo, o CORE-Bench exige que os agentes executem comandos bash para reproduzir artigos científicos. O DeepSeek V3 pontua 18%. GPT-OSS pontua 11%.
Nathan Lambert
Nathan Lambert12 de ago., 23:44
O GPT-OSS é apenas um mecanismo de processamento / raciocínio de ferramentas. Uma espécie de modelo aberto difícil de usar. A tração imo será limitada. A melhor maneira de obter tração é lançar modelos flexíveis, fáceis de usar sem ferramentas e confiáveis. Em seguida, modelos interessantes sob medida, como o uso de ferramentas mais tarde
6,09K