Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Apresentando `:exacto`, Ferramenta de Precisão - Chamadas de Endpoints OpenRouter agora oferece um subconjunto selecionado de provedores em cima de modelos de código aberto com uma precisão de chamada de ferramenta mensuravelmente mais alta, proporcionando um uso de ferramenta mais confiável.

Leia todos os detalhes no nosso post do blog: ou continue a ler o tópico para o resumo.

Por que isso é importante: Mesmo quando os provedores hospedam *os mesmos pesos do modelo*, a qualidade da inferência no mundo real pode diferir. Executar bilhões de solicitações por mês dá ao OpenRouter um ponto de vista único para detectar essas variações e apresentar automaticamente os provedores mais precisos.

Como medimos a qualidade do uso de ferramentas: • Validade do JSON • Nome da ferramenta e correspondência do esquema • Propensão ao uso da ferramenta (tendência a chamar ferramentas) • Preferências de ignorar/lista negra do usuário • Referências externas (τ²-Bench, LiveMCPBench via @GroqInc OpenBench)

Estes dados revelam que a precisão na chamada de ferramentas varia muito mais entre os fornecedores do que os benchmarks convencionais sugerem, mesmo para o mesmo modelo de peso aberto. Por isso, construímos endpoints que roteiam *apenas* para os mais confiáveis.

Os modelos de lançamento incluem: `moonshotai/kimi-k2-0905:exacto` `deepseek/deepseek-v3.1-terminus:exacto` `z-ai/glm-4.6:exacto` `openai/gpt-oss-120b:exacto` `qwen/qwen3-coder:exacto` Veja todos aqui .

Modelos exatos + combinações de provedores: Kimi K2: @GroqInc e @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra, e @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3 Coder: @basetenco, @cerebras, e @GoogleAI DeepSeek Terminus: @AtlasCloud_AI, DeepInfra, e Novita

Use-os como qualquer outro modelo, apenas acrescente `:exacto`: ```bash curl \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Qual é a capital da França?"}]}' ```

Os benchmarks e as avaliações internas mostram um aumento significativo nas taxas de sucesso das chamadas de ferramentas em todos os modelos `:exacto`, com menos JSONs inválidos, menos incompatibilidades de esquema e maior confiabilidade no mundo real. Um agradecimento à OpenBench da @GroqInc pelo suporte na avaliação e pelo recém-adicionado LiveMCPBench.

A variante `:exacto` é focada puramente na precisão da chamada de ferramentas, não numa classificação geral da qualidade do fornecedor. Continuaremos a expandir estes endpoints e a partilhar mais dados agregados mais tarde este ano.

139,19K

Top

Classificação

Favoritos