Esittelyssä ':exacto', tarkat työkalukutsujen päätepisteet OpenRouter tarjoaa nyt kuratoidun joukon palveluntarjoajia avoimen lähdekoodin huippumalleissa, joilla on mitattavasti korkeampi työkalujen kutsutarkkuus, mikä takaa luotettavamman työkalujen käytön.
Lue kaikki yksityiskohdat blogikirjoituksestamme: tai jatka tiivistelmän lukemista.
Miksi tällä on merkitystä: Vaikka palveluntarjoajat isännöisivät *samoja mallipainoja*, reaalimaailman päättelyn laatu voi vaihdella. Miljardien pyyntöjen suorittaminen kuukaudessa antaa OpenRouterille ainutlaatuisen näköalapaikan havaita nämä varianssit ja tuoda esiin tarkimmat palveluntarjoajat automaattisesti.
Miten mittaamme työkalujen käytön laatua: • JSON-validiteetti • Työkalun nimen ja skeeman vastaavuudet • Työkalujen käyttötaipumus (taipumus kutsua työkaluja) • Käyttäjän ohitus-/mustalista-asetukset • Ulkoiset vertailuarvot (τ²-Bench, LiveMCPBench @GroqInc OpenBenchin kautta)
Nämä tiedot paljastavat, että työkalujen kutsun tarkkuus vaihtelee palveluntarjoajien välillä paljon enemmän kuin perinteiset vertailuarvot antavat ymmärtää, jopa samassa avoimen painon mallissa. Joten rakensimme päätepisteitä, jotka reitittävät *vain* luotettavimpiin.
Lanseerausmalleja ovat: 'moonshotai/kimi-k2-0905:exacto' "deepseek/deepseek-v3.1-terminus:exacto" 'Z-AI/GLM-4.6:Exacto' 'OpenAI/GPT-OSS-120B:Exacto' 'qwen/qwen3-koodari:exacto' Katso ne kaikki täältä.
Exacto-mallit + palveluntarjoajayhdistelmät: Kimi K2: @GroqInc ja @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra ja @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3-koodari: @basetenco, @cerebras ja @GoogleAI DeepSeek-päätepisteet: @AtlasCloud_AI, DeepInfra ja Novita
Käytä niitä kuten mitä tahansa muuta mallia, liitä vain ':exacto': '''Lyö kihara\ -h "Valtuutus: Haltija $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Mikä on Ranskan pääkaupunki?"}]}' ```
Vertailuarvot ja sisäiset tulokset osoittavat merkittävää parannusta työkalukutsujen onnistumisprosenteissa kaikissa :exacto-malleissa, vähemmän virheellisiä JSON-tiedostoja, vähemmän skeemaristiriitoja ja parempaa reaalimaailman luotettavuutta. Huuto @GroqInc's OpenBenchille eval-valjaista ja äskettäin lisätystä LiveMCPBenchistä.
":exacto"-versio keskittyy puhtaasti työkalujen kutsun tarkkuuteen, ei palveluntarjoajan laadun yleiseen sijoitukseen. Jatkamme näiden päätepisteiden laajentamista ja jaamme lisää koottuja tietoja myöhemmin tänä vuonna.
139,18K