Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Esittelyssä ':exacto', tarkat työkalukutsujen päätepisteet
OpenRouter tarjoaa nyt kuratoidun joukon palveluntarjoajia avoimen lähdekoodin huippumalleissa, joilla on mitattavasti korkeampi työkalujen kutsutarkkuus, mikä takaa luotettavamman työkalujen käytön.

Lue kaikki yksityiskohdat blogikirjoituksestamme: tai jatka tiivistelmän lukemista.

Miksi tällä on merkitystä:
Vaikka palveluntarjoajat isännöisivät *samoja mallipainoja*, reaalimaailman päättelyn laatu voi vaihdella.
Miljardien pyyntöjen suorittaminen kuukaudessa antaa OpenRouterille ainutlaatuisen näköalapaikan havaita nämä varianssit ja tuoda esiin tarkimmat palveluntarjoajat automaattisesti.
Miten mittaamme työkalujen käytön laatua:
• JSON-validiteetti
• Työkalun nimen ja skeeman vastaavuudet
• Työkalujen käyttötaipumus (taipumus kutsua työkaluja)
• Käyttäjän ohitus-/mustalista-asetukset
• Ulkoiset vertailuarvot (τ²-Bench, LiveMCPBench @GroqInc OpenBenchin kautta)

Nämä tiedot paljastavat, että työkalujen kutsun tarkkuus vaihtelee palveluntarjoajien välillä paljon enemmän kuin perinteiset vertailuarvot antavat ymmärtää, jopa samassa avoimen painon mallissa.
Joten rakensimme päätepisteitä, jotka reitittävät *vain* luotettavimpiin.

Lanseerausmalleja ovat:
'moonshotai/kimi-k2-0905:exacto'
"deepseek/deepseek-v3.1-terminus:exacto"
'Z-AI/GLM-4.6:Exacto'
'OpenAI/GPT-OSS-120B:Exacto'
'qwen/qwen3-koodari:exacto'
Katso ne kaikki täältä.

Exacto-mallit + palveluntarjoajayhdistelmät:
Kimi K2: @GroqInc ja @Kimi_Moonshot
GLM-4.6: @novita_labs, @DeepInfra ja @Zai_org
gpt-oss-120b: Groq, DeepInfra, Novita
Qwen3-koodari: @basetenco, @cerebras ja @GoogleAI
DeepSeek-päätepisteet: @AtlasCloud_AI, DeepInfra ja Novita
Käytä niitä kuten mitä tahansa muuta mallia, liitä vain ':exacto':
'''Lyö
kihara\
-h "Valtuutus: Haltija $OPENROUTER_API_KEY" \
-d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Mikä on Ranskan pääkaupunki?"}]}'
```
Vertailuarvot ja sisäiset tulokset osoittavat merkittävää parannusta työkalukutsujen onnistumisprosenteissa kaikissa :exacto-malleissa, vähemmän virheellisiä JSON-tiedostoja, vähemmän skeemaristiriitoja ja parempaa reaalimaailman luotettavuutta. Huuto @GroqInc's OpenBenchille eval-valjaista ja äskettäin lisätystä LiveMCPBenchistä.

":exacto"-versio keskittyy puhtaasti työkalujen kutsun tarkkuuteen, ei palveluntarjoajan laadun yleiseen sijoitukseen.
Jatkamme näiden päätepisteiden laajentamista ja jaamme lisää koottuja tietoja myöhemmin tänä vuonna.
139,18K
Johtavat
Rankkaus
Suosikit

