DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Vi presenterar ':exacto', Precision Tool-Calling Endpoints OpenRouter erbjuder nu en utvald delmängd av leverantörer på de bästa modellerna med öppen källkod med mätbart högre noggrannhet för verktygsanrop, vilket ger en mer tillförlitlig verktygsanvändning.

Läs alla detaljer i vårt blogginlägg: eller fortsätt att läsa tråden för sammanfattningen.

Varför detta är viktigt: Även när leverantörer är värdar för *samma modellvikter* kan den verkliga inferenskvaliteten skilja sig åt. Att köra miljarder förfrågningar per månad ger OpenRouter en unik utsiktspunkt för att upptäcka dessa avvikelser och hitta de mest exakta leverantörerna automatiskt.

Så här mäter vi kvaliteten på verktygsanvändningen: • JSON-giltighet • Verktygsnamn och schemamatchningar • Benägenhet att använda verktyg (tendeny att anropa verktyg) • Inställningar för användarignorering/svartlista • Externa benchmarks (τ²-Bench, LiveMCPBench via @GroqInc OpenBench)

Dessa data visar att noggrannheten vid verktygsanrop varierar mycket mer mellan leverantörer än vad konventionella riktmärken antyder, även för samma modell med öppen vikt. Så vi byggde slutpunkter som *bara* dirigerar till de mest tillförlitliga.

Lanseringsmodeller inkluderar: 'Moonshotai/Kimi-K2-0905:exacto' 'deepseek/deepseek-v3.1-terminus:exacto' 'z-ai/glm-4.6:exacto' 'openai/gpt-oss-120b:exacto' 'qwen/qwen3-kodare:exacto' Se dem alla här.

Exacto modeller + leverantörskombinationer: Kimi K2: @GroqInc och @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra och @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3 Coder: @basetenco, @cerebras och @GoogleAI DeepSeek Terminus: @AtlasCloud_AI, DeepInfra och Novita

Använd dem som vilken annan modell som helst, lägg bara till ':exacto': '''bash hårlock\ -h "Auktorisering: Bärare $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Vad är Frankrikes huvudstad?"}]}' ```

Benchmarks och interna utvärderingar visar en väsentlig ökning av framgångsfrekvensen för verktygsanrop för alla ':exacto'-modeller, färre ogiltiga JSON:er, färre schemamatchningsfel och högre tillförlitlighet i verkligheten. Shoutout till @GroqInc's OpenBench för eval-selen och den nyligen tillagda LiveMCPBench.

Varianten ':exacto' är helt inriktad på precision vid verktygsanrop, inte på en allmän rangordning av leverantörens kvalitet. Vi kommer att fortsätta att utöka dessa slutpunkter och dela mer aggregerade data senare i år.

139,19K

Topp

Rankning

Favoriter