Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Giới thiệu `:exacto`, Công cụ Gọi Đầu Cuối Chính Xác
OpenRouter hiện cung cấp một tập hợp các nhà cung cấp được chọn lọc trên các mô hình mã nguồn mở hàng đầu với độ chính xác gọi công cụ cao hơn có thể đo lường, mang lại việc sử dụng công cụ đáng tin cậy hơn.

Đọc đầy đủ chi tiết trong bài viết trên blog của chúng tôi: hoặc tiếp tục đọc chuỗi để xem tóm tắt.

Tại sao điều này quan trọng:
Ngay cả khi các nhà cung cấp lưu trữ *các trọng số mô hình giống nhau*, chất lượng suy diễn trong thế giới thực có thể khác nhau.
Chạy hàng tỷ yêu cầu mỗi tháng mang lại cho OpenRouter một góc nhìn độc đáo để phát hiện những biến thể này và tự động đưa ra các nhà cung cấp chính xác nhất.
Cách chúng tôi đo lường chất lượng sử dụng công cụ:
• Tính hợp lệ của JSON
• Tên công cụ & sự phù hợp với sơ đồ
• Xu hướng sử dụng công cụ (tendency to call tools)
• Sở thích bỏ qua/danh sách đen của người dùng
• Các tiêu chuẩn bên ngoài (τ²-Bench, LiveMCPBench qua @GroqInc OpenBench)

Dữ liệu này cho thấy độ chính xác của việc gọi công cụ thay đổi nhiều hơn giữa các nhà cung cấp so với những tiêu chuẩn thông thường, ngay cả khi sử dụng cùng một mô hình trọng số mở.
Vì vậy, chúng tôi đã xây dựng các điểm cuối chỉ định *chỉ* đến những điểm đáng tin cậy nhất.

Các mô hình ra mắt bao gồm:
`moonshotai/kimi-k2-0905:exacto`
`deepseek/deepseek-v3.1-terminus:exacto`
`z-ai/glm-4.6:exacto`
`openai/gpt-oss-120b:exacto`
`qwen/qwen3-coder:exacto`
Xem tất cả ở đây .

Các mô hình Exacto + kết hợp nhà cung cấp:
Kimi K2: @GroqInc và @Kimi_Moonshot
GLM-4.6: @novita_labs, @DeepInfra, và @Zai_org
gpt-oss-120b: Groq, DeepInfra, Novita
Qwen3 Coder: @basetenco, @cerebras, và @GoogleAI
DeepSeek Terminus: @AtlasCloud_AI, DeepInfra, và Novita
Sử dụng chúng như bất kỳ mô hình nào khác, chỉ cần thêm `:exacto`:
```bash
curl \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Thủ đô của Pháp là gì?"}]}'
```
Các tiêu chuẩn và đánh giá nội bộ cho thấy tỷ lệ thành công trong việc gọi công cụ đã tăng đáng kể trên tất cả các mô hình `:exacto`, với ít JSON không hợp lệ hơn, ít sự không khớp về cấu trúc hơn và độ tin cậy trong thực tế cao hơn. Cảm ơn @GroqInc đã cung cấp OpenBench cho bộ đánh giá và LiveMCPBench mới được thêm vào.

Biến thể `:exacto` tập trung hoàn toàn vào độ chính xác khi gọi công cụ, không phải là một xếp hạng chung về chất lượng nhà cung cấp.
Chúng tôi sẽ tiếp tục mở rộng các điểm cuối này và chia sẻ thêm dữ liệu tổng hợp vào cuối năm nay.
136,38K
Hàng đầu
Thứ hạng
Yêu thích

