Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Giới thiệu `:exacto`, Công cụ Gọi Đầu Cuối Chính Xác OpenRouter hiện cung cấp một tập hợp các nhà cung cấp được chọn lọc trên các mô hình mã nguồn mở hàng đầu với độ chính xác gọi công cụ cao hơn có thể đo lường, mang lại việc sử dụng công cụ đáng tin cậy hơn.

Đọc đầy đủ chi tiết trong bài viết trên blog của chúng tôi: hoặc tiếp tục đọc chuỗi để xem tóm tắt.

Tại sao điều này quan trọng: Ngay cả khi các nhà cung cấp lưu trữ *các trọng số mô hình giống nhau*, chất lượng suy diễn trong thế giới thực có thể khác nhau. Chạy hàng tỷ yêu cầu mỗi tháng mang lại cho OpenRouter một góc nhìn độc đáo để phát hiện những biến thể này và tự động đưa ra các nhà cung cấp chính xác nhất.

Cách chúng tôi đo lường chất lượng sử dụng công cụ: • Tính hợp lệ của JSON • Tên công cụ & sự phù hợp với sơ đồ • Xu hướng sử dụng công cụ (tendency to call tools) • Sở thích bỏ qua/danh sách đen của người dùng • Các tiêu chuẩn bên ngoài (τ²-Bench, LiveMCPBench qua @GroqInc OpenBench)

Dữ liệu này cho thấy độ chính xác của việc gọi công cụ thay đổi nhiều hơn giữa các nhà cung cấp so với những tiêu chuẩn thông thường, ngay cả khi sử dụng cùng một mô hình trọng số mở. Vì vậy, chúng tôi đã xây dựng các điểm cuối chỉ định *chỉ* đến những điểm đáng tin cậy nhất.

Các mô hình ra mắt bao gồm: `moonshotai/kimi-k2-0905:exacto` `deepseek/deepseek-v3.1-terminus:exacto` `z-ai/glm-4.6:exacto` `openai/gpt-oss-120b:exacto` `qwen/qwen3-coder:exacto` Xem tất cả ở đây .

Các mô hình Exacto + kết hợp nhà cung cấp: Kimi K2: @GroqInc và @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra, và @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3 Coder: @basetenco, @cerebras, và @GoogleAI DeepSeek Terminus: @AtlasCloud_AI, DeepInfra, và Novita

Sử dụng chúng như bất kỳ mô hình nào khác, chỉ cần thêm `:exacto`: ```bash curl \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Thủ đô của Pháp là gì?"}]}' ```

Các tiêu chuẩn và đánh giá nội bộ cho thấy tỷ lệ thành công trong việc gọi công cụ đã tăng đáng kể trên tất cả các mô hình `:exacto`, với ít JSON không hợp lệ hơn, ít sự không khớp về cấu trúc hơn và độ tin cậy trong thực tế cao hơn. Cảm ơn @GroqInc đã cung cấp OpenBench cho bộ đánh giá và LiveMCPBench mới được thêm vào.

Biến thể `:exacto` tập trung hoàn toàn vào độ chính xác khi gọi công cụ, không phải là một xếp hạng chung về chất lượng nhà cung cấp. Chúng tôi sẽ tiếp tục mở rộng các điểm cuối này và chia sẻ thêm dữ liệu tổng hợp vào cuối năm nay.

136,38K

Hàng đầu

Thứ hạng

Yêu thích