Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I'd like to point out that for the real world tasks (not benchmarks), Kimi K2 outperforms Gemini.
This is telemetry across all @cline users, showing diff edit failure rate. Notice how Kimi has about a 6% failure rate, which is significantly better than Gemini's ~ 10% error rate.
Remarkably, Kimi even surpassed Claude 4 for most of this week, achieving a sub 4% failure rate!

Trong bài kiểm tra chỉnh sửa "Hard" diff nội bộ của chúng tôi cho các trường hợp mà một mô hình tiên phong trước đó đã thất bại trong việc chỉnh sửa diff (trước khi cập nhật thuật toán diff của chúng tôi), Kimi đã vượt qua Claude 3.5.
Sẽ rất thú vị khi xem kết quả từ các bài kiểm tra "Nightmare Difficulty" trong vài tuần tới.

176,65K
Hàng đầu
Thứ hạng
Yêu thích