Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
Giám đốc điều hành & Thành viên Nhân viên Kỹ thuật @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

4,16K
Cần một người tham gia vào đội ngũ Amp và giúp chúng tôi xây dựng cơ sở hạ tầng quảng cáo & quy trình người dùng cho Amp Free. 
Backend, frontend, giao hàng nhiều lần trong ngày và làm việc với khách hàng. Vị trí này chỉ dành cho San Francisco. Rất nhiều công việc khó khăn và sự không rõ ràng. Nhắn tin cho tôi.
21,18K
Việc đánh giá tác nhân lập trình là hữu ích để cải thiện tác nhân của bạn, nhưng không phải để chứng minh rằng nó là tốt nhất (dù điều đó có nghĩa là gì). Đó là lý do tại sao chúng tôi không nói công khai về các đánh giá.
Nhưng nhiều người hỏi, vì vậy đây là một giải thích dài hơn về lý do tại sao chúng không có ý nghĩa cho việc so sánh giữa các tác nhân.
Tối qua, theo một ý nghĩ thoáng qua, tôi đã chạy các đánh giá Next.js[0] chống lại @AmpCode và nhận được [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, cao hơn nhiều so với mức cao nhất tiếp theo (Claude Code) ở mức 42%.
Sau đó, tôi đã hỏi một số người khác để cố gắng tái tạo những kết quả này. Những người khác đã nhận được [REDACTED]% cho Amp, một số với một AGENTS𛲔md có nội dung như sau:
> Khi làm việc trong một dự án Next.js, luôn chạy `npm exec tsc -b` để kiểm tra lỗi kiểu, và sau đó `npm run build` và `npm run test`, trước khi hoàn thành. Sửa bất kỳ lỗi nào bạn thấy và thử lại cho đến khi không còn lỗi.
Khi sử dụng Claude Code với điều đó trong CLAUDE𛲔md, nó đã đạt tới 72% (tăng từ 40-42% mà không có).
Những điều rút ra:
• Một tệp AGENTS𛲔md đơn giản làm tăng tỷ lệ thành công một cách đáng kể (trong thực tế ~tất cả người dùng thực đều có một cái, nhưng các đánh giá hiếm khi cung cấp một cái)
• Biến động cao giữa các lần chạy (đặc biệt khó để làm cho các tác nhân lập trình có tính xác định)
• Có rất nhiều cơ hội cho các loại trôi dạt không mong muốn khác (khiến tôi lo lắng rằng hầu hết các kết quả Terminal Bench không được xác thực độc lập, chẳng hạn)
Ngoài ra, với rất nhiều bộ đánh giá khác nhau hiện có, bạn chỉ nghe thấy những tuyên bố từ các nhà sản xuất tác nhân cho các đánh giá mà họ tình cờ làm tốt (p-hacking gặp "Tại sao hầu hết các phát hiện nghiên cứu được công bố là sai").
Sẽ không trung thực nếu tuyên bố rằng những con số này có nghĩa là Amp là tốt nhất. Nó chỉ là một môi trường quá nhân tạo và có quá nhiều sự ngẫu nhiên. Và tôi không nghĩ rằng ai đó thực sự đã bao giờ chọn một tác nhân lập trình chỉ vì kết quả chuẩn, càng không phải là những kết quả được báo cáo từ bên thứ nhất.
Nhưng các đánh giá giúp chúng tôi cải thiện Amp. Bạn có thể thấy từ một báo cáo rằng Amp đã thất bại trong một số trường hợp mỗi lần, điều mà chúng tôi sẽ xem xét. Và chúng tôi thực hiện đủ loại đánh giá hẹp, chẳng hạn như cho tác nhân tìm kiếm của chúng tôi[1].
LƯU Ý: Điều này không có ý nghĩa là một sự chỉ trích đối với các đánh giá Next.js /hoàn toàn không/. Đây là một bộ đánh giá tuyệt vời tổng thể và phục vụ mục đích của nó để giúp chúng tôi cải thiện Amp trong các vấn đề liên quan đến Next.js.
[REDACTED]: Tôi đã đạt 50-58% trong các đánh giá Amp ban đầu của mình, và những người khác đã đạt 48-76%.


24,34K
Hàng đầu
Thứ hạng
Yêu thích

