Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Không ai sẵn sàng cho những gì tài liệu Stanford này tiết lộ về AI đa tác nhân.
"Hợp tác tiềm ẩn trong các hệ thống đa tác nhân" cho thấy rằng các tác nhân không cần tin nhắn, giao thức hay hướng dẫn làm việc nhóm rõ ràng. Họ bắt đầu phối hợp bên trong các đại diện ẩn của chính họ một lớp hợp tác hoàn chỉnh chỉ tồn tại trong không gian tiềm ẩn.
Và những hành vi thì điên rồ:
• Các tác nhân lặng lẽ chuyển giao nhiệm vụ dựa trên ai là người giỏi hơn
• Các vai trò xuất hiện từ hư không: lãnh đạo, thực hiện, hỗ trợ
• Các chính sách mã hóa tín hiệu mà không bao giờ xuất hiện trong hành động
• Các đội nhóm thích nghi với môi trường mới mà không cần đào tạo lại
• Sự hợp tác vẫn ổn định ngay cả khi giao tiếp là không thể
Chi tiết điên rồ nhất:
Ngay cả khi bạn loại bỏ tất cả các kênh giao tiếp, các tác nhân vẫn hợp tác. "Làm việc nhóm" không sống trong các tin nhắn. Nó sống trong mạng lưới.
Điều này đảo ngược toàn bộ sách hướng dẫn đa tác nhân.
Chúng ta đã xây dựng các cơ chế phối hợp trên…
trong khi sự phối hợp thực sự đang diễn ra bên dưới.
Một kỷ nguyên mới của trí thông minh đội nhóm nổi lên — và nó đang diễn ra ở những nơi mà chúng ta thậm chí không nhìn tới.
Dự án: github. com/Gen-Verse/LatentMAS

137,51K
DeepSeek vừa thực hiện một bản nâng cấp mà mọi mô hình lý luận đều đã giả vờ có.
Thay vì đưa ra một chuỗi suy nghĩ dài và hy vọng nó có ý nghĩa, DeepSeek Math V2 thực hiện một cuộc thẩm vấn toàn diện về logic của chính nó. Nó xây dựng một bằng chứng, tấn công nó, kiểm tra cuộc tấn công, kiểm tra người kiểm tra, sửa chữa các lỗi, và lặp lại cho đến khi nó không thể tự phá vỡ nữa.
Ý tưởng đơn lẻ đó đã thay đổi hoàn toàn hiệu suất của nó.
Dưới đây là những gì mức độ tự kiểm tra đó đã sản xuất:
• Hiệu suất cấp vàng trên IMO 2025
• Hiệu suất cấp vàng trên CMO 2024
• 118/120 trên Putnam 2024, điểm số cao nhất được báo cáo
• Kết quả tốt hơn so với GPT-5 Thinking và Gemini 2.5 Pro ở các hạng mục khó nhất
Bí mật không phải là quy mô.
Mà là kiến trúc xung quanh mô hình:
— một người xác minh tìm kiếm các khoảng trống logic
— một người xác minh meta đặt câu hỏi cho người xác minh
— một trình tạo bằng chứng được điều kiện hóa để tránh lý luận yếu
— một vòng lặp buộc mọi phần của hệ thống phải sắc bén hơn
Quá trình hoạt động như một máy xay:
- Tạo ra một bằng chứng
- Kiểm tra nó
- Kiểm tra người kiểm tra
- Sửa chữa lý luận
- Lặp lại
Họ đã nhắm đến vấn đề thực sự trong lý luận toán học: một mô hình có thể đạt được câu trả lời đúng vì lý do sai. Vì vậy, DeepSeek đã đào tạo một người xác minh đánh giá lý luận, không phải kết quả.
Điều thú vị là những gì xảy ra theo thời gian:
mỗi chu kỳ cải thiện chất lượng bằng chứng của mô hình mà không cần dọn dẹp của con người.
Nó trở nên tốt hơn vì nó từ chối chấp nhận bản nháp đầu tiên của mình là đúng.
Đây là một hướng đi mới cho các mô hình lý luận.
Không phải là suy nghĩ nhiều hơn.
Mà là suy nghĩ tốt hơn.
Nếu bạn muốn hiểu nơi AI lý luận đang hướng tới, tài liệu này là một cái nhìn trước về kỷ nguyên tiếp theo.

19,79K
Tôi đang đọc báo cáo này từ Anthropic về việc sử dụng thực tế Claude và những con số như một cú sốc.
Họ đã trải qua 100.000 cuộc trò chuyện.
Đây là phần đã khiến tôi dừng lại:
Hầu hết các nhiệm vụ mà mọi người đưa cho Claude thường mất khoảng 90 phút.
Với Claude, những nhiệm vụ đó hoàn thành nhanh hơn 80 phần trăm.
Đó là ai đó tiết kiệm được hàng giờ mỗi tuần mà không cần cố gắng.
Sau đó, báo cáo còn lớn hơn nữa.
Nếu bạn áp dụng những lợi ích này trên toàn bộ nền kinh tế Mỹ, các mô hình hiện tại sẽ tăng năng suất lao động lên 1,8 phần trăm mỗi năm trong thập kỷ tới.
Gần gấp đôi tốc độ gần đây.
Và không có điều này bao gồm các mô hình tốt hơn.
Đây chỉ là cách mà mọi người đã sử dụng Claude ngay bây giờ.
Có thể đây là lần đầu tiên chúng ta thấy bằng chứng rõ ràng về những gì AI đang làm trong các công việc thực tế.
Sự chuyển mình yên lặng.
Tác động to lớn.
Đang diễn ra ngay bây giờ.

3K
Hàng đầu
Thứ hạng
Yêu thích

