Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

zerokn0wledge.hl 🪬✨
Terminally Online + OnChain | Đồng sáng lập @a1research__ và @steak_studio | Trưởng bộ phận tài sản kỹ thuật số tại Aurum Advice | mã hóa rung cảm DeAI maxi + siêu chất lỏng
𝗖𝗵𝗼𝗻𝗴 𝗮𝗻𝗱 𝗻𝗵𝗮𝗻 𝗱𝗲𝘁𝗲𝗰𝘁𝗶𝗼𝗻 𝗰𝗵𝗼 𝗿𝗼𝗯𝗼𝘁𝗶𝗰𝘀
Trong lĩnh vực robotics, việc phát hiện đối tượng là một bức ảnh tạm thời: "có một chai ở (x, y) trong khung hình này."
Theo dõi đối tượng là điều khó khăn hơn, mang tính vận hành: "đây là cùng một chai như trước, nó đã di chuyển như thế này, và nó vẫn ở đó ngay cả khi tôi không nhìn thấy nó trong 200 ms."
Hãy tưởng tượng một robot di động tại một quầy bếp. Nhiệm vụ rất đơn giản trên giấy: lấy chai màu xanh từ một bàn lộn xộn trong khi một người di chuyển gần đó.
Robot có một camera (có thể có cả camera chiều sâu). Nó chạy một bộ phát hiện đối tượng và nhận được một hộp giới hạn được gán nhãn "chai" với một điểm số độ tin cậy. Nghe có vẻ như là nhận thức. Nhưng chưa phải vậy.
Trong khung hình 1, bộ phát hiện nhìn thấy chai. Trong khung hình 2, cánh tay của người đó một phần che khuất nó, độ tin cậy giảm, và hộp biến mất. Trong khung hình 3, chai xuất hiện trở lại nhưng bộ phát hiện hơi dịch chuyển hộp. Từ góc nhìn của người lập kế hoạch, chai đã biến mất và dịch chuyển.
Trong sự lộn xộn, bạn cũng sẽ gặp phải các bản sao: bộ phát hiện có thể tạo ra hai hộp "chai" khả thi cho cùng một đối tượng. Nếu robot phản ứng trực tiếp với các phát hiện theo từng khung hình, bạn sẽ thấy những hành vi thất bại cổ điển:
➤ nó do dự vì mục tiêu "mất" mỗi vài khung hình,
➤ nó lập kế hoạch lại liên tục vì vị trí mục tiêu dao động,
➤ nó với tới đối tượng sai khi hai vật tương tự xuất hiện,
➤ nó không thể thực thi đáng tin cậy "không va chạm với người" vì hộp của người đó cũng nhấp nháy.
Đó là lý do tại sao nhận thức trong robotics hiếm khi dừng lại ở việc phát hiện. Nó cần sự tồn tại của đối tượng: khả năng nói "đây vẫn là cùng một chai, ngay cả khi tôi mất tầm nhìn về nó trong một thời gian ngắn."
Theo dõi là điều biến những dự đoán theo từng khung hình thành một mô hình thế giới ổn định.
Một cách tiếp cận điển hình là "theo dõi bằng phát hiện": bạn vẫn chạy một bộ phát hiện mỗi khung hình, nhưng bạn gắn các phát hiện vào các theo dõi liên tục (ID) theo thời gian bằng cách sử dụng dự đoán + liên kết.
Cụ thể, bộ theo dõi thực hiện ba điều:
➤ Dự đoán "chai nên ở đâu bây giờ?"
➤ Liên kết "phát hiện nào thuộc về theo dõi nào?"
➤ Duy trì danh tính dưới các thay đổi
Quay lại cảnh bàn của chúng ta: một khi bạn theo dõi, chai ngừng nhấp nháy. Nó có một ID ổn định, một ước lượng vị trí đã được làm mịn, và thường là một ước lượng vận tốc. Bây giờ người lập kế hoạch có thể hành xử như một người trưởng thành: nó có thể chờ đợi một thay đổi môi trường ngắn, cam kết với một mục tiêu, và lập kế hoạch một quỹ đạo an toàn xung quanh một người đang di chuyển.
Ngay cả với việc theo dõi, robot vẫn không biết nó đang làm gì theo cách của con người. Nó có "Theo dõi #7" với một hộp giới hạn và có thể là một nhãn lớp "chai." Điều đó không đủ cho các nhiệm vụ thực sự vì các nhiệm vụ thực sự liên quan đến mối quan hệ và ý định:
➤ "Lấy chai màu xanh (không phải chai trong suốt)."
➤ "Đừng với qua người."
➤ "Chai ở phía sau cốc."
➤ "Nếu người đó đang với tới nó, hãy dừng lại."
Đây là nơi mà LLMs (thường được kết hợp với VLMs) có thể giúp bằng cách lý luận qua một đại diện có cấu trúc của cảnh được xây dựng từ các theo dõi.
Điều quan trọng là LLM phải hoạt động trong một trạng thái ổn định. Nếu bạn cung cấp cho nó các phát hiện theo từng khung hình thô, bạn sẽ nhận được lý luận thấp vì các đầu vào của nó nhấp nháy. Theo dõi làm cho lớp ngữ nghĩa trở nên nhất quán.

205
𝗟𝗮𝗶 𝗵𝗼𝗮 𝗻𝗼𝗻 𝗻𝗮𝗼 𝗰𝗵𝗼 𝗿𝗼𝗯𝗼𝘁𝗶𝗰𝘀 𝗻𝗮𝗼?
Phần "đã được giải quyết" của robotics là tự động hóa công nghiệp trong các môi trường được kiểm soát. Nó không hoàn hảo, nhưng đủ trưởng thành để có thể mở rộng toàn cầu.
Liên đoàn Quốc tế về Robotics đã báo cáo có 4.281.585 robot công nghiệp hoạt động trong các nhà máy trên toàn thế giới (World Robotics 2024). Và trong thống kê World Robotics 2025, IFR báo cáo có hơn 542k robot công nghiệp được lắp đặt trong năm 2024, với số lượng lắp đặt hàng năm trên 500k trong 4 năm liên tiếp.
Đó là "lợi thế nhà máy": các nhiệm vụ có thể lặp lại, môi trường được cấu trúc, và các ranh giới an toàn có thể được thiết kế. Khi một cánh tay robot hàn hoặc đặt các thành phần, bạn có thể hạn chế thế giới cho đến khi robot trông thông minh.
Ranh giới là mọi thứ bên ngoài vùng an toàn đó: robot di động trong không gian đông đúc, robotics ngoài trời, thao tác linh hoạt (nắm bắt các vật thể lộn xộn), và bất kỳ kịch bản nào mà robot phải suy luận trong điều kiện không chắc chắn trong thời gian dài. Ở đây, khó khăn cốt lõi không phải là "nó có thể làm một buổi trình diễn không."
Khó khăn cốt lõi là độ tin cậy ở quy mô lớn: nó có thể thực hiện nhiệm vụ một cách an toàn, có thể dự đoán và kinh tế hàng ngàn lần, bao gồm cả 2% trường hợp kỳ lạ.
Đây cũng là lý do tại sao robotics rất chú trọng đến an toàn và các chế độ thất bại. Một lỗi phần mềm trong một ứng dụng web là phiền phức. Một lỗi phần mềm trong một máy móc đang di chuyển trở thành động lực.
Điều này thúc đẩy các nhóm robotics hướng tới việc triển khai bảo thủ: dự phòng, hành vi dừng an toàn, triển khai dần dần và giám sát cẩn thận. Nó cũng giải thích tại sao tiến bộ vật lý có thể cảm thấy chậm hơn so với phần mềm thuần túy.

196
Mempools được mã hóa là một trong những ý tưởng sạch nhất trong việc giảm thiểu MEV: ẩn chi tiết giao dịch cho đến khi quá muộn để thực hiện front-run.
Nếu các validator (hoặc một ủy ban ngưỡng) không thể thấy payload, họ sẽ không dễ dàng:
- sao chép một giao dịch,
- sandwich nó,
- bán luồng đơn hàng,
- hoặc định vị trước xung quanh nó.
Trong trường hợp này, bạn đang thay thế "mọi người thấy mọi thứ ngay lập tức" bằng "việc tiết lộ xảy ra sau và phải được phối hợp."
Các chi phí chính xuất hiện như sau:
➤ độ trễ / chậm trễ nơi một số thiết kế yêu cầu một giai đoạn tiết lộ, một cửa sổ giải mã, hoặc các xác nhận trước. Điều đó có thể thêm thời gian trước khi có sự chắc chắn về việc thực hiện.
➤ rủi ro phối hợp nơi ai đó phải giải mã (một tập hợp validator, một ủy ban, hoặc một cơ chế). Nếu họ thất bại, trì hoãn, hoặc thông đồng, trải nghiệm của người dùng sẽ giảm sút.
➤ các chế độ thất bại mới nơi quản lý khóa, giả định về tính sống sót, và "ai học được gì khi nào" trở thành một phần của bề mặt giao thức của bạn.
Vì vậy, mempools được mã hóa không phải là một bữa ăn miễn phí, thay vào đó, chúng là một quyết định có ý thức để trả một chi phí phối hợp nhằm giảm thiểu khả năng nhìn thấy.

179
Hàng đầu
Thứ hạng
Yêu thích
