Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
𝗧𝗿𝗮𝗰𝗸𝗶𝗻𝗴 𝗮𝗻𝗱 𝗼𝗯𝗷𝗲𝗰𝘁 𝗱𝗲𝘁𝗲𝗰𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗿𝗼𝗯𝗼𝘁𝗶𝗰𝘀
В робототехнике обнаружение объектов — это моментальный снимок: "на этом кадре есть бутылка на (x, y)."
Отслеживание объектов — это более сложная, операционная задача: "это та же бутылка, что и раньше, она двигалась так, и она все еще там, даже если я не вижу ее в течение 200 мс."
Представьте себе мобильного манипулятора на кухонном столе. Задача проста на бумаге: взять синюю бутылку с загроможденного стола, пока рядом движется человек.
У робота есть камера (возможно, также и глубинная). Он запускает детектор объектов и получает ограничивающий прямоугольник с меткой "бутылка" и коэффициентом уверенности. Это звучит как восприятие. Но это еще не так.
На кадре 1 детектор видит бутылку. На кадре 2 рука человека частично закрывает ее, уверенность падает, и прямоугольник исчезает. На кадре 3 бутылка снова появляется, но детектор немного смещает прямоугольник. С точки зрения планировщика бутылка исчезла и телепортировалась.
В загроможденной обстановке вы также получаете дубликаты: детектор может создать два правдоподобных "бутылочных" прямоугольника для одного и того же объекта. Если робот реагирует непосредственно на обнаружения в каждом кадре, вы видите классические ошибки:
➤ он колеблется, потому что цель "пропала" каждые несколько кадров,
➤ он постоянно пересчитывает, потому что позиция цели дрожит,
➤ он тянется к неправильному объекту, когда появляются два похожих предмета,
➤ он не может надежно соблюдать правило "не сталкиваться с человеком", потому что прямоугольник человека тоже мерцает.
Вот почему восприятие в робототехнике редко останавливается на обнаружении. Ему нужна постоянство объектов: способность сказать "это все еще та же бутылка, даже если я на мгновение потерял ее из виду."
Отслеживание — это то, что превращает предположения из кадра в кадр в стабильную модель мира.
Типичный подход — это "отслеживание по обнаружению": вы все еще запускаете детектор каждый кадр, но прикрепляете обнаружения к постоянным трекам (ИД) с течением времени, используя предсказание + ассоциацию.
Конкретно, трекер делает три вещи:
➤ Предсказывает "где должна быть бутылка сейчас?"
➤ Ассоциирует "какое обнаружение принадлежит какому треку?"
➤ Поддерживает идентичность при изменениях
...

Топ
Рейтинг
Избранное
