𝗧𝗿𝗮𝗰𝗸𝗶𝗻𝗴 𝗮𝗻𝗱 𝗼𝗯𝗷𝗲𝗰𝘁 𝗱𝗲𝘁𝗲𝗰𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗿𝗼𝗯𝗼𝘁𝗶𝗰𝘀 В робототехнике обнаружение объектов — это моментальный снимок: "на этом кадре есть бутылка на (x, y)." Отслеживание объектов — это более сложная, операционная задача: "это та же бутылка, что и раньше, она двигалась так, и она все еще там, даже если я не вижу ее в течение 200 мс." Представьте себе мобильного манипулятора на кухонном столе. Задача проста на бумаге: взять синюю бутылку с загроможденного стола, пока рядом движется человек. У робота есть камера (возможно, также и глубинная). Он запускает детектор объектов и получает ограничивающий прямоугольник с меткой "бутылка" и коэффициентом уверенности. Это звучит как восприятие. Но это еще не так. На кадре 1 детектор видит бутылку. На кадре 2 рука человека частично закрывает ее, уверенность падает, и прямоугольник исчезает. На кадре 3 бутылка снова появляется, но детектор немного смещает прямоугольник. С точки зрения планировщика бутылка исчезла и телепортировалась. В загроможденной обстановке вы также получаете дубликаты: детектор может создать два правдоподобных "бутылочных" прямоугольника для одного и того же объекта. Если робот реагирует непосредственно на обнаружения в каждом кадре, вы видите классические ошибки: ➤ он колеблется, потому что цель "пропала" каждые несколько кадров, ➤ он постоянно пересчитывает, потому что позиция цели дрожит, ➤ он тянется к неправильному объекту, когда появляются два похожих предмета, ➤ он не может надежно соблюдать правило "не сталкиваться с человеком", потому что прямоугольник человека тоже мерцает. Вот почему восприятие в робототехнике редко останавливается на обнаружении. Ему нужна постоянство объектов: способность сказать "это все еще та же бутылка, даже если я на мгновение потерял ее из виду." Отслеживание — это то, что превращает предположения из кадра в кадр в стабильную модель мира. Типичный подход — это "отслеживание по обнаружению": вы все еще запускаете детектор каждый кадр, но прикрепляете обнаружения к постоянным трекам (ИД) с течением времени, используя предсказание + ассоциацию. Конкретно, трекер делает три вещи: ➤ Предсказывает "где должна быть бутылка сейчас?" ➤ Ассоциирует "какое обнаружение принадлежит какому треку?" ➤ Поддерживает идентичность при изменениях ...