ФОРМУВАННЯ НЕЙРОМЕРЕЖЕВИХ ВЕКТОРІВ ПРЕДСТАВЛЕННЯ ДЛЯ ПОВТОРНОЇ ІДЕНТИФІКАЦІЇ ОБ’ЄКТІВ У ВІДЕОПОТОЦІ З ДИНАМІЧНОЮ КАМЕРОЮ

Денис Віннічук

Інтернет-конференції НУБіП України, ТЕОРЕТИЧНІ ТА ПРИКЛАДНІ АСПЕКТИ РОЗРОБКИ КОМП’ЮТЕРНИХ СИСТЕМ '2026

Денис Віннічук

Остання редакція: 26-04-2026

Тези доповіді

Сьогодні надзвичайно актуальним є аналіз великих масивів даних за допомогою методів та моделей штучного інтелекту. Особливо важливою є сфера комп`ютерного зору. Вона охоплює розпізнавання, класифікацію та відстеження статичних та динамічних об`єктів у відеопотоці. Задача відстеження полягає у присвоєнні ідентифікатора об`єкта, який зберігається між кадрами. Таким чином можна відновити траєкторію об`єкта, та дізнатися про деякі його динамічні параметри, такі як швидкість.

Сьогодні провідною парадигмою є “відстеження за детекцію” (tracking by detection). Вона полягає у використанні певного детектора, наприклад, згорткової нейронної мережі та подальшому зіставленні її передбачень між кадрами. Класичні методи зіставлення засновані на аналізі руху або перекриття обмежувальних рамок [1]. Особливо складним відстеження стає в умовах динамічної камери, коли зміна ракурсу, масштабу, кута огляду або зумування може істотно змінювати положення та зовнішній вигляд об’єкта на зображенні. У такому випадку класичні методи не завжди забезпечують стабільну ідентифікацію..

Для кращого зіставлення результатів детекції між кадрами доцільно використовувати моделі штучного інтелекту, які дозволяють формувати деяке векторне представлення кожного об`єкта. Це представлення характеризує зовнішній вигляд об`єкта та може бути використане для пошуку “схожих” об`єктів на наступних кадрах. За таким принципом працює трекер DeepSORT [2]. Однак, такі методи не враховують динаміку камери, зокрема її обертання та зумування, що призводить до суттєвої зміни зображення.

Метою роботи є побудова нейронної мережі повторної ідентифікації об’єктів, здатної формувати компактні векторні представлення об’єктів з урахуванням не лише їхнього зовнішнього вигляду, а й параметрів положення камери. Такі векторні представлення, або ембеддинги, використовуються для подальшого порівняння об’єктів між кадрами відеопотоку та збереження їхніх ідентифікаторів після оклюзій, пропусків детекції або різкої зміни ракурсу.

Запропонована нейронна мережа має гібридну архітектуру. Перший її модуль призначений для аналізу зображення об’єкта, виділеного з кадру за допомогою обмежувальної рамки детектора. Як базову архітектуру використано ResNet18 [3], у якій останній повнозв’язний шар замінено на проміжний лінійний шар. На виході цього модуля формується 128-вимірний вектор, що описує візуальні ознаки об’єкта.

Другий модуль мережі призначений для обробки метаданих камери та просторових характеристик детекції. До вхідних параметрів цього модуля належать коефіцієнт зумування, кути курсу, тангажу та крену камери, координати об’єкта на зображенні, розміри обмежувальної рамки та співвідношення її ширини до висоти. Для обробки цих параметрів використано блок із двох повнозв’язних шарів з функцією активації ReLU. Результатом роботи модуля є 32-вимірний вектор, який описує положення об’єкта відносно камери та поточні умови спостереження.

Отримані ознаки зображення та метаданих об’єднуються в єдиний 160-вимірний вектор. Після цього він подається на фінальний лінійний шар, який формує 128-вимірний ембеддинг об’єкта.

Навчання нейронної мережі здійснюється на анотованих фрагментах відеопотоку, де кожному об’єкту відповідає сталий ідентифікатор. Разом із зображеннями об’єктів використовуються метадані камери для кожного кадру. Як функцію втрат застосовано batch-hard triplet loss. У межах кожного батчу для кожного об’єкта обирається позитивний приклад, тобто інше зображення того самого об’єкта, та негативний приклад, тобто зображення іншого об’єкта. При цьому використовуються найскладніші приклади: найменш подібна позитивна пара та найбільш подібна негативна пара. Такий підхід змушує модель формувати ембеддинги, у яких векторні представлення одного й того самого об’єкта “схожі”, а різних об’єктів ні.

Ці вектори використовуються для зіставлення детектованих об`єктів з траєкторіями із попередніх кадрів. Подібність визначається за допомогою косинусної метрики, що дозволяє оцінити близькість ембеддингів. Таким чином будується матриця вартості, де в подальшому виконується оптимальне призначення об`єктів і попередніх траєкторій за допомогою Угорського алгоритму. Це дозволяє зберігати ідентифікатор об`єкта протягом відео. Такий алгоритм продемонстрував значення метрики IDF1 = 0.57, MOTA = 0.70.

На відміну від існуючих методів, запропонований підхід враховує не лише зовнішній вигляд, а і положення та ракурс камери. Серед недоліків алгоритму варто відзначити необхідність навчання на даних, що відповідатимуть цільовій задачі. Також така модель потребує значних обчислювальних потужностей, що може призвести до обмеженого використання в портативних системах. Алгоритм може бути вдосконалений, шляхом впровадження гібридного підходу, а саме поєднанням з окремим класичним модулем зіставлення на основі ступеня перекриття рамок і руху.