Класифікація характеристик тротуарів Києва за фотографіями Street View за допомогою методів глибокого навчання

Денис Олександрович Козурак

Інтернет-конференції НУБіП України, ТЕОРЕТИЧНІ ТА ПРИКЛАДНІ АСПЕКТИ РОЗРОБКИ КОМП’ЮТЕРНИХ СИСТЕМ '2026

Денис Олександрович Козурак

Остання редакція: 27-04-2026

Тези доповіді

УДК 004.85:004.932

КЛАСИФІКАЦІЯ ХАРАКТЕРИСТИК ТРОТУАРІВ КИЄВА ЗА ФОТОГРАФІЯМИ STREET VIEW ЗА ДОПОМОГОЮ МЕТОДІВ ГЛИБОКОГО НАВЧАННЯ

Козурак Д. О.

Київський національний університет імені Тараса Шевченка, факультет комп'ютерних наук та кібернетики, кафедра теорії та технології програмування

Забезпечення безбар'єрності міського середовища є дуже важливим завданням для міст, що прагнуть до інклюзивності. Проте систематична оцінка стану пішохідних тротуарів залишається досить трудомістким процесом, який традиційно потребує фізичного обстеження або ручної розмітки даних. [1]

Також, хоч деякі карти можуть містити інформацію про рівень безбар’єрності окремих тротуарів чи вулиць, жодна з них не може запропонувати маршрут, оптимальний для користувачів з обмеженою мобільністю. [2]

У цій роботі пропонується підхід до вирішення обох проблем - автоматичної класифікації характеристик пішохідної інфраструктури міста Київ на основі фотографій вуличного рівня з сервісу Google Street View та методів глибокого навчання, а також побудова оптимальних маршрутів для користувачів з обмеженою мобільністю.

Вихідними даними слугують географічні дані про дороги та тротуари Києва, отримані з OpenStreetMap [3] через Overpass API (всього було отримано інформацію про приблизно 56 тисяч сегментів). Для кожного сегмента за допомогою Google Street View Static API завантажено фотографії відповідних ділянок. Мітки для тренування моделей отримано безпосередньо з атрибутів OpenStreetMap, зокрема: тип покриття (surface), якість покриття (smoothness) та наявність тактильної плитки (tactile_paving). Загалом для тренування зібрано понад 5 000 фотографій.Проте, цих даних недостатьо для розпізнавання деяких характеристик ділянок (наприклад, наявність освітлення, пандусів, ширина тротуара). З огляду на те, що первинних даних з відкритих джерел було недостатньо для ідентифікації специфічних характеристик об'єктів (зокрема наявності систем вуличного освітлення, пандусів та вимірювання ширини тротуарів), навчальну вибірку було розширено за рахунок залучення релевантних зовнішніх датасетів. До них увійшли Road Surface Classification Dataset, Project Sidewalk, Sidewalk Gallery та дані платформи Mapillary. Зазначені ресурси містять репрезентативні масиви верифікованих зображень міської інфраструктури, що дозволило значно підвищити якість навчання моделей за критеріями геометричних параметрів пішохідних зон та наявності елементів інклюзивного середовища.

Задача класифікації вирішується як набір незалежних задач. Частина з них є бінарними (наявність/відсутність освітлення, тактильної плитки та пандусів, дорога ширша/вужча за мінімальну допустиму величину), частина – багатокритеріальними (тип та якість покриття, ступінь пошкодження доріг). Для кожного критерію навчено окрему модель. Для цього використано метод перенесення навчання (transfer learning) на основі двох попередньо навчених моделей: EfficientNet-B0 [4] та DINOv2 (ViT-S/14) [5], після чого для кожного критерію серед отриманих моделей відібрано ту, що показала найточніший результат правильної класифікації тестових даних. Для EfficientNet-B0 оригінальна класифікаційна голова замінена на власну двошарову повнозв'язну мережу з Dropout-регуляризацією. У випадку DINOv2 опорну мережу заморожено, а тренуванню підлягає лише класифікаційна голова, що дозволяє ефективно використовувати потужні ознаки, отримані в результаті самонавчання.

Оскільки кількість фотографій для різних класів могла суттєво відрізнятись, для компенсації даного дисбалансу використано зважену функцію втрат (weighted cross-entropy loss). Аугментація тренувальних даних включала горизонтальне відображення, випадковий поворот та зміну яскравості й контрастності. Оптимізація проводилася методом Adam зі зменшенням швидкості навчання кожні 5 епох. Оцінювання якості моделей здійснювалось за метриками точності (accuracy) та зваженого F1-score на тестовій вибірці.

Попередні результати свідчать про те, що EfficientNet-B0 демонструє більш стабільні показники серед більшості розглянутих критеріїв, досягаючи F1-score 0.79 для тактильної плитки та 0.75 для типу покриття. Модель DinoV2 показала кращі результати для класифікації освітленості (F1 = 0.76), але поступається при класифікації за іншими критеріями. Найнижчі результати зафіксовано для критерію якості покриття (smoothness) — F1 ≈ 0.55, що пояснюється суб'єктивністю відповідних міток в OSM та складністю візуального розрізнення суміжних класів.Розроблені моделі інтегровано в систему класифікації дорожньої інфраструктури міста Київ. Дана система на основі інформації про координати сегментів пішохідних доріжок створює зважений граф, де вершинами є кінці сегментів та їх точки перетину, ребрами є самі сегменти, а їх вагою – довжина сегментів. Таким чином, будь-який маршрут можна подати у вигляді шляху на цьому графі, що дозволяє шукати оптимальні маршрути за допомогою математичних алгоритмів (зокрема, A*). Система приймає на вхід координати ребра графа вулично-дорожньої мережі, автоматично завантажує відповідне фото та повертає передбачені значення обраних характеристик. Отримані результати можуть бути використані для побудови карти безбар'єрності міського середовища, що є практичним інструментом для містобудівників, людей з обмеженими можливостями пересування та волонтерських організацій.На основі такої карти можна розробити застосунок для побудови оптимальних маршрутів для користувачів з обмеженою мобільністю. У застосунку користувач може обрати свій тип обмеженої мобільності (наприклад, порушення зору чи слуху, люди похилого віку, батьки з дитячими колясками). Тоді, на основі відповідності тим критеріям, що є суттєвими для даної категорії людей, кожному сегменту співставляється певний коефіцієнт (що є тим меншим, чим краще сегмент підходить під потреби обраної категорії), і в програмі будується оптимальний маршрут допомогою алгоритму A*.Подальші дослідження передбачають розширення датасету за рахунок зовнішніх відкритих джерел, збільшення кількості класифікованих критеріїв, а також оцінку можливості застосування навчених моделей до інших міст України.

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

1. Weld H. et al. Deep learning for automated sidewalk assessment: a survey. ACM Computing Surveys. 2022. Vol. 54, No. 8.

2. Hwang H. et al. Synthetic data augmentation for robotic mobility aids to support blind and low vision people. Proceedings of RiTA. 2024.

3. OpenStreetMap Contributors. OpenStreetMap. URL: https://www.openstreetmap.org(дата звернення: 01.03.2026).

4. Tan M., Le Q. V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. Proceedings of ICML. 2019. P. 6105–6114.

5. Oquab M. et al. DINOv2: Learning Robust Visual Features without Supervision. Transactions on Machine Learning Research. 2024.