МЕТОДИ ПОДОЛАННЯ ДЕГРАДАЦІЇ ТОЧНОСТІ ТА КРОС-МОДАЛЬНОГО ВИРІВНЮВАННЯ ПРИ АНАЛІЗІ УКРАЇНОМОВНОГО КОНТЕНТУ

Oleksandr Kanashkov

Інтернет-конференції НУБіП України, ТЕОРЕТИЧНІ ТА ПРИКЛАДНІ АСПЕКТИ РОЗРОБКИ КОМП’ЮТЕРНИХ СИСТЕМ '2026

Oleksandr Kanashkov

Остання редакція: 25-04-2026

Тези доповіді

Аналіз сучасних SOTA-моделей, зокрема архітектури RoBERTa [1], вказує на те, що ефективність нейромережевих представлень критично залежить від обсягу навчальної вибірки та тривалості претренінгу. Проте при перенесенні цих архітектур на морфологічно складні мови, як-от українська, виникає проблема «англоцентричності». Це призводить до суттєвої деградації точності (за оцінками дослідників крос-лінгвальних систем, цей показник для слов’янських мов може сягати 12-18% порівняно з англійським сегментом). Основною причиною є обмежений словниковий бюджет моделі, яка змушена розподіляти параметри між багатьма мовами, що посилює проблему Out-Of-Vocabulary (OOV) при обробці ненормованої лексики та специфічних кризових неологізмів. Також традиційні системи аналізують текст ізольовано від візуального контексту, що призводить до втрати критично важливої інформації.

Мета роботи - обґрунтування концептуальної моделі, що усуває ці дефекти через адаптивну токенізацію, емотивне збагачення та крос-модальне вирівнювання.

Запропонована макроархітектура вирішує ключові проблеми аналізу даних за допомогою чотирьох компонентів:

1. Адаптація до ненормованої лексики. Використання алгоритму WordPiece [2] дозволяє розбивати суржик та нові терміни (наприклад, «бавовна», «волонтерка») на дрібні смислові частини. Це розв'язує проблему «невідомих слів» (OOV), зберігаючи точність моделі RoBERTa навіть при роботі зі специфічним мережевим сленгом.

2. Інтеграція емотивного лексикону. На базі когнітивних онтологій [3] система додає до математичних векторів «емоційне забарвлення» слів. Це допомагає моделі краще розпізнавати прихований сарказм та маніпулятивну тональність повідомлень.

3. Крос-модальне вирівнювання. Часто комп'ютер не розуміє, як картинка пов’язана з текстом [4]. Пропонується детектор на базі моделі CLIP, який шукає невідповідності між ними. Наприклад, він може помітити, коли старе фото руйнувань видають за нову подію (патерн «False Connection»). Система також «читає» текст безпосередньо з мемів чи скріншотів за допомогою OCR і порівнює його з описом, щоб знайти приховану брехню.

4. Стійкість генералізації (Event Adversarial Neural Network). Завдяки змагальній архітектурі EANN [5], модель вчиться розпізнавати загальні ознаки маніпуляцій, не «прив’язуючись» до конкретних назв міст чи дат. Це робить систему ефективною навіть під час появи абсолютно нових інфоприводів.

Для навчання та тестування системи використовується корпус даних, зібраний із Telegram, Twitter та онлайн-ЗМІ. Робота з ненормованою лексикою базується на ресурсах UA-GEC та UberText 2.0, а виявлення технік маніпуляцій - на спеціалізованих наборах даних, як-от UNLP 2025. Ефективність оцінюється за метриками F1-score, Accuracy та AUC.

Запропонована макроархітектура формує комплексну методологічну базу для глибокого аналізу україномовного контенту в кризових умовах. Інтеграція алгоритму WordPiece та емотивних онтологій успішно розв'язує проблему розпізнавання ненормованої лексики та суржику. Водночас поєднання крос-модального детектора CLIP зі змагальною архітектурою EANN забезпечує надійну ідентифікацію складних маніпулятивних патернів, які не залежать від конкретних інфоприводів.

Варто зазначити, що поточним обмеженням системи є «англоцентричність» базових ваг моделі CLIP, що може дещо знижувати якість вирівнювання для специфічного українського культурного контексту. Тому вектором подальших досліджень стане донавчання (fine-tuning) візуального енкодера на локалізованих датасетах. Попри це, розроблена концепція має високу прикладну цінність: вона може бути ефективно інтегрована в автоматизовані системи моніторингу когнітивної безпеки для оперативного виявлення дезінформації у соціальних мережах (Telegram, Facebook) та агрегаторах новин.