Остання редакція: 28-10-2024
Тези доповіді
Нині в інформаційних системах університетів генерується значна кількість цифрової слідів – записів дій користувачів із зазначенням їхньої активності та способів взаємодії з системою. Цифрова сліди дають змогу глибше зрозуміти способи використання системи користувачами: від часу входу і тривалості роботи до виконаних дій і місця розташування. Основне джерело такої інформації – лог-файли, що реєструють кожну подію в системі. Аналіз цифрових слідів із файлів журналів допомагає розпізнавати підозрілу активність та дає змогу виявляти загальні тенденції використання системи і реагувати на зміни в поведінці користувачів своєчасно [1].
На початку проведення дослідження було проаналізовано цифрові сліди користувачів інформаційної системи університету з використанням статистичних моделей авторегресії ARMA, ARIMA та SARIMA [2]. Для вивчення активності студентів було використано дані журналів платформи Moodle за 2021 рік з інформацією про час дій, контекст дій, опис дій користувача, ID походження та IP-адреси користувачів. Отримані моделі продемонстрували хороші результати в передбаченні загальних тенденцій і сезонних особливостей (рис. 1), проте виявилися неефективними при виявленні та прогнозуванні різких змін. Це призвело до значного розриву між очікуваними та фактичними значеннями, що ускладнює точність виявлення аномалій.
Головна увага в дослідженні приділяється розробці методу автоматичного аналізу цифрових слідів із застосуванням штучної нейронної мережі з довгою короткостроковою пам’яттю LSTM. На відміну від попередніх моделей, мережа LSTM здатна ефективно опрацьовувати нелінійні тренди та різкі аномалії завдяки унікальній структурі нейрона з комірками пам'яті та воротами (вхідними, забуття і вихідними) (рис 2) [3].
Дослідження даних за допомогою LSTM показало значне поліпшення: середньоквадратична помилка (RMSE) на тренувальному наборі становила 39,24 замість 138,28 у SARIMA. Розширення діапазону даних від травня 2022 року до травня 2024 року дало змогу моделі LSTM ще більше поліпшити свої результати завдяки зменшенню RMSE і точнішому визначенню сплесків і спадів активності (рис. 3). При виявленні аномалій застосовувався адаптивний поріг для точної ідентифікації значних відхилень. Модель успішно визначила аномалії з високою точністю (рис. 4), проте зіштовхнулась з певними труднощами під час виявлення різких змін через нерівномірність даних і короткі інтервали сплесків активності.
Розроблена мережа показала значно кращі результати порівняно зі статистичними моделями. Ця модель добре пристосовується до даних і може доволі точно виявляти значні відхилення, однак виникають труднощі з визначенням різких коливань, що вимагає подальшого поліпшення методу. Запропонований підхід може бути використаний для поліпшення алгоритмів аналізу захищених інформаційних систем.