Остання редакція: 24-10-2023
Тези доповіді
У контексті систем виявлення вторгнень (IDS) та машинного навчання навчальні набори даних (ННД) є одним із ключових компонентів для навчання та оцінки ефективності моделей IDS. Правильний вибір навчального набору даних забезпечує коректну обробку певного набору мережевих аномалій або зловмисних дій. Також надзвичайно важливим є актуальність таких наборів даних, оскільки ННД можуть бути застарілими та не описувати структуру мережевих даних, характерну для сучасних мереж (наприклад стандартний ННД KDD Cup 1999 є дещо застарілим і використовується переважно як бенчмарк для порівняння з сучасними наборами даних). Нижче розглянемо такі ННД як DARPA M57-PATTON, ADFA-LD Dataset, Aarhus Wireless IDS Dataset (AWID) та IoT-23 Dataset.
ННД UNSW-NB15 містить велику кількість даних мережевого трафіку, тому є досить корисним для дослідників у галузі кібербезпеки. Він включає широкий спектр мережевого трафіку, в тому числі дані про нормальну і зловмисну активності, які досить точно імітують реальну поведінку мережі. UNSW-NB15 охоплює широкий спектр сценаріїв атак, включаючи відмову в обслуговуванні (DoS), зондування, атаки типу user to root і remote to local. Така різноманітність дозволяє перевіряти стійкість систем виявлення вторгнень до різних типів загроз. ННД надає повний набір характеристик, отриманих з даних мережевого трафіку, таких як IP-адреси джерела і призначення, порти джерела і призначення, протоколи та дані про корисне навантаження. Завдяки своєму розміру та різноманітності, набір даних є стандартом в області виявлення вторгнень. Це полегшує порівняння та оцінку ефективності різних моделей, оскільки багато дослідницьких робіт використовують UNSW-NB15 як загальний набір даних. Однак він має ряд недоліків, зокрема цей ННД був зібраний до 2015 року, а ландшафт кібербезпеки постійно розвивається, тому набір може неадекватно охоплювати нові загрози та методи атак, які з'явилися з того часу. Як і багато інших наборів даних для виявлення вторгнень, UNSW-NB15 має незбалансований розподіл класів, з більшою кількістю безпечних записів у порівнянні зі шкідливими. Це може ускладнити побудову надійних моделей виявлення вторгнень, оскільки вони можуть бути упередженими до більшості класів мережевих атак. (1)
ННД ADFA-LD базується на середовищі Linux, що робить його дуже актуальним для вивчення та розробки систем виявлення вторгнень для систем на базі Linux, які поширені в багатьох серверних та мережевих конфігураціях. ADFA-LD містить детальні дані системних викликів, які є важливими для побудови та навчання IDS, адже системні виклики відображають поведінку програм і можуть бути використані для виявлення аномальних або зловмисних дій. Як і ННД UNSW-NB15, ADFA-LD є еталонним набором даних для досліджень в галузі кібербезпеки. Також цей набір даних відомий тим, що має відносно обмежений набір сценаріїв атак. Він переважно описує низькорівневі дані системних викликів, а це означає, що він може не охоплювати всі складнощі мережевих атак або багатоетапних атак із залученням декількох процесів. ADFA-LD - це відносно невеликий набір даних у порівнянні з деякими іншими ННД. На відміну від інших наборів даних, ADFA-LD не включає дані про мережевий трафік в достатньому обсязі. (2)
ННД Aarhus Wireless IDS (AWID) фокусується саме на бездротовому мережевому трафіку, тому є важливим для вивчення і розробки систем виявлення вторгнень для бездротових середовищ. Це особливо актуально, оскільки бездротові мережі сьогодні є широко розповсюдженими. Набір даних включає реальний мережевий трафік, який відображає складність і різноманітність обміну даними в бездротових мережах, що робить його більш придатним для дослідження виявлення вторгнень в реальних умовах. Також AWID містить мітки для мережевих дій, які вказують на їхню безпечність або шкідливість. Анотовані дані спрощують навчання та оцінку моделей виявлення вторгнень. ННД включає детальні дані на рівні пакетів, які можуть бути важливими для детального аналізу та розпізнавання певних шаблонів для моделей машинного навчання. Хоча набір даних містить реальний мережевий трафік, він може мати обмежену різноманітність з точки зору сценаріїв атак і мережевих умов. AWID як і багато інших наборів даних для виявлення вторгнень, має незбалансований розподіл класів, з більшою кількістю безпечних записів, ніж зловмисних. Це може впливати на побудові моделей виявлення вторгнень, які некоректно розпізнаватимуть зловмисні дії. Також AWID є дещо обмеженим набором, оскільки зосереджується на єдиній схемі модуляції (DSSS), яка може бути не репрезентативною для всіх типів бездротових мереж і технологій. (3)
ННД IoT-23 розроблений спеціально для дослідження безпеки пристроїв Internet of things (IoT), що робить його цінним ресурсом для вивчення проблем безпеки, характерних для середовищ IoT. Цей набір даних надає реалістичні дані про мережевий трафік, що генерується емульованими пристроями Інтернету речей, які відтворюють поведінку певних пристроїв Інтернету речей. Це важливо для розробки та оцінки кібербезпекових рішень для IoT. Як і багато інших наборів даних з кібербезпеки, IoT-23 включає мітки, які вказують на те, чи є мережева активність доброякісною або зловмисною. Набір даних включає дані мережевого трафіку з різних протоколів IoT, що відображає різноманітність методів зв'язку пристроїв IoT. Хоча IoT-23 має на меті імітувати реальну поведінку пристроїв IoT, можуть бути відмінності між емуляцією та реальним трафіком пристрою, тому це потрібно враховувати при побудові моделей IDS. IoT-23 в основному надає дані про мережевий трафік без широкого поведінкового контексту для пристроїв IoT, тоді як у реальних сценаріях розуміння поведінки та контексту може мати вирішальне значення для безпеки таких пристроїв. (4)
Попри те, що навчальні набори даних є незамінною частиною ефективного навчання систем виявлення вторгнень з використанням машинного навчання, вони мають ряд обмежень, на які потрібно зважати при роботі з такими даними. Вони можуть описувати як мережевий трафік взагалі (UNSW-NB15), так і трафік виключно бездротових мереж (Aarhus wireless IDS). Відповідно до цього IDS навчені одним набором даних будуть неефективні для розпізнавання сценаріїв не передбачених таким ННД. Також важливим аспектом навчання IDS є сама структура даних, яка не завжди відображає реальний трафік в комп’ютерних мережах, тому такі навчальні набори можуть потребувати розширення, а також кластеризації для ефективнішого машинного навчання.
1. Moustafa, Nour, and Jill Slay. UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set). Military Communications and Information Systems Conference. місце видання невідоме : IEEE, 2015.
2. Creech, Gideon. Developing a high-accuracy cross platform Host-Based Intrusion Detection System capable of reliably detecting zero-day attacks. 2014 .
3. Efstratios Chatzoglou, Georgios Kambourakis, Constantinos Kolias. Empirical Evaluation of Attacks Against IEEE 802.11 Enterprise Networks: The AWID3 Dataset. IEEE Access. 2021. Т. 9.
4. Vibekananda Dutta, Michał Choraś, Marek Pawlicki, Rafał Kozik. A Deep Learning Ensemble for Network Anomaly and Cyber-Attack Detection. Sensors. 2020. Т. 20.