Остання редакція: 25-10-2023
Тези доповіді
У контексті систем виявлення вторгнень (IDS) та машинного навчання навчальні набори даних (ННД) є одним із ключових компонентів для навчання та оцінки ефективності моделей IDS. Правильний вибір навчального набору даних забезпечує коректну обробку певного набору мережевих аномалій або зловмисних дій. Також надзвичайно важливим є актуальність таких наборів даних, оскільки ННД можуть бути застарілими і не описувати структуру мережевих даних, характерну для сучасних мереж (наприклад стандартний ННД KDD Cup 1999 є дещо застарілим і використовується переважно як бенчмарк для порівняння з сучасними наборами даних). Нижче розглянемо такі ННД як UNSW-NB15, ADFA-LD Dataset, Aarhus Wireless IDS Dataset (AWID) та IoT-23 Dataset.
ННД UNSW-NB15 містить велику кількість даних мережевого трафіку, що робить його цінним ресурсом для дослідників у галузі кібербезпеки. Він включає широкий спектр мережевого трафіку, в тому числі нормальну і зловмисну активність, яка точно імітує реальну поведінку мережі. UNSW-NB15 охоплює широкий спектр сценаріїв атак, включаючи відмову в обслуговуванні (DoS), зондування, атаки типу user to root і remote to local. Така різноманітність дозволяє дослідникам тестувати стійкість систем виявлення вторгнень до різних типів загроз. Набір даних надає повний набір характеристик, витягнутих з даних мережевого трафіку, таких як IP-адреси джерела і призначення, порти джерела і призначення, протоколи і дані про корисне навантаження. Завдяки своєму розміру та різноманітності, набір даних є стандартом в області виявлення вторгнень. Це полегшує порівняння та оцінку ефективності різних моделей, оскільки багато дослідницьких робіт використовують UNSW-NB15 як загальний набір даних. Однак він має ряд недоліків, зокрема цей ННД був зібраний до 2015 року, а ландшафт кібербезпеки постійно розвивається. Він може неадекватно охоплювати нові загрози та методи атак, які з'явилися з того часу. Як і багато інших наборів даних для виявлення вторгнень, UNSW-NB15 має незбалансований розподіл класів, з більшою кількістю безпечних записів у порівнянні зі шкідливими. Це може ускладнити побудову надійних моделей виявлення вторгнень, оскільки вони можуть бути упередженими до більшості класів. Також надає високорівневі дані мережевого потоку, але не містить детальних даних на рівні пакетів. Для деяких дослідницьких програм дані на рівні пакетів можуть знадобитися для глибшого розуміння поведінки мережі (1).
ННД ADFA-LD базується на середовищі Linux, що робить його дуже актуальним для вивчення та розробки систем виявлення вторгнень для систем на базі Linux, які поширені в багатьох серверних та мережевих конфігураціях. ADFA-LD містить детальні траси системних викликів, які є цінним ресурсом для побудови та навчання систем виявлення вторгнень. Системні виклики відображають поведінку програм і можуть бути використані для виявлення аномальних або зловмисних дій. Як і HНД UNSW-NB15, ADFA-LD став еталонним набором даних в галузі досліджень кібербезпеки. Багато дослідницьких робіт використовують його як стандарт для оцінки методів виявлення вторгнень, що полегшує порівняння різних методів. Також цей набір даних відомий тим, що має відносно обмежену різноманітність сценаріїв атак. Він в основному зосереджений на низькорівневих трасах системних викликів, а це означає, що він може не охоплювати всі складнощі мережевих атак або багатоетапних атак із залученням декількох процесів. ADFA-LD - це відносно невеликий набір даних у порівнянні з деякими іншими наборами даних для виявлення вторгнень. На відміну від деяких інших наборів даних, ADFA-LD не включає дані мережевого трафіку. Мережеві атаки можуть бути недостатньо представлені в цьому наборі даних. (2)
ННД Aarhus Wireless IDS (AWID) фокусується саме на бездротовому мережевому трафіку, що робить його цінним ресурсом для вивчення і розробки систем виявлення вторгнень для бездротових середовищ. Це особливо актуально, оскільки бездротові мережі сьогодні є широко розповсюдженими. Набір даних включає реальний мережевий трафік, який відображає складність і різноманітність діяльності бездротової мережі, що робить його більш придатним для дослідження виявлення вторгнень в реальних умовах. Також AWID містить мітки для мережевих дій, які вказують на їхню безпечність або шкідливість. Анотовані дані спрощують навчання та оцінку моделей виявлення вторгнень. ННД включає детальні дані на рівні пакетів, які можуть бути цінними для детального аналізу та вилучення ознак для моделей машинного навчання. Хоча набір даних містить реальний мережевий трафік, він може мати обмежену різноманітність з точки зору сценаріїв атак і мережевих умов. Він може не повністю відображати нові загрози або незвичну поведінку мережі. AWID як і багато інших наборів даних для виявлення вторгнень, може мати незбалансований розподіл класів, з більшою кількістю безпечних записів, ніж зловмисних. Це може створювати проблеми при побудові моделей, які можуть бути упередженими в бік більшості класів. Також AWID є дещо обмеженим набором, оскільки зосереджується на єдиній схемі модуляції (DSSS), яка може бути не репрезентативною для всіх типів бездротових мереж і технологій. (3)
IoT-23 розроблений спеціально для дослідження безпеки пристроїв IoT, що робить його цінним ресурсом для вивчення проблем безпеки, характерних для середовищ IoT. Цей набір даних надає реалістичні дані про мережевий трафік, що генерується емульованими пристроями Інтернету речей, які відображають фактичну поведінку пристроїв Інтернету речей. Це важливо для розробки та оцінки рішень для безпеки IoT. Як і багато інших наборів даних з кібербезпеки, IoT-23 включає мітки, які вказують на те, чи є мережева активність доброякісною або зловмисною. Набір даних включає дані мережевого трафіку з різних протоколів IoT, що відображає різноманітність методів зв'язку пристроїв IoT. Подібно до інших наборів даних виявлення вторгнень, IoT-23 може страждати від дисбалансу класів, з більшою кількістю доброякісних записів у порівнянні зі зловмисними. Хоча набір даних має на меті імітувати реальну поведінку пристроїв IoT, можуть бути відмінності між емуляцією та реальним трафіком пристрою. Дослідники повинні бути обережними при узагальненні результатів на реальні сценарії. IoT-23 в основному надає дані про мережевий трафік без широкого поведінкового контексту для пристроїв IoT. У реальних сценаріях розуміння поведінки і контексту пристроїв може мати вирішальне значення для ефективної безпеки. (4)
1. Moustafa, Nour, and Jill Slay. UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set). Military Communications and Information Systems Conference. місце видання невідоме : IEEE, 2015.
2. Creech, Gideon. Developing a high-accuracy cross platform Host-Based Intrusion Detection System capable of reliably detecting zero-day attacks. 2014 .
3. Efstratios Chatzoglou, Georgios Kambourakis, Constantinos Kolias. Empirical Evaluation of Attacks Against IEEE 802.11 Enterprise Networks: The AWID3 Dataset. IEEE Access. 2021. Т. 9.
4. Vibekananda Dutta, Michał Choraś, Marek Pawlicki, Rafał Kozik. A Deep Learning Ensemble for Network Anomaly and Cyber-Attack Detection. Sensors. 2020. Т. 20.