Conference System of NULES of Ukraine, GLOBAL AND REGIONAL PROBLEMS OF INFORMATIZATION IN SOCIETY AND NATURE USING 2017

Font Size: 
Підвищення ефективності надання послуг в сфері медичного туризму через кластеризацію веб-користувачів
Анна Андріївна Лєднікова

Last modified: 15-06-2017

Abstract


Кожного місяця більше 3000 людей звертаються до центрів медичного туризму в Україні за консультацією або програмою лікування і це число росте. Щоб йти в ногу з часом та забеспечивати допомогу кожному і вчасно потрібна автоматизація процесів. У цьому може допомогти сегментація користувачів.

Суть новизна цього дослідження у представленні сесій веб-користувачів у вигляді дерева, а не лінійній послідовності подій, та використання його характеристик для виявлення більш емоціних ніж інформативних особливостей. Застосовуються базові характеристики такі як статистики глубини й ширини дерева, що додаються до основих, що включає у себе статистики по переглядам категорій, часу та сесій.

Для навчання моделей використовувалися класичний K-means та Bisecting K-means. Критеріями обрання моделі було вибрані три метрики: згуртованість кластерів, їх поділ та корисність кластеризації.

Було натренеровано 40 моделей, серед яких для більш детального аналізу було обрано чотири. Серед останніх для кращої формувалися якісні описи на основі значень характеристик у центроїдах.

В результаті отримано 4 кластера з більшої конверсією, ніж середня (1.78%). Ці кластера об’єднують 30% всіх користувачів. Максимальна конверсія (3.25%) в 1.8 більша за середню. 1 кластер з нульовою конверсією, що складає 0.7%. Отримані кластера можна умовно поділити на поведінкові та інформаційні.

Запропоновані сегмети дозволяють виділити більш цілеспрямованих користувачів, а їх якісні описи -  побудувати стратегії до ведення клієнтів певних сегментів. Розроблена програма є основою для побудови автоматизованої системи для підбору оптимальної кількості кластерів та навчання моделей для їх виділення, а на даному етапі може бути використана будь-яким аналітиком, інженером машиного навчання або науковцем даних. Завдяки тому, що застосовані сучасні інформаційні технології, зокрема Apache Spark, є можливість роботи з великими даними.

Робота має цікаві перспективи для подальшого розвитку у напрямку автоматизованого розподілу клієнтів і менеджерів та створення програмного продукту, що буде обирати найкращі моделі кластеризації та пропонувати їх кінцевому користувачу.


Keywords


Data Mining, Clusterization, Apache Spark, Big Data, Segmentation, Graph Theory, Web-users