Остання редакція: 10-11-2019
Тези доповіді
УДК 004.91
ІНФОРМАЦІЙНА СИСТЕМА ПРЕДСТАВЛЕННЯ ЗНАНЬ В ДІАЛОГОВИХ СИСТЕМАХ З ПРИРОДНОЮ МОВОЮ
Сапонов К. О., науковий керівник Ткаченко О. М.
Діалогові системи з природною мовою сьогодні широко представлені в інформаційних системах різного типу і застосування. Особливо часто такі системи вбудовують в різного типу програмні додатки та web-додатки і забезпечують зручний користувацький інтерфейс з елементами фільтрації, обмеження або штучного модерування того чи іншого контенту.
Підхід, щодо створення такої системи передбачає інтеграцію в єдине ціле декількох підсистем: підсистеми початкового вводу даних; системи керування базами даних та їх драйвери; підсистему штучного інтелекту для обробки елементів природної мови; програмну та бізнес-логіку взаємодії окремих підсистем тощо.
Для розробки інформаційної системи представлення знань в діалогових системах з природньою мовою використовується ООП технологія - MVC[1]. Принцип роботи патерну MVC показаний на рисункy 1. Доцільною мовою програмування було обрано Java[2].
Рис. 1 – Схема роботи Web-MVC патерну
Формується наступний алгоритм роботи модуля штучного інтелекту, який складається з етапів передобробки та отримання тексту:
- отримання слів з тексту (для роботи із складними завданнями необхідно витягувати N-грами (комбінації слів)). Для вилучення N-грам можна створити більш складний алгоритм TextTokenizer.extractKeywords() або скористатися функцією KeywordExtraction, реалізованої в API компанії Datumbox[3].
- Передобробка тексту (перед навчанням і класифікацією, як правило, необхідно виконати передобробку документів, щоб видалити непотрібні символи).
У програмній реалізації модуля ІС обмежена передобробка фрагментів лексичних одиниць природної мови виконується за допомогою методу TextTokenizer.preprocess(), але коли мова йде про аналіз HTML-сторінок, цей процес стає складнішим. В цьому випадку можна просто видалити HTML-теги і залишити тільки необхідні лексичні одиниці контенту. Для класифікації одиниць природної мови можна застосувати більш складні алгоритми машинного навчання, які визначають основний текст сторінки і видаляють контент, що належить тегам footer, header, menu тощо. В якості ще одного варіанту розв’язку даної задачі можна скористатися функцією TextExtraction, реалізованої в API компанії Datumbox.
В результаті створення програмного модуля генерації форми звіту в форматі PDF(Рис. 2) можна дослідити скільки містить загальну кількість зчитаних (запарсених) сайтів, веб-сторінок, тегів та власне саму кількість розпізнаних коментарів за існуючими в проекті словниками. Нижче цих рядків наведено дату генерації звіту. Під цими статистичними даними наведено вже безпосередньо коментарі із значенням присвоєного наївним Баєсівським класифікатором класу з врахуванням наявних словників.
Рис. 2 – PDF-звіт
Результати роботи модуля у вигляді виходу за коментуванням:
Prof– коментарії професійного характеру;
Positive– позитивні коментарії;
Negative– негативний відтінок.
В результаті застосування вибраного випробуваного на вибірках даного методу можна досягти високої продуктивності та коректної роботи ІС представлення знань в діалогових системах з природною мовою.
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
- MVC - Model View Controller [Електронний ресурс] – Режим доступу: http://design-pattern.ru/patterns/mvc.html.
- Где используется Java? [Електронний ресурс] – Режим доступу до ресурсу: https://vertex-academy.com/tutorials/ru/gde-ispolzuetsya-java/.
- DatumBox [Електронний ресурс] – Режим доступу до ресурсу: http://www.datumbox.com/.