Інтернет-конференції НУБіП України, X МІЖНАРОДНА НАУКОВО-ПРАКТИЧНА КОНФЕРЕНЦІЯ МОЛОДИХ ВЧЕНИХ «ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ: ЕКОНОМІКА, ТЕХНІКА, ОСВІТА»

Розмір шрифту: 
ІНФОРМАЦІЙНА СИСТЕМА ПРЕДСТАВЛЕННЯ ЗНАНЬ В ДІАЛОГОВИХ СИСТЕМАХ З ПРИРОДНОЮ МОВОЮ
Костянтин Олександрович Сапонов

Остання редакція: 10-11-2019

Тези доповіді


УДК 004.91

ІНФОРМАЦІЙНА СИСТЕМА ПРЕДСТАВЛЕННЯ ЗНАНЬ В ДІАЛОГОВИХ СИСТЕМАХ З ПРИРОДНОЮ МОВОЮ

Сапонов К. О., науковий керівник Ткаченко О. М.

 

Діалогові системи з природною мовою сьогодні широко представлені в інформаційних системах різного типу і застосування. Особливо часто такі системи вбудовують в різного типу програмні додатки та web-додатки і забезпечують зручний користувацький інтерфейс з елементами фільтрації, обмеження або штучного модерування того чи іншого контенту.

 

Підхід, щодо створення такої системи передбачає інтеграцію в єдине ціле декількох підсистем: підсистеми початкового вводу даних; системи керування базами даних та їх драйвери; підсистему штучного інтелекту для обробки елементів природної мови; програмну та бізнес-логіку взаємодії окремих підсистем тощо.

 

Для розробки інформаційної системи представлення знань в діалогових системах з природньою мовою використовується ООП технологія  -  MVC[1]. Принцип роботи патерну MVC показаний на рисункy 1. Доцільною мовою програмування було обрано Java[2].

 

 

Рис. 1 – Схема роботи Web-MVC патерну

 

Формується наступний алгоритм роботи модуля штучного інтелекту, який складається з етапів передобробки та отримання тексту:

- отримання слів з тексту (для роботи із складними завданнями необхідно витягувати N-грами (комбінації слів)). Для вилучення N-грам можна створити більш складний алгоритм TextTokenizer.extractKeywords() або скористатися функцією KeywordExtraction, реалізованої в API компанії Datumbox[3].

- Передобробка тексту (перед навчанням і класифікацією, як правило, необхідно виконати передобробку документів, щоб видалити непотрібні символи).

 

У програмній реалізації модуля ІС обмежена передобробка фрагментів лексичних одиниць природної мови виконується за допомогою методу TextTokenizer.preprocess(), але коли мова йде про аналіз HTML-сторінок, цей процес стає складнішим. В цьому випадку можна просто видалити HTML-теги і залишити тільки необхідні лексичні одиниці контенту. Для класифікації одиниць природної мови можна застосувати більш складні алгоритми машинного навчання, які визначають основний текст сторінки і видаляють контент, що належить тегам footer, header, menu тощо. В якості ще одного варіанту розв’язку даної задачі можна скористатися функцією TextExtraction, реалізованої в API компанії Datumbox.

 

В результаті створення програмного модуля генерації форми звіту в форматі PDF(Рис. 2) можна дослідити скільки містить загальну кількість зчитаних (запарсених) сайтів, веб-сторінок, тегів та власне саму кількість розпізнаних коментарів за існуючими в проекті словниками. Нижче цих рядків наведено дату генерації звіту. Під цими статистичними даними наведено вже безпосередньо коментарі із значенням присвоєного наївним Баєсівським класифікатором класу з врахуванням наявних словників.

 

 

 

Рис. 2 – PDF-звіт

 

Результати роботи модуля у вигляді виходу за коментуванням:

Prof– коментарії професійного характеру;

Positive– позитивні коментарії;

Negative– негативний відтінок.

 

В результаті застосування вибраного випробуваного на вибірках даного методу можна досягти високої продуктивності та коректної роботи ІС представлення знань в діалогових системах з природною мовою.

 

СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

 

  1. MVC - Model View Controller [Електронний ресурс] – Режим доступу: http://design-pattern.ru/patterns/mvc.html.
  2. Где используется Java? [Електронний ресурс] – Режим доступу до ресурсу: https://vertex-academy.com/tutorials/ru/gde-ispolzuetsya-java/.
  3. DatumBox [Електронний ресурс] – Режим доступу до ресурсу: http://www.datumbox.com/.