Остання редакція: 12-06-2017
Тези доповіді
УДК 004.048
ПРО ВЗАЄМОЗВЯЗОК ТЕЗАУРУСА І ОНТОЛОГІЇ
ЯК ЛЕКСИЧНИХ РЕСУРСІВ МАШИННОЇ ОБРОБКИ ПРИРОДОЇ МОВИ
Ясенова І.С.
Проблеми аналізу змісту інформації [1] поєднують сфери штучного інтелекту математичної лінгвістики, математичної логіки та теорії графів, та, головним чином, обробку природної мови. Оскільки вирішення проблеми комп’ютерного аналізу тексту означає розуміння мови, а синтез природних мов – генерацію грамотного тексту, прикладні програмні засоби обробки природної мови повинні мати доступ до величезної кількості слів і фраз, які формуються в такі лексичні ресурси як онтології і тезауруси. При рішеннях задач обробки природної мови (Natural Language Processing, NLP) може виникнути плутанина понять онтології і комп'ютеризованого тезауруса, оскільки вони взаємопов’язані.
Отже онтологія предметної області D – це впорядкована четвірка , де Х – кінцева множина, елементи якої називаються концептами (поняттями) із області D, – кінцева множина, елементи якої називаються відношеннями між концептами, F – множина, елементи якої називаються відношеннями інтерпретації елементів із в області D, де А – множина аксіом, яка в окремому випадку може бути пустою [2].
Тезаурус – це словник, в якому слова і словоформи з близькими значеннями групуються в одиниці, які називаються поняттями (концептами), де явно у вигляді відношень (відношень ієрархії) вказані семантичні зв’язки між цими поняттями [3]. Комп’ютерний тезаурус – це ресурс для обчислення семантичної подібності між словами і фразами, а також лексичними ланцюжками в тексті [4]. Щоб комп'ютеризувати тезаурус необхідно створити лексичну базу знань з представленням в ній явних, а іноді і неявних зв’язків між словами.
Можемо вважати, що тезаурус є представленням
мовної організуючої лінгвістичної інформації, а онтологія – система знань про предметну область та її формальну модель із засобами представлення знань релевантних для даної області. Поєднання онтології і тезауруса формує основу інтелектуальної системи, оскільки, тезаурус відображає онтологію лінгвістичних знань про конкретну предметну область: проблемно-орієнтована лексика, організована з урахуванням морфології, синтаксису, словотвору, синонімії, омонімії і ін.
Із визначення онтології випливає, що існує область інтерпретації множин , якій відповідає дана предметна область D. У найзагальнішому випадку онтологія описує ієрархію концептів, пов'язаних взаємозв’язками самого загального характеру, а в більш складних випадках додаються аксіоми для вираження специфічних відносини і обмеження їх інтерпретації. Використання обмеження інтерпретації дозволить звузити область можливих значень концептів, наближаючи відношення інтерпретації до функціонального відношення. До відношень множини з безлічі R додаються відношення множини RD предметної області D.
До відношень з множини R заносять відношення порядку (як правило, квазіпорядку або часткового порядку) на множині концептів і відношення подібності або, в кращому випадку, відношення еквівалентності. Відношення порядку представляють у вигляді орієнтованого графу (онтограф) з вершинами сформованими за допомогою відношення подібності. Звідси випливає, що онотологічна модель предметної області є орієнтованим онтографом, який є гіперграфом. Відношення із множини RD визначаються тією предметною областю D, на якій інтерпретуються концепти. Виходячи із формального визначення онтології: концептуалізація – це пара , де D - область інтерпретації даної предметної області (домен), а RD – множина релевантних відношень кінцевої арності на D.
Візьмемо логічну мову L в алфавіті V, в якому фіксуються властивості предметної області. Визначимо модель мови L як пару виду , де – структура області, а – інтерпретація елементів із V на заданих елементах із D и предикатів, які відповідають відношенням із множини RD. Така модель відображає просторову інтерпретацію логічної мови L.
Отже, можемо отримати ієрархію онтологій.
Онтології верхнього рівня, які описують концепти дуже загального характеру такі, як простір, час, події і т. п., що не залежать від окремої предметної області або проблеми і відносин між цими концептами.
Онтології предметних областей або онтології завдань, що описують актуальні завдання та результати, накопичені в даній предметній області; ці онтології використовують термінологію онтологій верхнього рівня, поповнюючи її своєю термінологією, концептами та відносинами.
Онтології прикладні, які описують конкретні завдання і методи їх вирішення в конкретній предметній області; ці онтології описують конкретні методи рішення конкретних завдань (це можуть бути програми, пакети прикладних програм, опис технологій і т.п.).
Може здатися, що поняття онтологія і тезаурус схожі. Проте тезаурус описує семантику ґрунтуючись на загальних поняттях і використовується як основа організації лексичної інформації без формалізації самої семантики. Формалізація ж є ланцюгом між поданням знань і текстом природною мовою. Така організація тезаурусу неможлива, оскільки, по-перше, різні предметні області не завжди мають єдину семантику і відповідно кістяк, які б стали основою організації вузько орієнтованого тезаурусу і, по-друге, універсальні тезауруси будуються на основі ієрархічної структури, яка є природною для текстових тезаурусів, але вона зовсім не адекватна в реальних конкретних предметних областях.
Використані джерела
- Ясенова І. Проблеми аналізу змісту інформації. – Збірник матеріалів IV Міжнародної науково-практичної конференції «Глобальні та регіаональні проблеми інформатизації в суспільстві і природокористуванні 2016», 23-34 червня 2016 року. НУБІП України, Київ. – Немішаєве: НМЦ «Немішаєве», 2016. – С. 87-88 .
- Палагин А.В. Онтологические методы и средства обработки предметных знаний / А.В. Палагин, С.Л. Крывый, Н.Г. Петренко. – [Монография]. – Луганск: изд-во ВНУ им. В. Даля, 2012. – 324 с.
- Лукашевич Н. В. Тезаурус в задачах информационного поиска. – М. : Изд. Моск. ун-та. – 2011. – 512 с.
- Mario Jarmasz, Stan Szpakowicz Roget's Thesaurus: a Lexical Resource to Treasure. – Journal-ref: Proceedings of the NAACL WordNet and Other Lexical Resources workshop. Pittsburgh, June 2001, 186 – 188