Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Сытник (учебник) (готово).doc
Скачиваний:
114
Добавлен:
10.11.2018
Размер:
3.96 Mб
Скачать

13.4. Інформаційно-пошуковий тезаурус

З погляду виконання якісного пошуку інформації недостатньо провести лексикографічний контроль та побудувати список дес­крипторів і ключових слів. Необхідно створити спеціальний нор­мативний словник, в якому лексичні одиниці були б взаємо­пов'язані і визначені. Крім внутрішніх текстових взаємозв'язків такий словник — його називають тезаурусом — має містити позатекстові зв'язки. Тезаурус у перекладі з грецької означає клад, багатство, запас. Отже, множина дескрипторів і ключових слів з їх відношеннями організують тезаурус.

Тезаурус є зібранням лексики штучної мови.

Інформаційно-пошуковий тезаурус (ІПТ) виник насамперед як допоміжний апарат ІПС, що будується у вигляді списку термінів і зв'язків між ними.

Інформаційно-пошуковий тезаурус дає змогу перекладати ос­новний зміст документів та інформаційних запитів з природної мови інформаційно-пошуковою.

Для виконання цієї операції в тезаурусі мають відбиватися па­радигматичні відношення, які існують між термінами ІПМ. Па­радигматичні відношення — це позатекстові відношення, які ві­дображають залежності між процесами чи об'єктами реальної предметної області. Парадигматичні відношення — це відношення типу рід—вид, частина—-ціле, причина—наслідок і т.ін. Тобто парадигматичні відношення не залежать від контексту, в якому використовуються ті чи інші слова, вони зумовлені не мовними, а логічними зв'язками, які існують в реальній дійсності.

Основні етапи побудови інформаційно-пошукового тезаурусу такі:

  1. Добір лексичних одиниць тексту, тобто ключових слів, які виражають основний зміст тексту чи його головну тему.

  2. Групування лексичних одиниць тексту в класи умовної ек­вівалентності, тобто аналіз їх щодо синонімії та вибір семан­тичних домінант (дескрипторів).

  3. Встановлення парадигматичних відношень між лексичними одиницями тексту.

  4. Оформлення ІПТ.

Існують ручний і автоматизований способи встановлення па­радигматичних відношень між ключовими словами. При встанов­ленні цих залежностей визначають дескрипторні статті, або гніз­да. Дескрипторна стаття, або гніздо, тезаурусу — це сукупність головного дескриптора та дескрипторів, які пов'язані з ним поза-текстовими зв'язками.

У разі ручного способу аналізують словник ключових слів. Для цього кожну лексичну одиницю тексту послідовно крок за кроком порівнюють з усіма іншими словами, щоб виявити зв'яз­ки даного терміна з іншими. Таку роботу доручають висококва­ліфікованому спеціалістові, який добре обізнаний з термінологі­єю тієї предметної області, для якої розробляється ІПТ. Проте виконання цієї роботи досить трудомістке й складне та потребує дуже багато часу.

У разі автоматизованого способу дескрипторні статті, або гні­зда, визначають так. В основу методики побудови гнізд покладе­но принцип установлення змістової єдності пар елементів слов­ника статистичним методом. Метод базується на гіпотезі про те, що ті лексичні одиниці тексту, для яких частота попарного вико­ристання в межах групи вища за деяку порогову величину, утво­рюють класи близьких за значенням термінів.

Визначити коефіцієнти сумісності можна за формулою:

де С — коефіцієнт сумісності пар ключових слів; К — число до­кументів, у текстах яких зустрічаються обидві одиниці тексту;

М — число одиниць, в яких зустрічається хоча б одна з лексич­них одиниць.

Здобуті групи взаємопов'язаних дескрипторів зазначеним спо­собом аналізує спеціаліст, і лише після цього формується дес­крипторна стаття. Статистичним методом можна тільки встано­вити наявність зв'язку, тип зв'язку визначає спеціаліст.

Формалізовано дескрипторну статтю можна записати так:

ДС = Д (Мс, Мв, Мн, Ма),

де Д — основний дескриптор; Мс — множина ключових слів, що належать до класу умовної еквівалентності дескриптора; Мв — множина дескрипторів, які безпосередньо підпорядковують ос­новний дескриптор; Мн — множина дескрипторів, які підпоряд­ковані основному дескриптору; Ма —- множина дескрипторів, які пов'язані з основними слабкими зв'язками (асоціації).