Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
mini-WPORKA.docx
Скачиваний:
4
Добавлен:
04.09.2019
Размер:
61.73 Кб
Скачать

26.Інформаційно пошукові тезауруси

Iнформаційно-пошуковий тезаурус (IПТ) виник насамперед як допоміжний апарат IПС, що будується у вигляді списку тер¬мінів і зв’язків між ними.

Iнформаційно-пошуковий тезаурус дає змогу перекладати ос¬новний зміст документів та інформаційних запитів з природної мови інформаційно-пошуковою.

Для виконання цієї операції в тезаурусі мають відбиватися парадигматичні відношення, які існують між термінами IПМ. Парадигматичні відношення — це позатекстові відношення, які відображають залежності між процесами чи об’єктами реальної предметної області. Парадигматичні відношення — це відношення типу рід—вид, частина—ціле, причина—наслідок і т.ін. Тобто парадигматичні відношення не залежать від контексту, в якому використовуються ті чи інші слова, вони зумовлені не мовними, а логічними зв’язками, які існують в реальній дійсності.

Основні етапи побудови інформаційно-пошукового тезаурусу такі:

1. Добір лексичних одиниць тексту, тобто ключових слів, які виражають основний зміст тексту чи його головну тему.

2. Групування лексичних одиниць тексту в класи умовної ек¬вівалентності, тобто аналіз їх щодо синонімії та вибір се¬ман¬тичних домінант (дескрипторів).

3. Встановлення парадигматичних відношень між лексичними одиницями тексту.

4. Оформлення IПТ.

Iснують ручний і автоматизований способи встановлення парадигматичних відношень між ключовими словами. При встанов¬ленні цих залежностей визначають дескрипторні статті, або гнізда. Дескрипторна стаття, або гніздо, тезаурусу — це сукупність головного дескриптора та дескрипторів, які пов’язані з ним позатекстовими зв’язками.

27.Тезауруси для концептуального індексування

Основною метою розробки традиційних інформаційно-пошукових тезаурусів є використання їх одиниць (дескрипторів) для опису основних тем документів в процесі ручного індексування. За своєю суттю тезаурус для ручного індексування є штучним мовою опису, побудованим на основі природної мови. При цьому сам процес індексування за таким тезаурусу базується на лінгвістичних, граматичних знаннях, а також знаннях про предметну область, які є у професійних індексаторів текстів. Індексатор спочатку повинен прочитати текст, зрозуміти його і потім викласти зміст тексту, користуючись дескрипторами інформаційно-пошукового тезауруса. Індексатор повинен добре розуміти всю термінологію, використану в тексті, - для опису основної теми тексту йому знадобиться значно меншу кількість термінів.

При автоматичній обробці текстів людини - посередника між текстом і описом його змісту у вигляді дескрипторів немає. Є тільки автоматичний процес і Тезаурус, який повинен містити і ті знання, які містяться в традиційних інформаційно-пошукових тезаурусах, і ті знання (наскільки це можливо), які використовує індексатор для визначення основної теми тексту.

Саме тому традиційні тезауруси, розроблені для ручного індексування, важко використовувати при автоматичному індексуванні.

Розробка тезауруса для автоматичного індексування (далі - АІ тезауруса) характеризується перш за все необхідністю опису значно більшої кількості слів і словосполучень, що зустрічаються в текстах даної предметної області. АІ тезаурус повинен не тільки включати терміни, які представляють важливі поняття в текстах даної предметної області, але також охоплювати широке коло більш специфічних термінів, виявлення яких у конкретному тексті зробить цей текст релевантним запиту за поняттями більш високого рівня. Наприклад, мають бути описані не тільки дескриптор РИБА і його основні підрозділи, такі як МОРСЬКІ РИБИ, анадромні риби і т.п., але і значну кількість конкретних видів риб, з тим щоб текст, обговорює проблеми вилову минтая, міг би бути отриманий при пошуку по терміну риба.