Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
mini-WPORKA.docx
Скачиваний:
3
Добавлен:
04.09.2019
Размер:
61.73 Кб
Скачать

8. Тезауруси

Тезáурус — одномовний тлумачний або тематичний словник, який прагне максимально охопити лексику конкретної мови, словник, що подає лексику певної мови в усьому її обсязі з прикладами їх використання в тексті, словник, в якому слова, що належать до якої-небудь галузі знань, розташовано за тематичним принципом і показано семантичні зв'язки між лексичними одиницями.

Основною метою розробки традиційних інформаційно-пошукових тезаурусів є використання їх одиниць (дескрипторів) для опису основних тем документів в процесі ручного індексування. За своєю суттю тезаурус для ручного індексування є штучною мовою опису, побудованим на основі природної мови. Індексатор спочатку повинен прочитати текст, зрозуміти його і потім викласти зміст тексту, користуючись дескрипторами інформаційно-пошукового тезауруса. Індексатор повинен добре розуміти всю термінологію, використану в тексті, - для опису основної теми тексту йому знадобиться значно меншу кількість термінів.

Розробка тезауруса для автоматичного індексування (далі - АІ тезауруса) характеризується перш за все необхідністю опису значно більшої кількості слів і словосполучень, що зустрічаються в текстах даної предметної області. АІ тезаурус повинен не тільки включати терміни, які представляють важливі поняття в текстах даної предметної області, але також охоплювати широке коло більш специфічних термінів, виявлення яких у конкретному тексті зробить цей текст релевантним запиту за поняттями більш високого рівня. Наприклад, мають бути описані не тільки дескриптор РИБА і його основні підрозділи, такі як МОРСЬКІ РИБИ, анадромні риби і т.п., але і значну кількість конкретних видів риб, з тим щоб текст, обговорює проблеми вилову минтая, міг би бути отриманий при пошуку по терміну риба.

Суспільно-політичний тезаурус являє собою ієрархічну мережу понять, кожне з яких має ряд текстових варіантів (способів мовного вираження) і сукупність відносин з іншими поняттями тезауруса.

В даний час Суспільно-політичний тезаурус включає 33 000 понять, 87000 російськомовних слів, термінів, виразів, 130000 відносин між поняттями.

Основною одиницею тезаурусів є терміни, які поділяються на дескриптори (авторизовані терміни) і недескріптори (аскріптори).

  1. Термінологічні словники та банки даних

Зазвичай люди і комп'ютерні агенти (програми) мають певне уявлення про значення термінів. Програмні агенти іноді надають специфікацію вхідних і вихідних даних, які також можуть бути використані як специфікація програми. Подібним чином онтології можуть бути застосовані, щоб надати конкретну специфікацію імен термінів і значень термінів. В рамках цього розуміння (де онтологія є специфікацією концептуальної моделі - концептуалізації) існує простір для варіацій. Окремі види онтологій можуть бути представлені як точки на спектрі в залежності від деталей їх реалізації.

Під базою даних (БД) будемо розуміти колекцію узгоджених взаємопов'язаних даних, які мають деякий "приховане (всередині) значення". БД схожі на бази знань (БЗ), оскільки вони також використовуються для опису деякої предметної області з метою зберігання, обробки і доступу до необхідної інформації про неї. Однак є й відмінності. Бази даних містять (і здатні обробляти) великі масиви відносно простий інформації (при цьому доступ можливий тільки до цих явно введених даних). У базах знань зазвичай зберігається менший обсяг інформації, але вони мають більш складну структуру, що дозволяє використовувати можливості логічного висновку й отримувати такі твердження, які не були в явному вигляді введені.