Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Сытник (учебник) (готово).doc
Скачиваний:
94
Добавлен:
10.11.2018
Размер:
3.96 Mб
Скачать

13.2. Інформаційно-пошукова мова та її використання в аіпс

Кожна ІПС містить певний набір семантичних засобів (куди належить, зокрема, інформаційно-пошукова мова), методи індек­сування документів та запитів, методи пошуку. Основу семантич­них засобів становить ІПМ. Інформаційно-пошукова мова — це спеціалізована штучна мова, яка призначена для опису централь­них тем чи предметів і формальних характеристик документів, а також для опису інформаційних запитів і наступного виконання пошуку.

Іноді в АІПС одну мову використовують для індексації доку­ментів, а іншу — для індексації інформаційних запитів.

До ІПМ ставиться цілий ряд вимог:

  • ІПМ повинна мати достатній набір лексико-граматичних за­собів для точного вираження центральних тем або змісту будь-якого тексту (документа) і теми довільного інформаційного запиту;

  • ІПМ має бути однозначною, тобто кожний запис нею по­винен мати лише одне семантичне тлумачення;

  • ІПМ має бути зручною для порівняння та повного чи част­кового порівняння ПОБ і ПР;

  • ІПМ має бути компактною, мати невелику вартість та бути відкритою для можливого розширення та внесення змін.

Жодна з природних мов не може бути використана як ШМ че­рез недостатню структуризацію, велику кількість граматичних ви­нятків, неоднозначність та велику надлишковість природної мови. Наприклад, у російській мові надлишковість досягає 75—85 %.

В ІПМ не допускається наявність характерних для природної мови синонімів та омонімів, оскільки вони спричинюються до семантичної неоднозначності мови.

Основними елементами ІПМ є алфавіт, лексика, граматика, парадигматичні (базові) відношення, правила побудови індексів та їх ідентифікація.

Алфавітом називається система графічних знаків, що викори­стовуються для фіксації слів і словосполучень мови.

Лексика мови — це сукупність слів, що використовуються в ній.

Граматика — це сукупність діючих засобів та правил побудо­ви висловлювань засобами цієї мови.

Відношення між словами, які не залежать від контексту, де вони використовуються і спричинені не мовними, а логічними зв'язками, називаються парадигматичними відношеннями. Ці від­ношення називаються ще аналітичними, або базовими. Завдяки предметно-логічним зв'язкам слова на основі тієї чи іншої семан­тичної ознаки можуть об'єднуватися в лексико-семантичні групи, які називаються парадигмами. Наприклад, слова «магнітна стріч­ка», «магнітний диск», «перфокартка», «перфострічка», «гнучка магнітна дискета» утворюють тематичну групу «носії інформа­ції». У середині цієї групи перелічені слова можна об'єднати в лексико-семантичні парадигми «носії паперові», «носії магнітні».

Іншим типом відношень, що пов'язують слова будь-якої мови, є такі лінійні відношення, які безпосередньо установлюються при об'єднанні слів у словосполучення та фрази. Такі відношення на­зиваються синтагматичними. Одним із найпростіших видів син­тагматичних відношень є таке, коли до того чи іншого поняття приєднується ще одне, яке пояснює перше і вказує на те, що воно є власним ім'ям, визначенням чи певним видом діяльності. Так, наприклад, якщо документ стосується винахідника і його вина­ходу, то поняття, які стосуються винаходу та винахідника, відмі­чаються окремо, щоб уникнути плутанини при виконанні пошу­ку, наприклад, «Дизель» (винахідник) і «дизель» (двигун).

Із щойно сказаного можна зробити такий висновок: парадиг­матика спирається на певну сукупність (перелік) пов'язаних між собою мовних одиниць, а синтагматика потребує певних правил об'єднання цих одиниць у словосполучення. Тому парадигматику мови можна з певним припущенням порівнювати з її лексикою, а синтагматику мови — з її граматикою.

При розробці ІПМ слід ураховувати таке:

специфіку галузі чи предмета, для якого ця мова розробляється;

особливості текстів (документів), які утворюють пошуковий масив;

характер інформаційних потреб, для задоволення яких ство­рюється ІПС.

Доцільність використання тієї чи іншої мови багато в чому за­лежить від призначення інформаційної системи, рівня її осна­щення технічними засобами та рівня автоматизації. Для збері-

гання документів у бібліотеках і технічних архівах використову­ють, як правило, мови, якими поширюються традиційні бібліо­течно-бібліографічні класифікації. Словниковий склад цих мов задається у вигляді фіксованого списку слів і словосполучень. Ці мо­ви належать до класифікаційного типу, причому розглядаються такі системи класифікації: ієрархічна, алфавітно-предметна, фасетна.

З огляду на ріст інформаційних потоків та інформаційних пот­реб перелічені мови класифікаційного типу не задовольняють вимог сучасних інформаційних систем. Адже мова цього типу має дуже обмежений словниковий запас, поповнювати який дуже нелегко, а тому мови цієї групи використовуються в дуже вузько-спеціалізованих системах. Більш поширені інформаційно-пошу­кові мови дескрипторного типу. Ця мова характеризується тим, що її словник складається із окремих ізольованих слів та слово­сполучень, розміщених в алфавітному порядку. Дескрипторна мова грунтується на методі координатного індексування, який дає змо­гу виражати зміст документа шляхом встановлення відповідності між текстом цього документа і деякою множиною ключових слів чи дескрипторів. Тому дескрипторні мови називають посткоор-динатними, а в противагу їм традиційні бібліотечно-бібліо­графічні мови належать до передкоординатних. До посткоординатних мов належать дескрипторні мови, а також семантичні коди та синтагматична мова. Загальна класифікація ІПМ має такий вигляд:

1. Передкоординатні ІПМ.

1.1. Ієрархічна класифікація.

1.2. Алфавітно-предметна класифікація.

1.3. Фасетна класифікація.

2. Посткоординатні ІПМ.

2.1. Дескрипторні мови.

2.2. Семантичні коди.

2.3. Синтагматичні мови.

Розглянемо докладніше дескрипторну мову.

13.3. ДЕСКРИПТОРНА ІНФОРМАЦІЙНО-ПОШУКОВА МОВА ТА ПРИНЦИПИ її ПОБУДОВИ

У сучасних АІПС дескрипторна мова експлуатується в двох варіантах:

1. Обробка документів і запитів за допомогою інформаційно-пошукового тезаурусу.

2. Безтезаурусний ввід і пошук документів.

При використанні дескрипторної мови основний зміст запиту чи документа виражається у вигляді деякої сукупності слів чи словосполучень природної мови. Слова та словосполучення є іме­нами деяких класів понять. Слово чи словосполучення, яке вхо­дить до пошукового образу, задає координати документа в бага­товимірному просторі ознак.

Для координатного індексування документів чи запитів можна як лексичні одиниці ІПМ використовувати слова, які безпосеред­ньо вибираються з індексованих текстів. Такі слова та словоспо­лучення називаються ключовими словами.

Як уже зазначалося, пошук в ІПС зводиться до формального порівняння пошукового образу документа та пошукового розпо­рядження (запиту).

Проте простий вибір ключових слів із тексту для послівного порівняння ПОБ і ПР є складним через наступні причини:

    1. можливе різне написання одних і тих самих слів;

    2. серед ключових слів є дуже багато синонімів та омонімів;

    3. ключові слова не визначають родово-видові відношення між словами.

Наприклад, темою запиту є отримання документації про на­півпровідникову продукцію, що виготовляється на заводі. При вико­нанні запиту документація, що містить інформацію про транзистори, не буде видана як відповідь на запит, незважаючи на те, що поняття «напівпровідник» охоплює вужче поняття — «транзистор».

Для усунення цих недоліків при розробці дескрипторної мови виконується спеціальний лексикограматичний контроль, буду­ються спеціальні словники, схеми, таблиці, які дають змогу вира­зити парадигматичні відношення між термінами індексування. Для дескрипторної мови розробляється спеціальний синтаксис.

Лексикографічний контроль полягає в тому, що всі ключові слова зводяться до нормального вигляду, тобто до одної форми написання і повного усунення синонімії, омонімії та різного роду багатозначностей за допомогою спеціального нормативного слов­ника. У цьому словнику в єдиній морфологічній формі перелічені всі ключові слова. Зі списку ключових слів вибираються слова, які в межах даної ІПМ є синонімами. Ці ключові слова групують­ся в класи умовної еквівалентності (парадигми). Із кожної такої групи вибирається одне слово чи словосполучення, яке є семан­тичною домінантою групи, тобто найповніше визначає зміст слів відповідної групи. Ці слова стають дескрипторами, тобто лекси­чними одиницями ІПМ. Звідси й походить назва «дескрипторна мова».

Отже, дескриптори — необхідні для координатного індексу­вання документів та інформаційних запитів. Це нормативні клю­чові слова, які відібрані з основного словникового складу природ­ної мови так, аби серед них не було омонімів, синонімів та бага­тозначності.

Дескрипторною називається спеціалізована інформаційно-по­шукова мова, словниковий склад якої становлять дескриптори, а граматика — способи побудови пошукових образів та пошукових розпоряджень координацією відповідних дескрипторів.

Словниковий склад ІПМ можна розбити на дві частини.

  1. Основний словниковий склад, до якого належать дескрип­тори однієї галузі.

  2. Ключові слова, які позначають чи виражають власні імена, вузькі чи нові поняття, специфічні найменування, кількісні харак­теристики і т.ін.

Дескриптори та ключові слова з певної галузі записуються в алфавітному порядку і утворюють нормативний словник.