Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
71_ю-._.pdf
Скачиваний:
35
Добавлен:
06.02.2016
Размер:
3.43 Mб
Скачать

Автоматизація систематизації та предметизації

Систематизація та предметизація представляють собою найбільш масові і трудомісткі процеси семантичної обробки інформації, що використовуються в інформаційних органах і бібліотеках. Метою цих процесів є, як вже зазначалося раніше, формування ПОД (ПОЗ) у вигляді набору простих або складних індексів чи предметних рубрик.

У даний час існує ряд методів алгоритмізації систематизації та предметизації. Оскільки за змістом ці процеси аналогічні, їх розгляд буде паралельним.

Задача алгоритму – визначення рубрик класифікаційної схеми або рубрикатора, що відповідають змісту конкретного тексту.

Як свідчить досвід, найбільш розповсюдженим є логіко-лі- нгвістичний метод [109].

На першому етапі індексування відбувається аналіз змісту документа з метою виділення його теми. На другому етапі здійснюється пошук рубрик, релевантних темі документа.

На третьому етапі – побудова індекса або рубрик на документ, шляхом комбінації простих індексів (рубрик), вибраних на другому етапі. Треба відмітити, що аналіз змісту документа на першому етапі систематизації (предметизації) з точки зору його алгоритмізації близький до координатного індексування. Таким чином, для алгоритмізації цього етапу можна використовувати готові ПОД.

Другий етап систематизації та предметизації зводиться до прийняття рішення про рівнозначність смислового згортання документа та рубрики. Змісту цього етапу відповідає процедура співставлення термінів ПОД зі словником дескрипторів при координатному індексуванні в АІПС. Процес співставлення ПОД з рубриками класифікаційної схеми або рубрикатора аналогічний процесу автоматизованого пошуку в ІПС. При цьому рубрики виконують роль запитів на ІПМ.

На третьому етапі здійснюється автоматичне присвоєння документам рубрик або індексів згідно з прийнятим критерієм видачі.

Автоматизація систематизації та предметизації дозволяє подолати недоліки, що притаманні суб’єктивним семантичним процесам обробки інформації, які виконуються традиційними методами.

Автоматизація координатного індексування

164

В автоматизованих ІПС (АІПС) для індексування документів чи запитів найбільше використовуються ІПМ дескрипторного типу. Цією мовою парадигматичні відношення – між поняттями фіксуються в тезаурусах, а синтагматичні відношення шляхом використання спеціальних граматичних засобів (покажчиків ролі та зв’язку). Автоматизоване індексування (АІ) здійснюється за:

текстом первинного документа;

назвою та анотацією чи рефератом документа.

До АІ за текстом первинного документа повинна входити процедура стислого викладення ПОД. З використанням ЕОТ здійснюються такі етапи АІ, як:

виявлення інформативних частин документа;

ідентифікація слів тексту і приведення їх до нормалізованого виду (морфологічний аналіз і синтез);

формування списку ключових слів;

підбір дескрипторів за тезаурусом;

формування ПОД.

При автоматизації координатного індексування до ЕОМ вводяться вихідні (неформалізовані) тексти документів (як правило, реферати) і на їх основі за допомогою програмних засобів формуються ПОД.

Якщо для введення документа в ІПС використовується природна мова, то будь-яка система аналізу змісту текстів повинна містити методи нормалізації мови. Один із найбільш ефективних методів такої нормалізації пов’язаний зі спеціально побудованими словниками, які записані у пам’яті ЕОМ. Мета створення словників – уніфікація термінології, що використовується у формалізованих документах.

Найбільш розповсюдженими машинними словниками, що використовуються для автоматичного аналізу текстів природною мовою, які вводяться до АІС для автоматичного формування ПОД, є такі:

1.Словник заперечень, до якого входять терміни, які не є інформативними для даної предметної галузі. Використання їх заперечується з метою аналізу змісту документів. Наприклад, терміни

дослідження, вимоги, проблеми тощо.

2.Тезаурус або словник синонімів, який для кожного введення

(статті) словника визначає одну або більше синонімічних категорій або класів понять. Тезаурус використовується для фіксування переходів від багатьох введень синонімів до єдиних класів понять.

165

3. Словник словосполучень, що використовується для визначення найбільш вживаних комбінацій слів (словосполучень). Такий словник підвищує ефективність аналізу змісту, виділяючи для ідентифікації змісту однозначні словосполучення замість двох або більше неоднозначних компонентів, наприклад, терміни – програма, мова та ін. є менш визначеними, коли вони виступають самостійно, ніж словосполучення мова програмування.

4. Ієрархічні. Ієрархічна організація термінів або понять подібна до схеми бібліотечної класифікації і дозволяє для даного входу словника знайти більш широке, або більш вузьке поняття та ін. [73].

Слід відмітити, що перелічені словники не повністю вилучають неоднозначність слів природної мови, але зменшують вплив порушень норм використання мови вхідних текстів, тобто, сприяють нормалізації мови.

Для автоматичного формування ПОД і ПОЗ в АІС використовуються різні способи аналізу змісту текстів, до яких входять методи співставлення слів, використання в пам’яті ЕОМ словників, синтаксичних і статистичних методів, встановлення зв’язків між словами і поняттями, методів побудови та аналізу словосполучень та ін.

Найбільше розповсюдження в АІС отримали:

1.Морфологічний аналіз, суть якого полягає в розподілі слів природної мови на основи, афікси (префікси і суфікси) та закінчення. Існує ряд алгоритмів розпізнання і відсікання афіксів і закінчень слів природної мови, наведених в документах і запитах. Вони використовуються для скорочення введених текстів до основ слів і ототожнення різних форм слів для підвищення ефективності інформаційного пошуку. Так, наприклад: інформатика, інформативний в результаті морфологічного аналізу будуть приведені до однієї форми інформат.

2.Використання словника синонімів або тезауруса для заміни значущих слів дескрипторами.

3.Використання ієрархічної структури понять дає можливість для будь-якого поняття знайти його родове, видове, синонімічне й асоціативне поняття.

4.Синтаксичний аналіз – це розподіл тексту на фрагменти за заданими критеріями; встановлення синтаксичної залежності між словоформами тексту; ототожнення словосполучень; нормалізація визначених ключових слів.

5.Семантичний аналіз текстів, у процесі якого встановлюються смислові зв’язки між словами, попередньо віднесеними до визначе-

166

них типів і категорій та ін.

Таким чином, процес автоматичного індексування документів складається з таких етапів:

1.Виділення із вихідного тексту фрагментів індексування (слів, словосполучень, речень). Цей етап вимагає семантичного аналізу текстів.

2.Морфологічний аналіз слів формалізованих описів документів.

3.Синтаксичний аналіз вихідних словосполучень.

4.Пошук в тезаурусі найменувань понять, пов’язаних за смисловим значенням з вихідним (еквівалентним вихідним, родовим і асоційованим поняттям).

5.Відбір із знайдених найменувань понять, найбільш вузьких за смисловим значенням, їх заміна.

6.Формування ПОД. У процесі АІ допускається формування ПОД із ключових слів або дескрипторів ІПТ (при цьому відбувається заміна ключових слів на дескриптори в ІПТ). При формуванні ПОД із дескрипторів можливе збагачення ПОД за рахунок поповнення вищими термінами ІПТ.

Але слід зазначити, що в різних АІС деякі етапи можуть бути відсутніми або виконуватись в іншій послідовності. Це залежить, перш за все, від призначення та функціональних можливостей АІС.

Крім того, слід також відмітити, що до системи АІ висуваються такі вимоги:

- модульність побудови, тобто така організація лінгвістичного

та програмного забезпечення системи, при якій процедура рішення окремих задач АІ реалізується за допомогою самостійних блоків і модулів;

-орієнтація на типові програмні і технічні засоби;

-відповідність нормативно-методичної документації з індексування.

Автоматичне індексування запитів

Запити на пошук інформації, що сформульовані природною мовою, повинні бути формалізовані. Суть формалізації полягає в представленні вихідних запитів у вигляді послідовності найменувань понять (слів або словосполучень) з вказівкою логічних зв’язків між поняттями і між групами понять. Це такі логічні зв’язки: кон’юнкції, диз’юнкції, заперечення [73].

Після формалізації вихідного запиту він підлягає автоматичному індексуванню.

167