Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебник.doc
Скачиваний:
1225
Добавлен:
11.04.2015
Размер:
2.16 Mб
Скачать

9.4. Автоматизация процессов построения ипт

Работа по составлению тезауруса вручную может длиться несколько лет. За это время лексика соответствующих отраслей и областей знаний также может измениться, так как могут появиться новые направления в науке, новые понятия и т. д. Автоматизация этапов составления и дополнения тезаурусов помогает устранить эти проблемы. В России исследования по автоматическому построению тезаурусов начались в 1950-е гг.

Используя специальное программное обеспечение, можно автоматизировать такие процессы построения ИПТ, как:

  • формирование словника (списка) КС из полных текстов электронных документов, рефератов, библиографических записей электронного каталога и т. д.;

— анализ частоты встречаемости слов и словосочетаний, в том числе частоты встречаемости в пределах ПОД, реферата, абзаца, предложения и т. д.;

  • алфавитная сортировка словника;

  • формальная проверка непротиворечивости ссылок, их взаимности;

  • формирование алфавитного, пермутационного указателей и указателя иерархических отношений;

  • распечатка в требуемых формах.

Чтобы реализовать вышеперечисленные автоматизированные процессы, а также ввести их в АИС, при создании тезауруса для каждого дескриптора создаются отдельные записи в определенном формате. В информационной деятельности для этой цели использовался ГОСТ 7.47–84. «СИБИД. Коммуникативный формат для словарей информационных языков и терминологических данных». В библиотеках для представления в электронном каталоге J1E тезаурусов, а также дескрипторов тезаурусов для локальных баз данных используют Российский коммуникативный формат представления авторитетных/нормативных записей, а также USMARC для нормативных записей (предметов), который приспособлен для этой цели.

Автоматизация построения тезаурусов требует использования различных методов. Чаще используются в процессе создания и ведения тезаурусов: статистический метод, метод свободного индек­сирования, метод пополнения и коррекции тезауруса в процессе эксплуатации. Например, автоматическое построение словарных статей требует использования количественной дифференциации парадигматических отношений для установления степени смысловой близости пар элементов тезауруса с помощью статистических методов. Для этого используется коэффициент ассоциации, который определяется как отношение числа документов, в которых встречаются оба слова, к общему числу документов, в которых встретилось хотя бы одно из них. В результате в статью тезауруса включаются слова, коэффициент ассоциации которых с заглавным словом превышает.

Метод свободного индексирования используется на этапе отбора лексических единиц. Свободное индексирование входных документов обеспечивает полноту списка ключевых слов и его непрерывное обновление и пополнение. В процессе автоматического составления списка ключевых слов по текстам документов используются данные о частоте совместной встречаемости слов (дистрибуции) и скорости появления новых слов. Кроме того, используются списки запрещенных к употреблению слов. Могут использоваться и методы формализованного выделения лексики из документов. В основе этих методов лежат принципы морфологического и синтаксического анализа текста.

Одним из важных этапов автоматизации построения тезауруса является его пополнение и коррекция. Пополнение словарной части тезауруса осуществляется с помощью списка запрещенных слов. Каждый дескриптор имеет информацию о его используемости. То же самое касается и новых слов, которые отсутствуют и в тезаурусе, и в списке запрещенных слов. Суть этого метода заключается в определении критерия значимости и информации, приписанной дескрипторам, в пополнении тезауруса новыми словами и, наоборот, устранении малоиспользуемых дескрипторов. Эти дескрипторы перемещаются в список запрещенных слов.

Пополнение тезауруса новыми лексическими единицами, выявленными при индексировании документов, должно проводиться при эксплуатации АИС постоянно путем включения их в нужные иерархические деревья с формированием ассоциативных связей. Отношения между словами устанавливают в одном направлении: от рода к виду или целого к части. Обратные связи осуществляются ЭВМ автоматически путем инверсии установленных отношений.