9.4. Автоматизация процессов построения ипт

Работа по составлению тезауруса вручную может длиться несколько лет. За это время лексика соответствующих отраслей и областей знаний также может измениться, так как могут появиться новые направления в науке, новые понятия и т. д. Автоматизация этапов составления и дополнения тезаурусов помогает устранить эти проблемы. В России исследования по автоматическому построению тезаурусов начались в 1950-е гг.

Используя специальное программное обеспечение, можно автоматизировать такие процессы построения ИПТ, как:

формирование словника (списка) КС из полных текстов электронных документов, рефератов, библиографических записей электронного каталога и т. д.;

— анализ частоты встречаемости слов и словосочетаний, в том числе частоты встречаемости в пределах ПОД, реферата, абзаца, предложения и т. д.;

алфавитная сортировка словника;
формальная проверка непротиворечивости ссылок, их взаимности;
формирование алфавитного, пермутационного указателей и указателя иерархических отношений;
распечатка в требуемых формах.

Чтобы реализовать вышеперечисленные автоматизированные процессы, а также ввести их в АИС, при создании тезауруса для каждого дескриптора создаются отдельные записи в определенном формате. В информационной деятельности для этой цели использовался ГОСТ 7.47–84. «СИБИД. Коммуникативный формат для словарей информационных языков и терминологических данных». В библиотеках для представления в электронном каталоге J1E тезаурусов, а также дескрипторов тезаурусов для локальных баз данных используют Российский коммуникативный формат представления авторитетных/нормативных записей, а также USMARC для нормативных записей (предметов), который приспособлен для этой цели.

Автоматизация построения тезаурусов требует использования различных методов. Чаще используются в процессе создания и ведения тезаурусов: статистический метод, метод свободного индексирования, метод пополнения и коррекции тезауруса в процессе эксплуатации. Например, автоматическое построение словарных статей требует использования количественной дифференциации парадигматических отношений для установления степени смысловой близости пар элементов тезауруса с помощью статистических методов. Для этого используется коэффициент ассоциации, который определяется как отношение числа документов, в которых встречаются оба слова, к общему числу документов, в которых встретилось хотя бы одно из них. В результате в статью тезауруса включаются слова, коэффициент ассоциации которых с заглавным словом превышает.

Метод свободного индексирования используется на этапе отбора лексических единиц. Свободное индексирование входных документов обеспечивает полноту списка ключевых слов и его непрерывное обновление и пополнение. В процессе автоматического составления списка ключевых слов по текстам документов используются данные о частоте совместной встречаемости слов (дистрибуции) и скорости появления новых слов. Кроме того, используются списки запрещенных к употреблению слов. Могут использоваться и методы формализованного выделения лексики из документов. В основе этих методов лежат принципы морфологического и синтаксического анализа текста.

Одним из важных этапов автоматизации построения тезауруса является его пополнение и коррекция. Пополнение словарной части тезауруса осуществляется с помощью списка запрещенных слов. Каждый дескриптор имеет информацию о его используемости. То же самое касается и новых слов, которые отсутствуют и в тезаурусе, и в списке запрещенных слов. Суть этого метода заключается в определении критерия значимости и информации, приписанной дескрипторам, в пополнении тезауруса новыми словами и, наоборот, устранении малоиспользуемых дескрипторов. Эти дескрипторы перемещаются в список запрещенных слов.

Пополнение тезауруса новыми лексическими единицами, выявленными при индексировании документов, должно проводиться при эксплуатации АИС постоянно путем включения их в нужные иерархические деревья с формированием ассоциативных связей. Отношения между словами устанавливают в одном направлении: от рода к виду или целого к части. Обратные связи осуществляются ЭВМ автоматически путем инверсии установленных отношений.

<<< < Предыдущая 57 58 59 60 61 62 63 64 65 66 67 6869 / 8769 70 71 72 73 74 75 76 77 78 79 80 81 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.04.201579.87 Кб25условный театр.doc
#
11.04.201569.12 Кб38Устав ХА ПЛАСТИЛИН.doc
#
15.03.201639.42 Кб38Утопический социализм Т. Мора и Т. Кампанеллы.docx
#
15.03.201635.05 Кб134Утопический социализм Т. Мора и Т. Кампанеллы.docx
#
15.03.20162.1 Mб62Учебник Драматургия фильма Нехорошев,.doc
#
11.04.20152.16 Mб1258Учебник.doc
#
11.04.2015460.29 Кб41Учебное пособие.doc
#
15.03.201628.55 Кб31Фандрейзинг.docx
#
15.03.201639.9 Кб39Фантастика братьев Стругацких КОНТРЛ РАБ.docx
#
23.09.201970.09 Кб9философия ответы экзамен.docx
#
15.03.201647.48 Кб25Философия эпохи возрождения.docx