Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Otvety_po_prikl_lingv.doc
Скачиваний:
8
Добавлен:
01.04.2025
Размер:
475.14 Кб
Скачать

29. Информационный поиск. Ипс, их типы, использование. Лингвистические основы разработки и функционирования ипс.

Резкое возрастание объемов научно-технической информации в 50-60 гг. XX столетия привело к развитию информационных технологий и созданию автома­тизированных информационно-поисковых систем — ИПС или АИПС. Структура и организация информационно-поисковых систем определя­лись следующей проблемной ситуацией: имеется множество документов; имеется коммуникативное задание, информационная потребность; требуется найти во множестве документов тексты, соответствующие запросу.

Понятия запроса и документа стоят в центре информационной де­ятельности. В процессе поиска информации происходит сравнение со­держания запроса и документа. Степень соответствия документа запросу задается категорией релевантности. Каждый документ в ИПС получает определенный информационный код — кодируется с помощью инфор­мационно-поискового языка. Этот код называется поисковым образом до­кумента (ПОД). Аналогичное выражение на информационно-поисковом языке — поисковое предписание (ПП) — сопоставляется запросу. Соответ­ствие поискового образа документа поисковому предписанию называет­ся формальной релевантностью. Действительное соответствие содержания выданного документа содержанию запроса называется смысловой реле­вантностью.

Результаты поиска могут характеризоваться с двух точек зрения: с т.з. точности и с т.з. полноты. Полнота поиска определяется соотношением между количеством выданных релевантных документов к общему числу реле­вантных документов, имеющихся в информационной системе. Точность поиска задается отношением между количеством выданных релевантных документов к общему количеству документов в выдаче. В идеальном случае количественное выражение полного и точного поиска равно единице.

Типы информационно-поисковых систем. По типу хранимой и обрабатываемой информации и осо­бенностям поиска ИПС — докумен­тальные и фактографические. В документальных хранятся тексты документов или их описания (рефераты и пр.). Фактографические имеют дело с описанием конкретных фак­тов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и пр. Существуют и смешанные ИПС, включающие как до­кументы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). С теоретической точки зрения база данных представляет собой совокуп­ность признаков описываемых объектов с указанием отношений между ними. В качестве описываемого объекта может выступать, напр., книга, номер и пр. Объект в базе данных характеризует­ся по признакам или атрибутам. Так, книга может иметь атрибуты: 1) автор; 2) название. Базы данных по своей структуре разделяются на иерархические, сете­вые и реляционные. Наиболее распро­странены реляционные базы данных, которые можно представить в виде таблиц с очень большим количеством строк и столб­цов.

Информационно-поисковые языки. Центральное место в информационно-поисковой системе занимает информационно-поисковый язык. ИПЯ — формальный язык для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запро­са. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его фор­мальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационно­го поиска основаны на сравнении поискового предписания с поисковым образом запроса. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для дан­ной проблемной области семантические различия между документами, требование однознач­ности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.

ИПЯ делятся на языки-классификации и языки дескрипторного типа. Языки-классификации, или языки клас­сификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа уни­версальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. Они ограничены крупными классами (таксонами) понятий и не позволяют выйти на доста­точную глубину описания документов, обеспечить точность индексирования, не позволяют характеризовать доку­мент с различных точек зрения, что делает невозможным многоаспектное индексирование.

Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индекси­рование документа по нескольким основаниям — фасетам (англ. facet — аспект). Напр., газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной россий­ской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста.

В автоматизированных ИПС чаще используются дескрипторные инфор­мационно-поисковые языки. Тематика документа описывается совокупно­стью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Коли­чество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков.

На следующем этапе возни­кла технология лингвистического контроля, заключавшегося в унификации языка индекси­рования запросов и документов. Наиболее удачной формой унифи­кации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем па­радигматическими отношениями получил название информационно-по­искового тезауруса (ИПТ). Разработка ИПТ стоит в центре созда­ния любой информационно-поисковой системы. Среди парадигматиче­ских отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «процесс—результат», «причина—следствие». В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Именно в этом направлении идет развитие современных информационно-поисковых систем.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]