29. Информационный поиск. Ипс, их типы, использование. Лингвистические основы разработки и функционирования ипс.

Резкое возрастание объемов научно-технической информации в 50-60 гг. XX столетия привело к развитию информационных технологий и созданию автоматизированных информационно-поисковых систем — ИПС или АИПС. Структура и организация информационно-поисковых систем определялись следующей проблемной ситуацией: имеется множество документов; имеется коммуникативное задание, информационная потребность; требуется найти во множестве документов тексты, соответствующие запросу.

Понятия запроса и документа стоят в центре информационной деятельности. В процессе поиска информации происходит сравнение содержания запроса и документа. Степень соответствия документа запросу задается категорией релевантности. Каждый документ в ИПС получает определенный информационный код — кодируется с помощью информационно-поискового языка. Этот код называется поисковым образом документа (ПОД). Аналогичное выражение на информационно-поисковом языке — поисковое предписание (ПП) — сопоставляется запросу. Соответствие поискового образа документа поисковому предписанию называется формальной релевантностью. Действительное соответствие содержания выданного документа содержанию запроса называется смысловой релевантностью.

Результаты поиска могут характеризоваться с двух точек зрения: с т.з. точности и с т.з. полноты. Полнота поиска определяется соотношением между количеством выданных релевантных документов к общему числу релевантных документов, имеющихся в информационной системе. Точность поиска задается отношением между количеством выданных релевантных документов к общему количеству документов в выдаче. В идеальном случае количественное выражение полного и точного поиска равно единице.

Типы информационно-поисковых систем. По типу хранимой и обрабатываемой информации и особенностям поиска ИПС — документальные и фактографические. В документальных хранятся тексты документов или их описания (рефераты и пр.). Фактографические имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и пр. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). С теоретической точки зрения база данных представляет собой совокупность признаков описываемых объектов с указанием отношений между ними. В качестве описываемого объекта может выступать, напр., книга, номер и пр. Объект в базе данных характеризуется по признакам или атрибутам. Так, книга может иметь атрибуты: 1) автор; 2) название. Базы данных по своей структуре разделяются на иерархические, сетевые и реляционные. Наиболее распространены реляционные базы данных, которые можно представить в виде таблиц с очень большим количеством строк и столбцов.

Информационно-поисковые языки. Центральное место в информационно-поисковой системе занимает информационно-поисковый язык. ИПЯ — формальный язык для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его формальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для данной проблемной области семантические различия между документами, требование однозначности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.

ИПЯ делятся на языки-классификации и языки дескрипторного типа. Языки-классификации, или языки классификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа универсальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. Они ограничены крупными классами (таксонами) понятий и не позволяют выйти на достаточную глубину описания документов, обеспечить точность индексирования, не позволяют характеризовать документ с различных точек зрения, что делает невозможным многоаспектное индексирование.

Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индексирование документа по нескольким основаниям — фасетам (англ. facet — аспект). Напр., газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной российской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста.

В автоматизированных ИПС чаще используются дескрипторные информационно-поисковые языки. Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков.

На следующем этапе возникла технология лингвистического контроля, заключавшегося в унификации языка индексирования запросов и документов. Наиболее удачной формой унификации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем парадигматическими отношениями получил название информационно-поискового тезауруса (ИПТ). Разработка ИПТ стоит в центре создания любой информационно-поисковой системы. Среди парадигматических отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «процесс—результат», «причина—следствие». В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Именно в этом направлении идет развитие современных информационно-поисковых систем.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2021 / 2221 22 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.04.202566.73 Кб2Otvety_na_voprosy.docx
#
01.04.2025198.45 Кб0otvety_po_anatomii.docx
#
09.06.2015146.73 Кб113otvety_po_bukh_uchetu-1.docx
#
12.09.2019146.88 Кб109Otvety_po_Ekonomike.docx
#
01.03.2025149.66 Кб17otvety_po_IT.docx
#
01.04.2025475.14 Кб14Otvety_po_prikl_lingv.doc
#
01.03.2025191.89 Кб23Otvety_po_TGP (1).docx
#
23.12.201838.4 Кб97OTVYeT_PO_INFORMATIKYe.docx
#
09.06.2015735.74 Кб643pedagogika.doc
#
01.05.2025335.87 Кб6Perechen_voprosov_dlya_zacheta_po_BZhD_v_6_seme...doc
#
01.05.202545.81 Кб7Perfect Tense.docx