Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОС 2.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
905.22 Кб
Скачать

74. Теория и практика информационно-поисковых систем.

Поиск информации является часто возникающей задачей, причем если раньше потребность в отборе конкретной информации из всего информационного множества возникала в основном у специалистов, то с появлением Интернета проблему поиска и отбора необходимой информации приходится решать и рядовым пользователям. Помимо самой информационной потребности при больших объемах информации появляется необходимость в систематизации этой информации и облегчению ее поиска. Эту проблему призваны решать информационно-поисковые системы. Принято различать ручные, механизированные и автоматизированные информационно-поисковые системы. В качестве примера системы с ручным поиском можно привести ситуацию поиска литературы по определенной теме в библиотеке. Первые механизированные информационно-поисковые устройства представляют собой технические средства, которые обеспечивают отбор нужных документов путем механического сопоставления поисковых образцов с запросами. С использованием компьютеров для поиска информации стали говорить о создании автоматизированных информационно-поисковых систем. Таким образом, современные информационно-поисковые системы – это программы системы для хранения, поиска и выдачи интересующей пользователя информации.

Сущность любого информационного поиска заключается в отборе информации по определенному запросу из базы данных, в которой эта информация хранится. При этом не важно, в каком виде представлена информация: письменный текст, видео, звучащая речь и т.д. В теории и практике создания информационно-поисковых систем разработана своя терминология. Важнейшими понятиями являются следующие:

Запрос – вербально выраженная потребность пользователя в определенной информации.

Документ – любой осмысленный текст, который обладает определенной логической завершенностью содержит сведения о его источнике и создателе. Документы хранятся в базе данных ИПС (информационно-поисковой системы).

Тезаурус – специально организованный нормативный словарь лексических единиц информационно-поискового и естественного языка. Назначение тезауруса – помочь пользователю сформулировать информационный запрос так, чтобы он был правильно понят системой. Тезаурус учитывает семантические связи между словами: антонимию, синонимию, родовидовые отношения, ассоциации.

Индексирование – выражение центральной темы какого-либо текста или описание какого-либо объекта на информационно-поисковом языке.

По характеру поискового массива и выдаваемой информации ИПС подразделяют на документальные и фактографические.

Документальная ИПС предназначена для поиска документов, содержащих необходимую информацию. Поисковый массив такой ИПС состоит из поисковых образов документов и из самих документов. В ответ на предъявляемый информационный запрос ИПС выдает некое множество документов, содержащих необходимую пользователю информацию.

Фактографическая ИПС обеспечивает выдачу непосредственно фактических сведений, затребованных потребителем в информационном запросе. Поисковый массив состоит из фактографических записей, т.е. из описаний фактов, извлеченных из документов и представленных на некоем формальном языке.

При работе ИПС могут возникать ошибки двух типов. Первый тип связан с ситуацией, когда текст является релевантным смыслу, но не является релевантным с формальной точки зрения. В результате ИПС не выдает этот текст пользователю. Второй тип ошибок связан с тем, что текст обладает формальной релевантностью, не обладая при этом смысловой. В результате пользователь на выходе получает множество текстов.

Увеличить эффективность работы ИПС можно за счет детальной обработки текста документа. Существуют системы, которые в качестве поискового образа документа принимают его название, однако оно не всегда формально отражает содержание текста. Поэтому применяют программы, производящие лингвистическую обработку текстов на естественном языке с учетом морфологии и синтаксиса.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]