Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Печать_ТИПИС.doc
Скачиваний:
10
Добавлен:
08.08.2019
Размер:
323.07 Кб
Скачать
  1. Общая структурная схема информационной поисковой системы. Компоненты информационной поисковой системы. Словарь ипс.

ИПЯ обладают высокими смысловыражающими способностями. В настоящее время под ИПЯ понимается формализованная семантическая система, обеспечивающая передачу (запись) информации в объеме, необходимом для цели поиска. В качестве стандартизируемых единиц используют ключевые слова или ключевые слова в некоторых стандартизируемых выражениях (стандартизированные предложения запросов). Алфавит языка: алфавит естественного языка + спец. символы, которые можно использовать для построения запросов и для отражения взаимоотношений слов в предложении. Как любой формальный язык ИПЯ должен быть описан своей грамматикой, которая состоит из синтаксиса и морфологии. Синтаксис – структура предложения. Морфология – правила,, предоставляющий допустимую лексику. Сам словарь состоит из лексических единиц, ключевых слов и их дескрипторов. Дескриптор может быть посредником между ключевым словом и статьей, соотнесенной с ключевым словом, а может быть указателем на раздел, в котором это ключевое слово может встретиться. Словарь = Тезаурус + Грамматика; ИПЯ = Синтаксис + Словарь. Система индексирования. Под индексированием понимается процесс перевода с естественного языка на ИПЯ (Пример: система шифров УДК библиотеки). Процесс индексирования – сложный и трудоемкий, поэтому он должен быть автоматизирован. Автоматизация процесса индексирования есть система индексирования. Типы систем индексирования: 1. Свободное индексирование – использование ключевых слов. Недостаток: ключевые слова указываются создателем. 2. Полусвободное индексирование – ключевые слова анализируются и если они совпадают со словами тезауруса, то устанавливается связь, если не входят в тезаурус – они игнорируются. Недостаток: ключевые слова указываются создателем. 3. Статистический подход – ключевые слова сами вырабатываются системой на основе статистического анализа текста. 4. Индексирование, контролируемое тезаурусом – каждое слово текста с точностью до основы сравнивается со словарем, вырабатывается весовой коэффициент совпадения, совпадение записывается в поисковый образ документа, туда же часто записывается и дескриптор. Пример: поиск в глобальных сетях. Логика ИПС – система критериев выдачи (или критериев смыслового соответствия) и базисные отношения между словами (парадигмы). Базисные отношения – не зависят от контекста, их можно записывать списком и включать в тезаурус. Чаще всего описываются логическими связками между словами (и, или). Базисные отношения увеличивают семантическую мощность системы. Различают: - Фиксированные базисные отношения – наиболее простой способ задания предложений (пример: шифр УДК, не подразумевает логических связей). - Динамически организуемые базисные отношения – могут формироваться в процессе функционирования системы. Операции связывания формируются в процессе работы программы. (пример: толково-комбинаторный словарь наиболее употребительной лексики). Критерии выдачи (или критерии смыслового соответствия) – являются основой для алгоритма поиска. Различают следующие критерии: - На полное вхождение - полное совпадение поискового образа документа и поискового запроса; - На частичное вхождение – поисковый образ запроса должен входить в поисковый образ документа (может быть больше, но точно такое должно быть, например, ИС и теория ИС); - С учетом базисных отношений – фраза в любых соотношениях проверяется во всех документах; -С учетом синтаксических отношений – системы базисных отношений должны иметь более сложную структуру, смысловой образ запроса является иерархической структурой, указаны синтаксические отношения в запросе (они будут отличать фразы: ИС и системы информации).