Общая структурная схема информационной поисковой системы. Компоненты информационной поисковой системы. Словарь ипс.

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Ухтинский государственный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Печать_ТИПИС.doc

Скачиваний:

Добавлен:

08.08.2019

Размер:

323.07 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 78 / 168 9 10 11 12 13 14 15 16 > Следующая >>>

Общая структурная схема информационной поисковой системы. Компоненты информационной поисковой системы. Словарь ипс.

ИПЯ обладают высокими смысловыражающими способностями. В настоящее время под ИПЯ понимается формализованная семантическая система, обеспечивающая передачу (запись) информации в объеме, необходимом для цели поиска. В качестве стандартизируемых единиц используют ключевые слова или ключевые слова в некоторых стандартизируемых выражениях (стандартизированные предложения запросов). Алфавит языка: алфавит естественного языка + спец. символы, которые можно использовать для построения запросов и для отражения взаимоотношений слов в предложении. Как любой формальный язык ИПЯ должен быть описан своей грамматикой, которая состоит из синтаксиса и морфологии. Синтаксис – структура предложения. Морфология – правила,, предоставляющий допустимую лексику. Сам словарь состоит из лексических единиц, ключевых слов и их дескрипторов. Дескриптор может быть посредником между ключевым словом и статьей, соотнесенной с ключевым словом, а может быть указателем на раздел, в котором это ключевое слово может встретиться. Словарь = Тезаурус + Грамматика; ИПЯ = Синтаксис + Словарь. Система индексирования. Под индексированием понимается процесс перевода с естественного языка на ИПЯ (Пример: система шифров УДК библиотеки). Процесс индексирования – сложный и трудоемкий, поэтому он должен быть автоматизирован. Автоматизация процесса индексирования есть система индексирования. Типы систем индексирования: 1. Свободное индексирование – использование ключевых слов. Недостаток: ключевые слова указываются создателем. 2. Полусвободное индексирование – ключевые слова анализируются и если они совпадают со словами тезауруса, то устанавливается связь, если не входят в тезаурус – они игнорируются. Недостаток: ключевые слова указываются создателем. 3. Статистический подход – ключевые слова сами вырабатываются системой на основе статистического анализа текста. 4. Индексирование, контролируемое тезаурусом – каждое слово текста с точностью до основы сравнивается со словарем, вырабатывается весовой коэффициент совпадения, совпадение записывается в поисковый образ документа, туда же часто записывается и дескриптор. Пример: поиск в глобальных сетях. Логика ИПС – система критериев выдачи (или критериев смыслового соответствия) и базисные отношения между словами (парадигмы). Базисные отношения – не зависят от контекста, их можно записывать списком и включать в тезаурус. Чаще всего описываются логическими связками между словами (и, или). Базисные отношения увеличивают семантическую мощность системы. Различают: - Фиксированные базисные отношения – наиболее простой способ задания предложений (пример: шифр УДК, не подразумевает логических связей). - Динамически организуемые базисные отношения – могут формироваться в процессе функционирования системы. Операции связывания формируются в процессе работы программы. (пример: толково-комбинаторный словарь наиболее употребительной лексики). Критерии выдачи (или критерии смыслового соответствия) – являются основой для алгоритма поиска. Различают следующие критерии: - На полное вхождение - полное совпадение поискового образа документа и поискового запроса; - На частичное вхождение – поисковый образ запроса должен входить в поисковый образ документа (может быть больше, но точно такое должно быть, например, ИС и теория ИС); - С учетом базисных отношений – фраза в любых соотношениях проверяется во всех документах; -С учетом синтаксических отношений – системы базисных отношений должны иметь более сложную структуру, смысловой образ запроса является иерархической структурой, указаны синтаксические отношения в запросе (они будут отличать фразы: ИС и системы информации).

<<< < Предыдущая 1 2 3 4 5 6 78 / 168 9 10 11 12 13 14 15 16 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.03.20162.09 Mб82Павел Волков. Разнообразие человеческих миров.doc
#
02.03.20161.75 Mб1058ПБ в НиГ.doc
#
17.09.2019578.56 Кб8ПГС_ТГВ_ВВ_Гидравлика 10-11.doc
#
02.03.20161.03 Mб9Пенсионный фонд, его .docx
#
12.11.201995.74 Кб2петрофиз_связи.doc
#
08.08.2019323.07 Кб10Печать_ТИПИС.doc
#
02.03.201660.07 Кб30ПЗ Планирование доходов бюджета.docx
#
02.03.2016106.5 Кб11Питер Фуллер Искусство подачи информации.doc
#
06.11.20186.85 Mб79поверочный расчет парового котла.doc
#
17.11.201955.64 Кб3поиск в интернете.docx
#
21.09.201925.32 Кб4полит 34-38 вопросы.docx