Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
КП Сергина итоговыйУРА.doc
Скачиваний:
12
Добавлен:
24.09.2019
Размер:
667.65 Кб
Скачать

2.2. Разработка информационно-поисковой системы для исследования взаимосвязей в многоуровневой аис ра

Информационно-поисковая система – это совокупность (комплекс) связанных друг с другом отдельных частей, которые предназначены для выявления в каком-либо множестве элементов информации, которые отвечают на предъявленный к системе информационный запрос.

Цель данного раздела - разработка документальной информационно-поисковой системы для работы в виде поиска с различными массивами и документами.

Основные задачи:

  • Определение потребности проектирования

  • Разработка исходного варианта ИС

  • Оценка релевантности.

Районная Администрация работает с большим объемом информации. Ежедневно происходит документооборот различных материалов, документов. Возникают трудности контроля данного процесса. Для решения этих трудностей можно создать информационно-поисковую систему, которая бу

дет работать в режиме избирательного распределения информации и поиска необходимой информации, которая задается в виде запроса.

Многоуровневая структура информационной системы районной Администрации содержит такие страты:

- функциональная страта;

- информационные массивы и базы данных;

- программные продукты (ПП).

Одним их вариантов создания информационно-поисковой системы - написание системы, используя язык логического программирования Турбо-Пролог.

Пролог – это язык логического программирования, предназначенный для создания приложений, которые используют средства и методы искусственного интеллекта.

При программировании на Прологе упрощается описание алгоритма решения задачи. Программист имеет возможность заниматься непосредственно содержанием задачи.

Программа состоит из фактов и правил для получения других фактов и ответов на вопросы.

Информационный поиск может происходить между разными уровнями многоуровневой структуры. Поисковым образом документа и запроса может быть все, что необходимо пользователю для его потребности в поиске информации. Например:

Поисковый образ документа (ПОД) – массивы, базы данных;

Поисковый образ запроса (ПОЗ) – отчеты, документы.

Результат использования данного языка представлен в Приложении 1.

Также существует возможность написать информационно-поисковую систему при помощи языка программирования PHP и базы данных MySQL. Как с ней работать, и результаты ее использования представлены в практической части (глава 3 «Исследование взаимосвязей между стратами многоуровневой структуры АИСРА Администрации Калининского района Санкт-Петербурга с использованием информационно-поисковой системы).

После того, как был выполнен поиск необходимой информации по ПОЗ, то можно произвести оценку поисковой системы. Оценки поисковых систем можно разделить на два класса, которые называются внешними и внутренними оценками или функциональными и нефункциональными оценками.

Внешние, или функциональные, оценки основаны на сравнении результатов работы системы с результатами идеального содержательного поиска, осуществляемого экспертом. Они предполагают понятие релевантности.

Внутренние оценки могли бы основываться на таких структурных качествах системы, как сложность, степень близости к человеческой логике или естественному языку, степень алгоритмичности и т.п.

Релевантность – оценка результатов работы ИПС. То есть, релевантность – соответствие ответа к запросу.

Под релевантностью понимают «отношение смысловой близости» между содержанием документа и информационным запросом.

Формально – это соответствие ПОД, полученных в результате процедуры поиска, и ПОЗ, отображающего запрос потребителя [18].

Для введения критерия релевантности следует задать процедуру определения меры семантической близости поискового образа документа поисковому образу запроса и некоторые пороговые значения этой меры. Если мера превышает пороговое значение, то документ релевантен запросу. [18]

Оценку релевантности можно характеризовать полнотой выдачи (или потерями) и точностью (или шумом). Полнота – число невыданных релевантных документов. Точность – число или процент «лишних» документов, которые выданы в результате поиска, но не являются релевантным.

Существующая система с точки зрения количественных соотношений для вычисления наиболее употребительных оценок полноты (потерь) R и точности (шума) P.

,

где - число релевантных документов, формально выданных системой на i-запрос;

- число всех формально выданных на i-запрос системой документов;

- число всех релевантных документов, соответствующих запросу;

Рекомендуется определять полноту и точность на основе нескольких поисков N по запросу и рассчитывать их средние значения и суммарные относительные оценки.

Средняя относительная оценка:

N – количество запросов.

В таблице 1 представлена матрица для определения полноты и потерь, точности и шума.

Таблица 1

Матрица определения полноты и точности

Релевантны

Нерелевантны

А1

А2

Выдано

B1

a

b

a + b

Не выдано

B2

c

d

c + d

a + c

b + d

a + b + c + d

Полнота поиска измеряется отношением числа выданных релевантных документов (а) к общему числу релевантных документов массива (а+с):

; 0≤P≤1.

Точность поиска T –отношение числа выданных релевантных документов (а) к общему числу выданных документов (а+b):

; 0≤T≤1.

Таким образом, релевантность (формальная) характеризует свойства средств логико-семантического аппарата информационно-поисковой системы и зависит от возможности отображения ПОД и ПОЗ с помощью информационно-поискового языка, принятых в ИПС алгоритмов поиска и системы индексирования [18].