Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3865

.pdf
Скачиваний:
1
Добавлен:
15.11.2022
Размер:
44.99 Mб
Скачать

-набор правил настройки средств добычи информации;

-набор сценариев информационного поиска.

Набор сценариев информационного поиска включает:

-поиск в локальном массиве электронных документов форматов: txt, html, pdf, doc;

-поиск на основе внешних конструкций;

-монопоиск и мультипоиск по ключевым словам;

-монопоиск и мультипоиск по образцу (шаблону).

Модель предметной области представляет собой иерархическую структуру терминов (терминологический портрет), связанную с областью исследований пользователя. Терминологический портрет отличается от тезауруса, весовой взаимоувязкой терминов в нем и более высоким уровнем детализации рассматриваемой предметной области. Для построения терминологического портрета текста используется специальный иерархический терминопостроитель, содержащий систему моделей и алгоритмов терминологического поиска, описанных в разделах 4.5 и 4.6.

Для запуска системы виртуального распределенного терминологического поиска необходимо исполнить командный файл Термин_поиск.bat. В состав скрипта командного файла входит набор команд, инсталлирующих программные средства, составляющие окружение данной системы. Устанавливаются драйверы, специальные пакеты программ, программная среда Python и исполнительный файл системы – analyzer.py. Кроме того в состав набора команд могут быть включены драйверы, операционные системы и исполнительные файлы, инсталлирующие виртуальные машины и виртуальную вычислительную сеть. В процессе инсталляции на экране монитора появляется окно командной строки, в котором можно увидеть результаты инсталляции системы. Аналогичное окно появляется при установке исполнительных поисковых агентов для локальных и виртуальных машин. Если инсталляция системы прошла успешно, то на мониторе появляется главная экранная форма «Терминологический поиск».

Внешний вид главной экранной формы«Терминологический поиск» представлен на рис. 4.9.

Вверхней части главной экранной формы системы находится окно ввода терминов. С использованием данного окна пользователем может быть введен терминологической портрет предметной области в специальном формате: «облигация:3:акция:3:дюрация:4». Приведенная запись означает, что пользователем формируется терминологический портрет, в котором термины «облигация»

и«акция» находятся на 3 уровне иерархии, а термин «дюрация» находится на 4 уровне иерархии. Для ввода последовательности терминов, определение которых необходимо найти, а также дополнительную информацию по ним, используется формат вида: «облигация; акция; дюрация».

Всредней части окна находятся источники информации в которых может проводиться поиск и возможные форматы искомых файлов. В разработанной-

171

версии программы, в качестве источников поиска, могут использоваться локальный компьютер, локальная вычислительная сеть, глобальная сеть Интернет

Рис. 4.9. Внешний вид главной экранной формы «Терминологический поиск»

и виртуальная машина. Если не активированы «Локальный компьютер» и «Интернет», то используется виртуальная машина. Среди форматов электронных документов, в массивах которых проводится поиск, в данной версии использу-

ются: txt, html, pdf, doc.

Внижней части окна находится область с инструментами поиска. В данной области размещена кнопка«Начать» и окно «Количество документов». Нажатие на кнопку «Начать» инициирует процесс терминологического поиска. В окне «Количество документов» отображается число обработанных документов.

После завершения процесса терминологического поиска, на мониторе появляется экранная форма «Результаты поиска», внешний вид которой представлен на рис. 4.10.

Влевой части экранной формы«Результаты поиска» находится окно с определениями искомых терминов и указанием источников, содержащих данную информацию. Внизу окна указывается число найденных документов. В приведенном примере осуществлялся поиск определения термина «бюджетирование» в глобальной сети Интернет. Найдено 25 документов, содержащих данное определение в требуемом контексте. На экране отображены определения,

172

содержащиеся в википедии, в одной из библиотек и в одном из глоссариев.

Рис. 4.10. Внешний вид экранной формы «Результаты поиска»

Влевой части экранной формы«Результаты поиска» находится окно с переченем дополнительных терминов (бюджет, нулевая база, управленческий учет, бизнес - план).

Нажатие кнопки «Закрыть» приводит к закрытию данной экранной формы и возврату на главную экранную форму «Терминологический поиск».

Наряду с внедрением данной системы в состав СППИР, отдельные ее элементы (алгоритм идентификации текстов, иерархический текстовый терминопостроитель, семантическая матрично - лексическая модель анализа текста) прошли апробацию в документальной информационно-поисковой системе «Научные труды» [87]. Документальная информационно-поисковая система (ДИПС) «Научные труды» представляет собой программную систему, предназначенную для ведения базы данных научных трудов профессорскпреподавательского состава кафедры, формирования отчетных материалов об их публикациях, а также реализации терминологического поиска в распределенной базе данных и в сети Интернет. На рис. 4.11 приведена экранная форма ДИПС «Запросы пользователя БД» с реализованным запросом по термину «Технология».

Внижней части данной экранной формы имеются закладки«Научные труды» и «Учебно-методические материалы», содержащие таблицы с результатами поиска. Полоса прокрутки, размещенная справа, позволяет просмотреть все найденные документы (в данном случае « Научные труды»). Двойной клик мыши по выделенному научному труду вызывает экранную форму«Просмотр». Она обеспечивает визуальный просмотр выбранного документа и позволяет увидеть в каком контексте использовался данный термин.

173

Рис. 4.11. Экранная форма «Запросы пользователя БД» с реализованным терминологическим запросом «Технология»

174

РАЗДЕЛ 5 ПОДСИСТЕМА ВВОДА И ХРАНЕНИЯ ДАННЫХ СППИР

5.1. Информационное обеспечение СППИР

Подсистема ввода и хранения данных(ПВХД) разработана в интересах информационного обеспечения СППИР. Ее структурно-функциональная схема приведена на рис. 5.1.

Документы

локальной

машины

Документы

ЛВС

Интернетсайты

Унаследованные системы

Файлы

Архивы

Загрузочная секция

Модуль накопления и очистки данных

Модуль контроля качества данных

Хранилище

данных

Модуль эвристической оптимизации ХД

Модуль оптимизации ВД и доступа к данным

Модуль архивации данных

Модуль

резервирования

данных

Модули ввода исходных данных

-

 

 

 

Витрина

автоматизиМодуль

загрузкированной

данных

 

 

данных

 

 

 

 

поддержки

 

 

 

 

НМШ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Витрина

 

 

 

 

данных

 

 

 

 

для

 

 

 

 

исследованиия

 

 

 

 

ИНС

 

 

 

 

 

Витрина

данных терминологического

поиска

Витрины

данных

OLAP

приложений

Модули формирования выходных результатов

Рис. 5.1. Структурно-функциональная схема подсистемы ввода и хранения данных

В состав ПВХД входит хранилище данных, загрузочная секция, набор витрин данных (поддержки НМШ, исследования ИНС, терминологического поиска, OLAP приложений) и программных модулей (эвристической оптимизации ХД, ввода данных, накопления и очистки данных, контроля качества данных, оптимизации ОБД и доступа к данным, архивации данных, резервирования данных, формирования отчетов).

Хранилище данных (ХД) предназначено для долговременного хранения данных. Оно соответствует его классическому пониманию[88] и представляет собой специальным образом администрируемую базу данных, содержимое которой имеет следующие свойства:

- предметная ориентация (данные, содержащиеся в ХД, ориентированы на задачи поддержки принятия решений, а не на используемые приложения);

175

-интегрированность данных (очистка данных от индивидуальных признаков и приведение их единому формату);

-инвариантность во времени (сохранение данными своей истинности в любой момент проводимых с ними манипуляций);

-неразрушаемость - cтабильность информации (однажды загруженные данные практически никогда не меняются).

Разработка ХД осуществлялась поэтапно [17, 43, 61, 71].

На начальном этапе проводились концептуальное и логическое проектирование ХД, независящие от деталей его воплощения (от используемой СУБД).

Воснову концептуального проектирования была положенаобъектнореляционная модель данных [61]. При этом использовался стандарт IDEF0 [68].

В IDEF0 система представляется как совокупность взаимодействующих работ или функций. Функции системы анализируются независимо от объектов, которыми они оперируют. Это позволяет более четко смоделировать логику и взаимодействие процессов ПК НПВР[69, 70]. Основу методологии IDEF0 составляет графический язык описания бизнес-процессов. Модель в интерпретации IDEF0 представляет собой совокупность иерархически упорядоченных и взаимосвязанных диаграмм [17]. Каждая диаграмма является единицей описания системы и располагается на отдельном листе. При разработке информаци-

онных моделей ХД и ВД использовались модели«сущность-связь» (ERмодели) [75]. Модель "сущность-связь" представляет собой высокоуровневую концептуальную модель данных. Данная модель – это набор концепций, которые описывают структуру БД и связывают с ней транзакции обновления и -из влечения данных. На основании модели«сущность-связь» были построены таблицы для занесения данных. Таблицы строились с помощью программного средства Database Desktop в среде визуального программирования Delphi 7.0 с использованием Paradox 7. Процесс их проектирования проводился с использованием инструмента BP-Win [61]. На его основе из логической модели данных, была сформирована физическая база данных. При этом были реализованы такие процессы как:

-преобразование логической модели данных в набор таблиц с учетом ограничений целостности данных;

-выбор конкретных структур хранения и методов доступа к данным, обеспечивающих необходимый уровень производительности при работе с БД;

-проектирование мер защиты данных.

Вышеизложенный подход к проектированию ХД обеспечил:

-контроль за избыточностью данных;

-непротиворечивость данных;

-увеличение количества полезной информации при фиксированном объеме хранимых данных;

-совместное использование данных;

-поддержку целостности данных;

-повышенную безопасность;

176

-возможность применения стандартов представления данных;

-повышение эффективности обработки данных с ростом масштабов сис-

темы;

-повышение оперативности доступа к данным и их готовности к использованию;

-упрощение сопровождения системы;

-развитие службы резервного копирования и восстановления данных. При разработке ХД учитывались следующие особенности его эксплуата-

ции:

-использование для хранения текстовых, качественных и количественных данных;

-обеспечение возможности варьирования требований к запрашиваемой информации (изменение структуры запросов и др.);

-обеспечение гибкости модели хранения данных и приемлемой производительности обработки запросов.

Модуль эвристической оптимизации ХД обеспечил формирование рациональной структуры ХД. С этой целью в рамках данного модуля был разработан специальный алгоритм эвристической оптимизации, блок-схема которого представлена на рис. 5.2.

Блоки 1 и 8 используются для пуска и остановки алгоритма эвристической оптимизации структуры базы данных.

В блоке 2 реализован ввод исходных данных, таких как число уровней нормализации и число индексируемых полей.

Вблоке 3 реализована многоуровневая нормализация ХД. Нормализация - это формальный метод анализа отношений на основе их первичного ключа и существующих функциональных зависимостей. В ходе нормализации формат отношений становится все более ограниченным (строгим) и менее восприимчивым к аномалиям обновления. В теории реляционных баз могут использоваться5 нормальных форм. Любой нормальной форме соответствует известный набор ограничений. Отношение находится в определенной нормальной форме, если оно удовлетворяет набору ограничений этой формы. С переводом структуры отношений базы данных в формы более высокого порядка происходит удаление из таблиц избыточной неключевой информации [210].

Первая нормальная форма (1НФ) - отношение, в котором на пересечении каждой строки и каждого столбца содержится одно и только одно значение.

Вторая нормальная форма (2НФ) - отношение, которое находится в первой нормальной форме и каждый атрибут которого, не входящий в состав первичного ключа, характеризуется полной функциональной зависимостью от этого первичного ключа

Третья нормальная форма (ЗНФ) - отношение, которое находится в первой и во второй нормальных формах и не имеет атрибутов, не входящих в первичный ключ атрибутов, которые находились бы в транзитивной функциональной зависимости от этого первичного ключа.

177

1

Начало

2

Ввод исходных данных

3

Многоуровневая нормализация базы данных

Нет

 

4

Достаточен ли уро-

 

 

 

 

 

 

 

 

 

вень нормализации

 

 

 

 

 

БД ?

 

 

 

 

 

Да

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

Индексирование базы данных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нет

6 Достаточен ли уро-

вень индексирования БД ?

Да

7

Вывод результатов

8

Конец

Рис. 5.2. Блок-схема алгоритма эвристической оптимизации структуры базы данных

Четвертая нормальная форма (4НФ) - отношение в нормальной форме Бойса-Кодда, которое не содержит нетривиальных многозначных зависимостей.

Пятая нормальная форма (5НФ) - отношение без зависимостей соединения. Чтобы избежать аномалий обновления, нормализацию рекомендуется выполнять как минимум до третьей нормальной формы(ЗНФ) [28]. Также третья нормальная форма (3НФ) служит компромиссом между полной нормализацией и функциональностью в совокупности с легкостью реализации. Нормальные

формы, выше третьей, затрудняют разработку структур данных и снижают их функциональность. Поэтому была проведена нормализация до ЗНФ.

178

Блок 4 обеспечивает проверку достаточности уровня нормализации ХД. Если он достаточен, то управление передается в блок5. В противном случае управление передается в блок 3.

Вблоке 5 реализовано индексирование ХД. Индекс – это структура данных, которая помогает системе управления базами данных быстрее обнаружить отдельные записи в файле и сократить время выполнения запросов пользователей. Индекс в ХД аналогичен предметному указателю в книге. Он позволяет избежать проведения последовательного или пошагового просмотра файла в поисках нужных данных. Как и предметный указатель книги, индекс базы данных упорядочен, и каждый элемент индекса содержит название искомого объекта, а также один или несколько указателей (идентификаторов записей) на место его расположения. Индекс занимает намного меньший, чем таблица объем памяти, поэтому даже полный перебор значений в нем является более быстрой операцией, чем считывание и поиск информации в отношении. Кроме того, значения в индексе хранятся упорядоченно, что позволяет ускорить поиск нужной строки. Индексы дают возможность выбирать строки отношений, значения индексируемого атрибута которых принадлежит некоторому заданному интервалу. Для одного отношения может быть создано несколько индексов. Если разные отношения содержат одинаковые атрибуты, то для них может быть сформирован мультииндекс. В нем каждому значению общего атрибута соответствует несколько ссылок, каждая из которых указывает на строку с таким значением в том или ином отношении.

Блок 6 обеспечивает проверку уровня достаточности индексирования ХД. Если он достаточен, то управление передается в блок7. В противном случае управление передается в блок 5.

Блок 7 обеспечивает вывод результатов в виде оптимизированного ХД.

Вкачестве примера в табл. 5.1 приведены данные, хранящиеся в ХД, предназначенные для обучения ИНС. В качестве данных приведены значения котировок акций ОАО«Газпром», имевших место в период с25.03.2011 по

04.04.2011 г.

Таблица 5.1

Данные, хранящиеся в ХД для обучения ИНС

Дата

25.03.11

28.03.11

29.03.11

30.03.11

31.03.11

01.04.11

04.04.11

Цены открытия

224,87

223,01

225,9

225,51

229,38

229,1

235,98

Норм. цена от-

 

 

 

 

 

 

 

крытия

0,23

0,15

0,27

0,26

0,42

0,40

0,69

Цены закрытия

222,81

225,5

224,01

229,32

229,09

235,1

237,7

Норм. цена за-

 

 

 

 

 

 

 

крытия

0,11

0,22

0,16

0,38

0,37

0,62

0,73

Прогнозная

 

 

 

 

 

 

 

цена

223,01

225,9

225,51

229,38

229,1

235,98

238,46

Норм. прогноз

0,14

0,26

0,25

0,41

0,40

0,68

0,79

179

Встроках данной таблицы используются значения таких характеристик, как:

-«Дата» – дата, на которую приведены значения акций;

-«Цена откр.» – цена за акцию на момент открытия торгов;

-«Цена закр.» – цена за акцию на момент закрытия торгов;

-«Прогнозная цена» – цена открытия торгов на следующий день, значение которой необходимо спрогнозировать;

-«Норм. цена откр.», «норм. цена закр.», «норм. прогноз» – нормализованные значения.

Определение рациональной структуры ХД проводилось экспериментальным (эвристическим ) путем.

Для различных вариантов структур ХД для подсистемы исследования ИНС формировалось множество запросов на поиск определенных атрибутов информации (по одному полю и по множеству полей). При этом время обработки каждого одноаспектного или многоаспектного запроса фиксировалось.

После завершения реализации множества запросов для соответствующего варианта структуры ХД оценивалось среднее время обработки множества - за просов. Затем полученные значения сравнивались и выбирался тот вариант структуры ХД, для которого значение среднего времени обработки множества запросов было минимальным.

Полученные значения усредненного времени реализации запросов приведены в табл. 5.2.

Таблица 5.2

Значения усредненного времени реализации запросов

Количество записей в ХД:10000

Значения среднего времени выполнения запросов: мсек

Поля не проиндексированы

1НФ

Цена от-

Нормальная

Цены

Нормальная

Прогнозная

Нормальный про-

крытия

цена откры-

закрытия

цена закры-

цена

гноз

 

тия

 

тия

 

 

700

790

775

770

680

700

 

 

 

3НФ

 

 

Цена от-

Нормальная

Цены

Нормальная

Прогнозная

Нормальный про-

крытия

цена откры-

закрытия

цена закры-

цена

гноз

 

тия

 

тия

 

 

400

380

390

370

410

415

 

 

Все поля проиндексированы

 

 

 

 

1НФ

 

 

Цена от-

Нормальная

Цены

Нормальная

Прогнозная

Нормальный про-

крытия

цена откры-

закрытия

цена закры-

цена

гноз

 

тия

 

тия

 

 

518

500

490

530

515

530

 

 

 

3НФ

 

 

Цена от-

Нормальная

Цены

Нормальная

Прогнозная

Нормальный про-

крытия

цена откры-

закрытия

цена закры-

цена

гноз

 

тия

 

тия

 

 

180

150

160

130

160

150

180

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]