
- •«Грозненский государственный нефтяной институт имени академика м.Д. Миллионщикова», 2009
- •Введение
- •1.2. Классификация интеллектуальных информационных систем (иис)
- •1.3. Проблемная область искусственного интеллекта
- •Тема 2. Организация работы с данными и знаниями
- •2.1. Данные. Источники данных
- •2.2. Хранилище данных
- •2.3. Интеллектуальный анализ данных
- •Тема 3. Представление знаний в интеллектуальных системах
- •3.1. Проблемы представления и моделирования знаний
- •3.2. Представление и формализация нечетких знаний
- •Тема 4. Архитектура интеллектуальных информационных систем
- •4.1. Структура интеллектуальной информационной системы
- •4.2. Проектирование базы знаний
- •4.3. Объяснение и обоснование решений
- •4.4. Интеллектуальный интерфейс
- •Тема 5. Разработка и проектирование интеллектуальных систем
- •5.1. Этапы проектирования интеллектуальных систем
- •5.2. Анализ предметной области и методы приобретения знаний
- •5.3. Работа с экспертами и проблема извлечения знаний
- •Тема 6. Экспертные системы – основная разновидность интеллектуальных систем
- •6.1. Назначение и особенности экспертных систем
- •6.2. Технология построения экспертных систем
- •6.3. Функциональные возможности и характеристики экспертных систем
- •Терминология в области разработки интеллектуальных информационных систем
- •Список использованной литературы
2.2. Хранилище данных
Хранение данных (или информационные хранилища) – это понятие, предложенное и разработанное для обеспечения решения проблемы эффективного доступа к данным. Информационное хранилище представляет собой базу обобщенной информации, формируемую из множества внешних и внутренних источников, на основе которой выполняются статистические группировки и интеллектуальный анализ данных.
Целью хранилища данных является установление такого репозитория данных, который делает оперативные данные доступными для информационных систем поддержки принятия решений.
Существует несколько базовых структур для хранения данных. Основными являются двухрядные и трехрядные структуры. Вариант трехрядной архитектуры представлен на рис. 2.1.
Рис. 2.1. Трехрядная архитектура хранилища данных
Перед размещением в хранилище данные, поступающие из внутренних (связанных) и внешних источников извлекаются, очищаются, фильтруются и суммируются посредством специального ПО. Далее данные снова обрабатываются и помещаются в дополнительную специальную многомерную БД (третий ряд в архитектуре), организованную для легкого многомерного представления. Пользователи информационной системы поддержки решений могут запрашивать сервер и осуществлять анализ.
2.3. Интеллектуальный анализ данных
Интеллектуальный анализ данных (ИАД), или Data Mining, – этоттермин, используется для описания открытия знаний в базах данных, выделения знаний, изыскания данных, исследования данных, обработки образцов данных, очистки и сбора данных. Все эти действия осуществляются автоматически и позволяют получать быстрые результаты даже непрограммистам.
Запрос производится конечным пользователем, возможно на естественном языке. Запрос преобразуется в SQL-формат. SQL запрос по сети поступает в СУБД, которая управляет БД или хранилищем данных. СУБД находит ответ на запрос и доставляет его назад. Пользователь может затем разрабатывать презентацию или отчет в соответствии со своими требованиями.
Многие важные решения в почти любой области бизнеса и социально сферы основываются на анализе больших и сложных БД. ИАД может быть очень полезным в этих случаях.
Методы интеллектуального анализа данных тесно связаны с технологиями OLAP (оперативная аналитическая обработка данных) и технологиями построения хранилищ данных. Поэтому наилучшим вариантом является комплексный подход к их внедрению.
Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты доступа к данным хранилища и их обработки.
Очень часто информационно–аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, оказываются чрезвычайно просты в применении, но жестко ограничены в функциональности. Такие статические системы называются Информационными системами руководителя. Они содержат в себе предопределенные множества запросов и, будучи достаточными для повседневного обзора, неспособны ответить на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений. Результатов работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, непредусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо. Таким образом, внешняя простота статистических ИС поддержки решений, за которую активно борется большинство заказчиков информационно – аналитических систем, оборачивается потерей гибкости.
Динамические ИС поддержки решений, напротив, ориентированы на обработку нерегламентированных запросов аналитиков к данным. Работа аналитиков с этими системами заключается в интерактивной последовательности формирования запросов и изучения их результатов.
Но динамические ИС поддержки решений могут действовать не только в области оперативной аналитической обработки (OLAP). Поддержка принятия управленческих решений на основе накопленных данных может выполняться в трех базовых сферах.
Полная структура информационно – аналитической системы построенной на основе хранилища данных, показана на рис. 2.2.
Сфера детализированных данных. Это область действия большинства систем, нацеленных на поиск информации. В большинстве случаев реляционные СУБД отлично справляются с возникающими здесь задачами. Общепризнанным стандартом языка манипулирования реляционными данными является SQL. Информационно – поисковые системы, обеспечивающие интерфейс конечного пользователя в задачах поиска детализированной информации, могут использоваться в качестве надстроек, как над отдельными базами данных транзакционных систем, так и над общим хранилищем данных.
Рис.2.2. Структура корпоративной информационно–аналитической системы
Сфера агрегированных показателей. Комплексный взгляд на собранную в хранилище данных информацию, ее обобщение и агрегация и многомерный анализ являются задачами систем OLAP. Здесь можно или ориентироваться на специальные многомерные СУБД, или оставаться в рамках реляционных технологий. Во втором случае заранее агрегированные данные могут собираться в БД звездообразного вида, либо агрегация информации может производиться в процессе сканирования детализированных таблиц реляционной БД.
Сфера закономерностей. Интеллектуальная обработка производится методами интеллектуального анализа данных