
- •Тема 8. Информационно-аналитические технологии и системы.
- •8.1.1. Аналитические технологии.
- •8.1.2. Информационные технологии в информационно-аналитической деятельности.
- •8.2. Архитектура информационно-аналитической системы.
- •8.3. Информационное хранилище и технология анализа данных.
- •8.4. Задачи и содержание оперативного (olap) анализа. Признаки olap-системы.
- •8.5. Системы бизнес-интеллекта.
- •8.6. Рынок инструментальных средств иас.
- •1. Средства, относящиеся к первому классу.
- •3. Специализированные инструментальные средства иас.
8.3. Информационное хранилище и технология анализа данных.
В настоящее время весьма актуальной является тема хранилищ данных. Приведем определение, сформулированное в 1992 г. «отцом-основателем» хранилищ данных Биллом Инмоном:
«Хранилище данных – это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений».
Началом истории российского рынка хранилищ данных и средств оперативного анализа принято считать 1996 год, когда в России появилось сразу несколько поставщиков программных продуктов этого класса.
Развивая бизнес, руководство компании вынуждено принимать решения на основе информации, которая порой является противоречивой, поскольку хранится в различных источниках. Трудности, с которыми приходится сталкиваться потребителям информации, связаны не с объемом доступных данных, а с их противоречивостью, различной степенью достоверности и уровнем сложности их последующей обработки.
Актуальность этой проблемы в последнее время привела к появлению таких приложений, как системы поддержки принятия решений и управленческие информационные системы. Эти системы, как правило, загружают информацию из разных источников и используют специальные программы для преобразования данных в формат, позволяющий выполнять запросы на основе полученной информации. Многие из этих систем не получили широкого распространения, и причин для этого достаточно:
-
OLTP-системы не предназначены для анализа данных;
-
данные имеют разнообразную и сложную структуру;
-
организация пользовательского доступа представляет собой весьма сложную задачу;
-
процесс доступа пользователей замедляет выполнение бизнес-операций.
Решить указанные проблемы помогает организация корпоративного хранилища данных, которое позволяет оперативно получать необходимую информацию в нужном формате, что способствует значительному повышению эффективности процесса принятия решений. Благодаря хранилищам данных финансовые учреждения могут использовать весь информационный потенциал, рассредоточенный ранее в разнородных источниках.
Хранилище данных – это централизованное специальное хранилище сводных данных из разнородных систем учета и внешних источников, информация из которых интегрируется, суммируется и сохраняется в хранилище данных.
К хранилищу могут затем получить доступ пользователи. Эти данные тематически организованы (например, клиенты, продукты, географические регионы), поэтому их легче анализировать по сравнению с данными, сгруппированными «вокруг» приложений.
Задача хранилища – предоставить «сырье» для анализа в одном месте и в простой, понятной структуре.
Есть и еще одна причина, оправдывающая появление отдельного хранилища – сложные аналитические запросы к оперативной информации тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы сервера.
Под хранилищем можно понимать не обязательно гигантское скопление данных – главное, чтобы оно было удобно для анализа. Вообще говоря, для маленьких хранилищ предназначается отдельный термин – Data Marts (киоски данных), но в нашей российской практике его практически не услышишь.
Хранилище данных строится на базе клиент-серверной архитектуры, реляционной СУБД (система управления базами данных) и утилит поддержки принятия решений. Данные, поступающие в хранилище данных, становятся доступны только для чтения.
Дадим краткое определение вышеприведенным терминам.
Клиент-сервер – вычислительная или сетевая архитектура, в которой задания или сетевая нагрузка распределены между поставщиками услуг (сервисов), называемыми серверами, и заказчиками услуг, называемыми клиентами. Нередко клиенты и серверы взаимодействуют через компьютерную сеть и могут быть как различными физическими устройствами, так и программным обеспечением.
СУБД (система управления базами данных) – совокупность программных и лингвистических средств общего или специального назначения, обеспечивающих управление созданием и использованием баз данных.
OLTP-системы – предназначены для ввода, структурированного хранения и обработки информации (операций, документов) в режиме реального времени.
Транзакция – группа последовательных операций, которая представляет собой логическую единицу работы с данными.
OLAP-анализ (аналитическая обработка в реальном времени) – технология обработки информации, включающая составление и динамическую публикацию отчётов и документов. Используется аналитиками для быстрой обработки сложных запросов к базе данных. Служит для подготовки бизнес-отчётов по продажам, маркетингу, в целях управления.
Принципы организации хранилища:
-
Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
-
Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
-
Некорректируемость. Данные в хранилище данных не создаются: т.е. поступают из внешних источников, не корректируются и не удаляются.
-
Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.