- •3 История возникновения концепции хранилищ данных 12
- •Проект выполнения реферата
- •Аннотация
- •Содержание предложения
- •1 Определения понятия "Хранилища данных"
- •3 История возникновения концепции хранилищ данных
- •4 Сфера применения хранилищ данных
- •5 Примеры известных хд
- •Краткий глоссарий основных терминов
- •Список используемых источников
- •Приложения
Министерство образования и науки РФ
Федеральное государственное автономное образовательное
учреждения высшего образования
«Национальный исследовательский технологический университет «МИСиС»
Кафедра бизнес-информатики и систем управления производством
Реферативная курсовая работа
по теме дисциплины
«Базы данных, хранилища данных и MDM-технологии»
на тему №43:
«Определения понятия "Хранилища данных"»
121 Концепция хранилищ данных
122 История возникновения концепции хранилищ данных
123 Сфера применения хранилищ данных
124 Примеры известных ХД
Направление подготовки: 38.03.05 Бизнес-информатика
Профиль: Архитектура предприятия Семестр 5
Тема ВКР: «Исследование и разработка проекта процессной информационной системы управления персоналом (HR) (на примере бизнес-процесса обучения персонала в ООО "ФОДО" Образ)»
Выполнил: |
Проверил: |
|
Утвердил: |
Масленников В.Ю. (Ф.И.О. студента) |
Шатрова А.П. (Ф.И.О преподавателя) |
|
зав.каф.Пятецкий В.Е
|
МП-15-3 (№ группы) |
______________ (оценка) |
|
Подпись:_________ |
_______________ (дата сдачи реферата) |
______________ (дата проверки) |
|
|
Подпись:________________ |
Подпись:_______________ |
|
|
Москва 2017
Оглавление
Проект выполнения реферата 3
Аннотация 4
Содержание предложения 5
3 История возникновения концепции хранилищ данных 12
4 Сфера применения хранилищ данных 16
5 Примеры известных ХД 20
Приложения 24
Проект выполнения реферата
Цель: актуализация материалов в рамках дисциплины «Базы данных, хранилища данных и MDM-технологии» по теме «Определения понятия "Хранилища данных"».
Актуальность темы:
Задачи проекта разработки реферата:
Исследовать тему «Определения понятия "Хранилища данных"» по предложенной структуре:
121 Концепция хранилищ данных
122 История возникновения концепции хранилищ данных
123 Сфера применения хранилищ данных
124 Примеры известных ХД
Актуализировать полученный материал по теме «Хранилища данных. MDM- технологии».
Предложить новую структуру раскрытия данной темы.
Аннотация
В рамках поставленных задач будет предложена следующая структура раскрытия темы «Определения понятия "Хранилища данных"»:
121 Концепция хранилищ данных
122 История возникновения концепции хранилищ данных
123 Сфера применения хранилищ данных
124 Примеры известных ХД
Содержание предложения
1 Определения понятия "Хранилища данных"
Определение понятия "хранилище данных" первым дал Уильям Г. Инмон в своей монографии. В ней он определил хранилище данных как "предметно-ориентированную, интегрированную, содержащую исторические данные, не разрушаемую совокупность данных, предназначенную для поддержки принятия управленческих решений".
Согласно современному определению, хранилище данных – это предметно-ориентированный, интегрированный, зависимый от времени набор данных, предназначенный для поддержки принятия решений различными группами пользователей. Так как хранилище носит предметно-ориентированный характер, его организация нацелена на содержательный анализ информации, а не на автоматизацию бизнес-процессов. Это свойство определяет архитектуру построения хранилища и принципы проектирования модели данных, отличные от тех, что применяются в оперативных системах.
Другими словами, хранилище данных (ХД — data warehouse) является местом складирования собираемых в системе данных и информационным источником для решения задач анализа данных и принятия решений. Как правило, объем информации в ХД является достаточно большим. Упрощенно можно сказать, что хранилище данных управляет данными, которые были собраны как из операционных систем организации (OLTP-систем — On-Line Trasactions Processing), так и из внешних источников данных, и которые длительный период времени хранятся в системе.
ХД строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений. К хранилищу присоединяются сторонние программные продукты, которые делают модели, основанные на интеллектуальном, а не статистическом анализе данных и получают скрытые закономерности. Но включают они генетические алгоритмы, нейронные сети, нелинейная динамика, кластеризация, гибридные системы - достаточно большое количество технологий для построения моделей в хранилище. Это необходимо тогда, когда количество данных таково, что прямой поиск и статистические методы анализа результата не дают.
2 Концепция хранилищ данных
В основе концепции хранилища данных лежат две основные идеи - интеграция разъединенных детализированных данных (детализированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т.д.) в едином хранилище и разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.
Концепция хранилищ данных подразумевает:
Интегрированность. Исходные данные извлекаются из операционных БД, проверяются, очищаются, приводятся к единому виду, в нужной степени агрегируются (то есть вычисляются суммарные показатели) и загружаются в ХД. Такие интегрированные данные намного проще анализировать.
Привязка ко времени. Данные в хранилище всегда напрямую связаны с определенным периодом времени. Данные, выбранные из операционных БД, накапливаются в хранилище в виде исторических слоев, каждый из которых относится к конкретному периоду времени. Это позволяет анализировать тенденции в развитии бизнеса.
Неизменяемость. Попав в определенный исторический слой ХД, данные уже никогда не будут изменены. Это также отличает ХД от операционных БД, в которой данные все время меняются, и один и тот же запрос, выполненный дважды с интервалом в 10 минут, может дать разные результаты. Стабильность данных также облегчает их анализ.
Концепция ХД оказалась пригодной для решения задач анализа данных не только в бизнесе, но и в науке и технологии. Следует отметить, что в определении соединены две различные функции:
Сбор, организация и подготовка данных для анализа в виде постоянно наращиваемого набора данных;
Анализ как элемент подготовки и принятия решений.
Использование термина "поддержка и принятие решений" в качестве сферы применения ХД существенно сужает как определение, так и возможность применения концепции в других сферах. Если в определении в качестве области применения оставить лишь анализ и воспроизводство новых данных (как элемент обработки информации в научных, технологических и экологических системах), круг использования данной концепции может быть значительно расширен. Таким образом, можно дать и такое определение:
ХД есть организация и поддержка предметно-ориентированной, интегрированной, слабо изменяемой по внутренней структуре и поддерживающей хронологию электронной коллекции данных для обработки с целью извлечения новых данных или обобщения имеющихся.
Очень важен основной принцип действия ХД: единожды занесенные в ХД данные затем многократно извлекаются из него и используются для анализа. Отсюда вытекает одно из основных преимуществ использования этой технологии: контроль информации, полученной из различных источников, предварительно согласованной и размещенной в ХД. Отметим, что отсюда следует и наиболее уязвимое место ХД — корректность его данных, полученных из разных источников. Данные перед загрузкой должны быть либо "очищены от шума", либо обработаны методами нечеткой логики, допускающей наличие противоречивых фактов, чтобы противоречия в данных были по возможности устранены. Заметим также, что интеграция в определении ХД понимается не только как интеграция информации по всем источникам, но и в смысле согласованного представления данных из разных источников по их типу, размерности и содержательному описанию.
С точки зрения применения концепции в бизнесе, производстве и технологиях следует придерживаться следующего определения:
ХД — структурно расширяемая вычислительная среда, спроектированная для анализа неизменяемых во времени данных, которые логически и физически преобразованы из различных источников, соответствующая направлениям бизнеса, обновляемая и поддерживаемая длительный период времени, выраженная в простых бизнес-терминах и обобщенная (суммированная) для быстрого анализа.
На практике для реализации ХД используются СУБД, поддерживающие определенную модель данных. Поэтому с точки зрения реализации ХД следует считать БД специальной структуры. Предметом настоящей книги является изучение вопросов, связанных с проектированием реляционных ХД.
Концептуально модель хранилища данных можно представить в виде схемы, показанной на рисунке 1. Данные из различных источников помещаются в ХД, а описания этих данных в репозиторий метаданных. Конечный пользователь, используя различные инструменты (средства визуализации, построения отчетов, статистической обработки и т.д.) и содержимое репозитория, анализирует данные в хранилище. Результатом его деятельности является информация в виде готовых отчетов, найденных скрытых закономерностей, каких-либо прогнозов. Так как средства работы конечного пользователя с хранилищем данных могут быть самыми разнообразными, то теоретически их выбор не должен влиять на его структуру и функции его поддержания в актуальном состоянии.
|
|
Рис.1 Концептуальная модель хранилища данных [3].
Физическая реализация приведенной концептуальной схемы может быть самой разнообразной. Ниже приводятся наиболее часто встречающиеся подходы.
Виртуальное хранилище данных – это система, представляющая интерфейсы и методы доступа к регистрирующей системе, которые эмулируют работу с данными в этой системе, как с хранилищем данных. Виртуальное хранилище данных можно организовать, создав ряд представлений (view) в базе данных, либо применив специальные средства доступа, например, продукты класса Desktop OLAP, к которым относится, например, BusinessObjects, Brio Enterprise и другие.
Главными достоинствами такого подхода являются:
Простота и малая стоимость реализации;
Отсутствие сетевых соединений между источником информации и хранилища данных.
Однако недостатков у него гораздо больше, чем достоинств. Создавая виртуальное хранилище данных, Вы создаете не хранилище как таковое, а иллюзию его существования. Структура хранения данных и само хранение данных не претерпевает изменений, и остаются проблемы:
Производительности;
Трансформации данных;
Интеграции данных с другими источниками;
Отсутствия истории;
Чистоты данных;
Зависимость от доступности основной БД;
Зависимость от структуры основной БД.
Двухуровневая архитектура хранилища данных подразумевает построение витрин данных (data mart) без создания центрального хранилища, при этом информация поступает из небольшого количества регистрирующих систем и ограничена конкретной предметной областью. При построении витрин данных используются основные принципы построения хранилищ данных, о которых пойдет речь ниже, поэтому их можно считать хранилищами данных в миниатюре. Плюсами витрин данных являются:
Простота и малая стоимость реализации;
Высокая производительность за счет физического разделения регистрирующих и аналитических систем, выделения загрузки и трансформации данных в отдельный процесс, оптимизированной под анализ структурой хранения данных;
Поддержка истории;
Возможность добавления метаданных.
Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре (следует отметить, что здесь под трехуровневой архитектурой понимается не структура "БД – Сервер приложений – клиент"). На первом уровне расположены разнообразные источники данных – внутренние регистрирующие системы, справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели). Второй уровень содержит центральное хранилище данных, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных (ОСД). Оперативный склад не содержит исторических данных и выполняет две основные функции. Во-первых, он является источником аналитической информации для оперативного управления и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и осуществление определенных проверок. Наличие ОСД просто необходимо при различном регламенте поступления информации из источников. Третий уровень в описываемой архитектуре представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.
