Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Валера_реферат_2_БД_.docx
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
576.24 Кб
Скачать

Министерство образования и науки РФ

Федеральное государственное автономное образовательное

учреждения высшего образования

«Национальный исследовательский технологический университет «МИСиС»

Кафедра бизнес-информатики и систем управления производством

Реферативная курсовая работа

по теме дисциплины

«Базы данных, хранилища данных и MDM-технологии»

на тему №43:

«Определения понятия "Хранилища данных"»

121 Концепция хранилищ данных

122 История возникновения концепции хранилищ данных

123 Сфера применения хранилищ данных

124 Примеры известных ХД

Направление подготовки: 38.03.05 Бизнес-информатика

Профиль: Архитектура предприятия Семестр 5

Тема ВКР: «Исследование и разработка проекта процессной информационной системы управления персоналом (HR) (на примере бизнес-процесса обучения персонала в ООО "ФОДО" Образ)»

Выполнил:

Проверил:

Утвердил:

Масленников В.Ю.

(Ф.И.О. студента)

Шатрова А.П.

(Ф.И.О преподавателя)

зав.каф.Пятецкий В.Е

МП-15-3

(№ группы)

______________

(оценка)

Подпись:_________

_______________

(дата сдачи реферата)

______________

(дата проверки)

Подпись:________________

Подпись:_______________

Москва 2017

Оглавление

Проект выполнения реферата 3

Аннотация 4

Содержание предложения 5

3 История возникновения концепции хранилищ данных 12

4 Сфера применения хранилищ данных 16

5 Примеры известных ХД 20

Приложения 24

Проект выполнения реферата

Цель: актуализация материалов в рамках дисциплины «Базы данных, хранилища данных и MDM-технологии» по теме «Определения понятия "Хранилища данных"».

Актуальность темы:

Задачи проекта разработки реферата:

  1. Исследовать тему «Определения понятия "Хранилища данных"» по предложенной структуре:

121 Концепция хранилищ данных

122 История возникновения концепции хранилищ данных

123 Сфера применения хранилищ данных

124 Примеры известных ХД

  1. Актуализировать полученный материал по теме «Хранилища данных. MDM- технологии».

  2. Предложить новую структуру раскрытия данной темы.

Аннотация

В рамках поставленных задач будет предложена следующая структура раскрытия темы «Определения понятия "Хранилища данных"»:

121 Концепция хранилищ данных

122 История возникновения концепции хранилищ данных

123 Сфера применения хранилищ данных

124 Примеры известных ХД

Содержание предложения

1 Определения понятия "Хранилища данных"

Определение понятия "хранилище данных" первым дал Уильям Г. Инмон в своей монографии. В ней он определил хранилище данных как "предметно-ориентированную, интегрированную, содержащую исторические данные, не разрушаемую совокупность данных, предназначенную для поддержки принятия управленческих решений".

Согласно современному определению, хранилище данных – это предметно-ориентированный, интегрированный, зависимый от времени набор данных, предназначенный для поддержки принятия решений различными группами пользователей. Так как хранилище носит предметно-ориентированный характер, его организация нацелена на содержательный анализ информации, а не на автоматизацию бизнес-процессов. Это свойство определяет архитектуру построения хранилища и принципы проектирования модели данных, отличные от тех, что применяются в оперативных системах.

Другими словами, хранилище данных (ХД — data warehouse) является местом складирования собираемых в системе данных и информационным источником для решения задач анализа данных и принятия решений. Как правило, объем информации в ХД является достаточно большим. Упрощенно можно сказать, что хранилище данных управляет данными, которые были собраны как из операционных систем организации (OLTP-систем — On-Line Trasactions Processing), так и из внешних источников данных, и которые длительный период времени хранятся в системе.

ХД строится на базе клиент-серверной архитектуры, реляционной СУБД и утилит поддержки принятия решений. К хранилищу присоединяются сторонние программные продукты, которые делают модели, основанные на интеллектуальном, а не статистическом анализе данных и получают скрытые закономерности. Но включают они генетические алгоритмы, нейронные сети, нелинейная динамика, кластеризация, гибридные системы - достаточно большое количество технологий для построения моделей в хранилище. Это необходимо тогда, когда количество данных таково, что прямой поиск и статистические методы анализа результата не дают.

2 Концепция хранилищ данных

В основе концепции хранилища данных лежат две основные идеи - интеграция разъединенных детализированных данных (детализированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т.д.) в едином хранилище и разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.

Концепция хранилищ данных подразумевает:

  • Интегрированность. Исходные данные извлекаются из операционных БД, проверяются, очищаются, приводятся к единому виду, в нужной степени агрегируются (то есть вычисляются суммарные показатели) и загружаются в ХД. Такие интегрированные данные намного проще анализировать.

  • Привязка ко времени. Данные в хранилище всегда напрямую связаны с определенным периодом времени. Данные, выбранные из операционных БД, накапливаются в хранилище в виде исторических слоев, каждый из которых относится к конкретному периоду времени. Это позволяет анализировать тенденции в развитии бизнеса.

  • Неизменяемость. Попав в определенный исторический слой ХД, данные уже никогда не будут изменены. Это также отличает ХД от операционных БД, в которой данные все время меняются, и один и тот же запрос, выполненный дважды с интервалом в 10 минут, может дать разные результаты. Стабильность данных также облегчает их анализ.

Концепция ХД оказалась пригодной для решения задач анализа данных не только в бизнесе, но и в науке и технологии. Следует отметить, что в определении соединены две различные функции:

  • Сбор, организация и подготовка данных для анализа в виде постоянно наращиваемого набора данных;

  • Анализ как элемент подготовки и принятия решений.

Использование термина "поддержка и принятие решений" в качестве сферы применения ХД существенно сужает как определение, так и возможность применения концепции в других сферах. Если в определении в качестве области применения оставить лишь анализ и воспроизводство новых данных (как элемент обработки информации в научных, технологических и экологических системах), круг использования данной концепции может быть значительно расширен. Таким образом, можно дать и такое определение:

ХД есть организация и поддержка предметно-ориентированной, интегрированной, слабо изменяемой по внутренней структуре и поддерживающей хронологию электронной коллекции данных для обработки с целью извлечения новых данных или обобщения имеющихся.

Очень важен основной принцип действия ХД: единожды занесенные в ХД данные затем многократно извлекаются из него и используются для анализа. Отсюда вытекает одно из основных преимуществ использования этой технологии: контроль информации, полученной из различных источников, предварительно согласованной и размещенной в ХД. Отметим, что отсюда следует и наиболее уязвимое место ХД — корректность его данных, полученных из разных источников. Данные перед загрузкой должны быть либо "очищены от шума", либо обработаны методами нечеткой логики, допускающей наличие противоречивых фактов, чтобы противоречия в данных были по возможности устранены. Заметим также, что интеграция в определении ХД понимается не только как интеграция информации по всем источникам, но и в смысле согласованного представления данных из разных источников по их типу, размерности и содержательному описанию.

С точки зрения применения концепции в бизнесе, производстве и технологиях следует придерживаться следующего определения:

ХД — структурно расширяемая вычислительная среда, спроектированная для анализа неизменяемых во времени данных, которые логически и физически преобразованы из различных источников, соответствующая направлениям бизнеса, обновляемая и поддерживаемая длительный период времени, выраженная в простых бизнес-терминах и обобщенная (суммированная) для быстрого анализа.

На практике для реализации ХД используются СУБД, поддерживающие определенную модель данных. Поэтому с точки зрения реализации ХД следует считать БД специальной структуры. Предметом настоящей книги является изучение вопросов, связанных с проектированием реляционных ХД.

Концептуально модель хранилища данных можно представить в виде схемы, показанной на рисунке 1. Данные из различных источников помещаются в ХД, а описания этих данных в репозиторий метаданных. Конечный пользователь, используя различные инструменты (средства визуализации, построения отчетов, статистической обработки и т.д.) и содержимое репозитория, анализирует данные в хранилище. Результатом его деятельности является информация в виде готовых отчетов, найденных скрытых закономерностей, каких-либо прогнозов. Так как средства работы конечного пользователя с хранилищем данных могут быть самыми разнообразными, то теоретически их выбор не должен влиять на его структуру и функции его поддержания в актуальном состоянии.

Рис.1 Концептуальная модель хранилища данных [3].

Физическая реализация приведенной концептуальной схемы может быть самой разнообразной. Ниже приводятся наиболее часто встречающиеся подходы.

Виртуальное хранилище данных – это система, представляющая интерфейсы и методы доступа к регистрирующей системе, которые эмулируют работу с данными в этой системе, как с хранилищем данных. Виртуальное хранилище данных можно организовать, создав ряд представлений (view) в базе данных, либо применив специальные средства доступа, например, продукты класса Desktop OLAP, к которым относится, например, BusinessObjects, Brio Enterprise и другие.

  • Главными достоинствами такого подхода являются:

  • Простота и малая стоимость реализации;

  • Отсутствие сетевых соединений между источником информации и хранилища данных.

Однако недостатков у него гораздо больше, чем достоинств. Создавая виртуальное хранилище данных, Вы создаете не хранилище как таковое, а иллюзию его существования. Структура хранения данных и само хранение данных не претерпевает изменений, и остаются проблемы:

  • Производительности;

  • Трансформации данных;

  • Интеграции данных с другими источниками;

  • Отсутствия истории;

  • Чистоты данных;

  • Зависимость от доступности основной БД;

  • Зависимость от структуры основной БД.

Двухуровневая архитектура хранилища данных подразумевает построение витрин данных (data mart) без создания центрального хранилища, при этом информация поступает из небольшого количества регистрирующих систем и ограничена конкретной предметной областью. При построении витрин данных используются основные принципы построения хранилищ данных, о которых пойдет речь ниже, поэтому их можно считать хранилищами данных в миниатюре. Плюсами витрин данных являются:

  • Простота и малая стоимость реализации;

  • Высокая производительность за счет физического разделения регистрирующих и аналитических систем, выделения загрузки и трансформации данных в отдельный процесс, оптимизированной под анализ структурой хранения данных;

  • Поддержка истории;

  • Возможность добавления метаданных.

Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре (следует отметить, что здесь под трехуровневой архитектурой понимается не структура "БД – Сервер приложений – клиент"). На первом уровне расположены разнообразные источники данных – внутренние регистрирующие системы, справочные системы, внешние источники (данные информационных агентств, макроэкономические показатели). Второй уровень содержит центральное хранилище данных, куда стекается информация от всех источников с первого уровня, и, возможно, оперативный склад данных (ОСД). Оперативный склад не содержит исторических данных и выполняет две основные функции. Во-первых, он является источником аналитической информации для оперативного управления и, во-вторых, здесь подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и осуществление определенных проверок. Наличие ОСД просто необходимо при различном регламенте поступления информации из источников. Третий уровень в описываемой архитектуре представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных. Именно с витринами данных и работает большинство конечных пользователей.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]