Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

LS-Sb90335

.pdf
Скачиваний:
6
Добавлен:
13.02.2021
Размер:
400.18 Кб
Скачать

насыщенность данных и, как следствие, значимость для решения аналитической задачи.

Очистка данных – комплекс методов и процедур, направленных на устранение аномалий, пропусков, дубликатов, противоречий, шумов и других причин, мешающих корректной обработке данных. В большинстве случаев исходные данные являются «грязными», т. е. содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности, устанавливать связи между элементами данных и выполнять другие действия, которые могут потребоваться для получения аналитического решения. Поэтому перед тем, как приступить к анализу данных, необходимо оценить их качество и соответствие требованиям, предъявляемым аналитической платформой. Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных.

Обобщить все вышесказанное можно следующим утверждением: в основе процедуры консолидации лежит процесс ETL (extraction, transformation, loading), решающий задачи:

− извлечения данных из разнотипных источников; − преобразования данных к виду, пригодному для хранения

в определенной структуре;

загрузки данных в соответствующую базу или хранилище.

Если у аналитика возникают сомнения в качестве и информативности исходных данных, то при необходимости он может задействовать процедуры оценки качества данных, их очистки или обогащения, которые также являются составными частями процесса консолидации данных.

Консолидация является сложной многоступенчатой процедурой и важнейшей составляющей аналитического процесса, обеспечивающей высокий уровень аналитических решений.

Консолидация позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения.

Следует учесть, что поддержка консолидации требует значительных вычислительных ресурсов, поскольку для поддержки конечного места хранения

41

данных необходимы существенные ресурсы памяти. Однако постоянное совершенствование аппаратных средств разрешает эти сложности.

5.2. Федерализация данных

Федерализация данных – это обеспечение единой виртуальной картины одного или нескольких источников исходных данных. Федерализация позволяет извлекать данные из различных источников, объединять их и представлять аналитику в режиме реального времени. При этом физического перемещения данных не происходит: данные остаются у владельцев, доступ к ним всегда осуществляется при необходимости (при выполнении запроса).

Федерализация образует единое виртуальное информационное пространство, где данные могут храниться в различных источниках, но информация о расположении данных недоступна запрашивающей стороне.

Все необходимые преобразования данных осуществляются при их извлечении из источников. Некоторые федеративные решения могут работать с метаданными, которые отражают семантические связи между элементами данных в источниках. Изучение и профилирование первичных данных, необходимых для федерализации, мало отличаются от аналогичных процедур, требуемых для консолидации. Интеграция корпоративной информации

(Enterprise information integration, сокр. EII) – это пример технологии, которая поддерживает федеративный подход к интеграции данных.

Федеративный подход обеспечивает доступ к текущим данным и избавляет от необходимости консолидировать первичные данные в новом складе данных. Его целесообразно использовать в случаях, когда стоимость консолидации данных перевешивает бизнес-преимущества, которые она предоставляет (например, при подготовке отчетов или оперативной обработке запросов).

Федерализация полезна, когда политика безопасности данных и лицензионные ограничения запрещают копирование данных первичных систем. Ее можно использовать как кратковременное решение для интеграции данных после приобретения или слияния компаний.

Федеративный подход не эффективен там, где существуют серьезные проблемы с качеством данных в первичных системах.

Следует учесть также, что федерализация данных оказывает негативное влияние на производительность программы-приложения за счет дополнительных затрат на доступ к многочисленным источникам данных.

42

5.3. Распространение данных

Приложения, реализующие распространение данных, осуществляют копирование данных из одного места в другое. Эти приложения обычно работают в оперативном режиме и выполняют перемещение данных к местам назначения. Обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно. Большинство технологий синхронного распространения данных поддерживают двусторонний обмен данными между первичными и конечными системами. Примерами технологий, поддерживающих распространение данных, являются интеграция корпоратив-

ных приложений (Enterprise application integration (EAI) и тиражирование корпоративных данных (Еnterprise data replication (EDR).

6.МНОГОМЕРНЫЕ БАЗЫ ДАННЫХ, ВИТРИНЫ

ИХРАНИЛИЩА ДАННЫХ

Построение многомерных баз данных основано на подходе OLAP (Online Analytical Processing – аналитическая обработка в реальном времени), который нацелен на выборку и обработку данных максимально эффективным способом.

Принципы OLAP сформулировал в 1993 г. Е. Ф. Кодд – « изобретатель» реляционных БД. В 1995 г. на основе принципов Э. Кодда возник тест FASMI, который включает требования к приложениям, реализующим многомерный анализ. Перечислим эти требования:

Fast – предоставление результатов анализа за малое время (не более 5c);

Analysis of – возможность осуществления любого логического и статистического анализа;

Shared – многопользовательский доступ к данным с поддержкой механизмов защиты данных;

Multidimensional – многомерное представление данных, включая поддержку иерархий;

Information – возможность доступа к информации независимо от ее объема и места хранения.

Подход OLAP предполагает выделение из исходных данных одного или нескольких многомерных наборов данных, называемых гиперкубом. Оси гиперкуба содержат атрибуты данных, а его ячейки – агрегируемые количе-

43

ственные данные. Вдоль каждой оси атрибуты могут быть организованы в виде иерархий, представляющих различные уровни их детализации.

Многомерное представление данных предполагает оперирование следующими понятиями:

гиперкуб – совокупность фактических данных, организованных в многомерную таблицу;

измерение (ось гиперкуба) – атрибуты данных (например: вид товара, время поступления (продажи), расположение магазина; на пересечении осей гиперкуба – количество товара, проданного в определенное время в определенном магазине);

мера – агрегированные данные (суммарные показатели), например, количество проданного товара в данном магазине за определенное время или объем продаж определенного товара в рублях;

иерархия – уровни измерений, которые определяются значениями последних . Например, иерархия – местоположение, уровни – мир, страна, город, магазин; иерархия – время, уровни – год, месяц,

день, час.

Такая модель обеспечивает пользователям возможность формулировать сложные запросы, генерировать отчеты, а также получать подмножества данных, используя следующие операции:

срез (разрезание куба) – фильтрация данных по одному или нескольким измерениям;

проекция куба – агрегация данных по одному или нескольким изме-

рениям (схлопывание куба).

Обработка многомерных данных осуществляется либо с помощью графического интерфейса, либо с помощью специализированного языка MDX

(MultiDimensional eXpressions).

MDX, или «многомерный SQL» разработан фирмой Microsoft и адаптирован в базах данных других компаний (Oracle, IBM, SAP).

Существуют три типа OLAP:

многомерная OLAP (Multidimensional OLAP – MOLAP);

реляционная OLAP (Relational OLAP – ROLAP);

гибридная OLAP (Hybrid OLAP – HOLAP).

Многомерные базы, построенные по технологии MOLAP, содержат малое количество измерений (~100), при этом и детальные данные, и агрегаты

44

хранятся в многомерной БД. Такая БД быстро рассчитывает агрегаты и возвращает ответы, но при работе генерирует огромные объемы данных. Обычно такие базы плохо масштабируются.

Многомерные базы на основе ROLAP содержат большое количество измерений (~1000000), детальные данные хранятся в реляционной БД, агрегаты

– также в реляционной БД, но в специально созданных служебных таблицах. Базы ROLAP масштабируется лучше, чем MOLAP, однако скорость обработки запросов в них значительно ниже, чем у MOLAP.

Количество измерений в базах HOLAP варьируется. При этом детальные данные хранятся в реляционной БД, агрегаты – в многомерной БД. Базы HOLAP достаточно хорошо масштабируются и достаточно быстро обрабатывают данные. Решения OLAP имеют следующие особенности:

объем исходных данных для анализа должен быть не слишком велик (не более нескольких гигабайт);

данные должны быть полными и непротиворечивыми;

набор информационных измерений должен быть стабилен;

большинство современных продуктов OLAP поставляются вместе с огромным количеством предварительно настроенных запросов (по-

скольку наиболее критичным параметром является время отклика на нерегламентированные запросы).

К недостатком решений OLAP можно отнести отсутствие единых стандартов на интерфейс, а также отсутствие языков описания и манипулирования данными.

Продукты OLAP не поддерживают репликацию данных. Для внесения в них малейших изменений требуются высококвалифицированные специалисты, соотвественно, конечный пользователь не может самостоятельно анализировать данные в порядке, не предусмотренном программистами.

6.1 Хранилища и витрины данных

Многомерные базы данных являются составной частью хранилищ и витрин данных, которые представляют собой склады (репозитории) информации, предназначенной для поддержки процесса принятия управленческих решений. Хранилища и витрины предназначены для создания единого логического представления данных, содержащихся в разнотипных базах или в единой модели корпоративных данных.

45

Основной задачей хранилищ является содержательный анализ информации для качественного функционирования систем поддержки принятия решений. Данные в хранилище находятся в относительно стационарном состоянии, обновляясь не постоянно, как в базах данных, а по определенному графику. В качестве операций над данными используются извлечение, преобразование, загрузка, анализ и представление результатов анализа данных.

Хранилища используют базы данных в качестве одного из источников информации. Отличительными признаками хранилищ данных являются: предметная ориентированность, интегрированность, привязка ко времени и неизменяемость.

Витрины данных – это специализированные хранилища, обслуживающие, как правило, единственное направление деятельности организации. Витрины обычно содержат тематические подмножества заранее агрегированных данных.

К достоинствам витрин данных можно отнести:

возможность работы в них только с теми данными, которые реально нужны;

заранее агрегированные данные витрин проще проектировать и настраивать;

для реализации витрин не требуются мощные вычислительные ресурсы.

46

СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ

Васкевич Д. Стратегии клиент/сервер. Киев: Диалектика, 1997.

Дейт

К.

Руководство

по

реляционной

СУБД.

М.: Финансы и статистика, 1988.

 

 

 

Карпова Т. С. Базы данных:

модели,

разработка,

реализация.

СПб.: Питер, 2001.

 

 

 

 

Коннолли Т., Бегг К. Базы данных: проектирование, реализация, сопровождение. Теория и практика: 3-е изд. Пер. с англ. : Учеб. пособие. М.: Изд. дом «Вильямс», 2003.

Малыхина М. П. Базы данных: основы, проектирование, использование. СПб.: БХВ-Петербург, 2004.

Мартин Дж. Организация баз данных в вычислительных системах. М.:

Мир, 1988.

Мейер Д. Теория реляционных баз данных. М.: Мир, 1987.

Таненбаум Э., М. ван Стеен. Распределенные системы. Принципы и парадигмы. СПб.: Питер, 2003.

47

 

Содержание

 

Предисловие.............................................................................................................

3

1.

Эволюция принципов обработки данных.........................................................

4

2.

Классификация распределенных систем на основе теоремы CAP

 

 

(теоремы Брюера)................................................................................................

7

3.

Технологии распределенной обработки данных ...........................................

20

4.

Распределенные базы данных .........................................................................

26

5.

Технологии интеграции данных в распределенных системах .....................

39

6.

Многомерные базы данных, витрины и хранилища данных........................

43

Список рекомендуемой литературы....................................................................

47

Богданов Александр Владимирович Станкова Елена Николаевна Тхуреин Киав Лиин

Распределенные базы данных

Учебное пособие

Редактор О. Р. Крумина

———————————————————————————

Подписано в печать 23.10.2013 Формат 60×84 1/16. Бумага офсетная. Печать офсетная. Печ. л. 3,0.

Гарнитура «Times New Roman». Тираж 50 экз. Заказ 120.

———————————————————————————

Издательство СПбГЭТУ «ЛЭТИ» 197376, С.-Петербург, ул. Проф. Попова, 5

48

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]