Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ИИС

.pdf
Скачиваний:
201
Добавлен:
12.03.2016
Размер:
5.88 Mб
Скачать

факты (агрегируемые данные) – в отдельных специальных таблицах этой же базы данных. При этом таблица фактов является основой для связанных с ней таблиц измерений. Она содержит количественные характеристики объектов и событий, совокупность которых предполагается в дальнейшем анализировать.

Схемы построения РХД. На логическом уровне различают две схемы построения РХД – «звезда» и «снежинка».

При использовании схемы «звезда» центральной является таблица фактов, с которой связаны все таблицы измерений. Таким образом, информация о каждом измерении располагается в отдельной таблице, что упрощает их просмотр, а саму схему делает логически прозрачной и понятной пользователю (рис. 4.8).

Рис.4.8. Схема построения РХД «звезда».

150

Однако размещение всей информации об измерении в одной таблице оказывается не всегда оправданным. Например, если продаваемые товары объединены в группы (имеет место иерархия), то придется тем или иным способом показать, к какой группе относится каждый товар, что приведет к многократному повторению названий групп. Это не только вызовет рост избыточности, но и повысит вероятность возникновения противоречий (если, например, один и тот же товар ошибочно отнесут к разным группам).

К преимуществам схемы «звезда» можно отнести:

простоту и логическую прозрачность модели; более простую процедуру пополнения измерений,

поскольку приходится работать только с одной таблицей.

Недостатками схемы «звезда» являются:

медленная обработка измерений, поскольку одни и те же значения измерений могут встречаться несколько раз в одной и той же таблице; высокая вероятность возникновения несоответствий в

данных (в частности, противоречий), например, из-за ошибок ввода.

Для более эффективной работы с иерархическими измерениями была разработана модификация схемы «звезда», которая получила название «снежинка». Главным отличием схемы «снежинка» является то, что информация об одном измерении может храниться в нескольких связанных таблицах. То есть если хотя бы одна из таблиц измерений имеет одну или несколько связанных с ней других таблиц

151

измерений, в этом случае будет применяться схема «снежинка» (рис. 4.9).

Рис.4.9. Схема построения РХД «снежинка».

Основное функциональное отличие схемы «снежинка» от схемы «звезда» – это возможность работы с иерархическими уровнями, определяющими степень детализации данных. В приведенном примере схема «снежинка» позволяет работать с данными на уровне максимальной детализации, например, с каждым товаром отдельно, или использовать обобщенное представление по группам товаров с соответствующей агрегацией фактов.

Выбор схемы для построения РХД зависит от используемых механизмов сбора и обработки данных. Каждая из схем имеет свои преимущества и недостатки, которые, однако, могут проявляться в большей или меньшей степени в зависимости от особенностей функционирования ХД в целом.

152

Преимуществами схемы «снежинка» являются:

она ближе к представлению данных в многомерной модели;

процедура загрузки из РХД в многомерные структуры более эффективна и проста, поскольку загрузка производится из отдельных таблиц;

намного ниже вероятность появления ошибок, несоответствия данных; большая, по сравнению со схемой «звезда»,

компактность представления данных, поскольку все значения измерений упоминаются только один раз.

Недостатки схемы «снежинка»:

достаточно сложная для реализации и понимания структура данных;

усложненная процедура добавления значений измерений.

Кроме того, существует ряд технических особенностей, которые могут определить предпочтения разработчиков РХД при выборе схемы его построения.

Основные преимущества РХД:

практически неограниченный объем хранимых данных;

поскольку реляционные СУБД лежат в основе построения многих систем оперативной обработки (OLTP), которые обычно являются главными источниками данных для ХД, использование реляционной модели позволяет упростить процедуру загрузки и интеграции данных в хранилище; при добавлении новых измерений данных нет

необходимости выполнять сложную физическую

153

реорганизацию хранилища в отличие, например, от многомерных ХД; обеспечиваются высокий уровень защиты данных и

широкие возможности разграничения прав доступа.

Главный недостаток РХД заключается в том, что при использовании высокого уровня обобщения данных и иерархичности измерений в таких хранилищах начинают «размножаться» таблицы агрегатов. В результате скорость выполнения запросов реляционным хранилищем замедляется. В то же время в многомерных хранилищах, где данные хранятся в виде многомерных кубов, эта проблема практически не возникает, и в большинстве случае удается достичь более высокой скорости выполнения запросов.

Таким образом, выбор реляционной модели при построении ХД целесообразен в следующих случаях.

Значителен объем хранимых данных (многомерные ХД становятся неэффективными).

Иерархия измерений несложная (то есть немного агрегированных данных).

Требуется частое изменение размерности данных. При использовании реляционной модели можно ограничиться добавлением новых таблиц, а для многомерной модели придется выполнять сложную перестройку физической структуры хранилища.

Гибридные хранилища данных. Многомерная и реляционная модели хранилищ данных имеют свои преимущества и недостатки. Например, многомерная модель позволяет быстрее получить ответ на запрос, но не дает возможности эффективно управлять такимиже большими объемами данных, как реляционная модель. Логично было бы

154

использовать такую модель ХД, которая представляла бы собой комбинацию реляционной и многомерной моделей и позволяла бы сочетать высокую производительность, характерную для многомерной модели, и возможность хранить сколь угодно большие массивы данных, присущую реляционной модели. Такая модель, сочетающая в себе принципы реляционной и многомерной моделей, получила название гибридной, или HOLAP (Hybrid OLAP).

Хранилища данных, построенные на основе HOLAP, называются гибридными хранилищами данных (ГХД) (рис.4.10).

Рис.4.10 Гибридное ХД.

Главным принципом построения ГХД является то, что детализированные данные хранятся в реляционной структуре (ROLAP), которая позволяет хранить большие объемы

155

данных, а агрегированные данные – в многомерной (MOLAP), которая позволяет увеличить скорость выполнения запросов (поскольку при выполнении аналитических запросов уже не требуется вычислять агрегаты).

Пример. В супермаркете, ежедневно обслуживающем десятки тысяч покупателей, установлена регистрирующая OLTP-система. При этом максимальному уровню детализации регистрируемых данных соответствует покупка по одному чеку, в котором указываются общая сумма покупки, наименования или коды приобретенных товаров и стоимость каждого товара. Оперативная информация, состоящая из детализированных данных, консолидируется в реляционной структуре ХД. С точки зрения анализа представляют интерес обобщенные данные, например, по группам товаров, отделам или некоторым интервалам дат. Поэтому исходные детализированные данные агрегируются, и вычисленные агрегаты сохраняются в многомерной структуре гибридного ХД.

Если данные из OLTP-системы имеют большой объем (несколько десятков тысяч записей в день и более) и высокую степень детализации, а для анализа используются в основном обобщенные данные, гибридная архитектура хранилища оказывается наиболее подходящей.

Преимущества гибридного хранилища данных.

Хранение данных в реляционной структуре делает их в большей степени системно-независимыми, что особенно важно при использовании в управлении предприятием экономической информации (показателей).

Реляционная структура формирует устойчивые и непротиворечивые опорные точки для многомерного хранилища.

156

Поскольку реляционное хранилище поддерживает актуальность и корректность данных, оно обеспечивает очень надежный транспортный уровень для доставки информации в многомерное хранилище.

Недостатком гибридной модели является усложнение администрирования ХД из-за более сложного регламента его пополнения, поскольку при этом необходимо согласовывать изменения в реляционной и многомерной структурах.

Виртуальные хранилища данных. Неизбежной проблемой при использовании хранилищ данных в корпоративных аналитических системах является избыточность. Она снижает эффективность использования дискового пространства и оперативной памяти компьютерной системы, а при очень больших объемах хранящейся и обрабатываемой информации может вызвать снижение производительности, возрастание времени ожидания отклика на запрос и даже привести к полной неработоспособности системы. Избыточность в той или иной степени характерна как для реляционных, так и для многомерных хранилищ.

Ситуация усугубляется еще и тем, что ХД хранят историческую информацию и реализуют принцип неизменчивости данных. То есть в отличие от обычных систем оперативной обработки (OLTP-систем), где хранятся лишь актуальные данные, а данные, утратившие актуальность, уничтожаются, ХД могут только пополняться новыми данными, а удаление исторических данных не производится. Кроме того, часто требуется хранить большие объемы агрегированных данных. В совокупности эти факторы могут привести к «взрывному» росту объемов ХД.

157

Преодолеть проблему избыточности и даже свести ее к нулю можно путем использования виртуальных хранилищ данных (ВХД). В основе концепции виртуального ХД лежит принцип, в соответствии с которым данные из локальных источников, внешнего окружения, баз данных и учетных систем не консолидируются в единое ХД физически, а извлекаются, преобразуются и интегрируются непосредственно при выполнении запроса в оперативной памяти ПК. Фактически запросы адресуются непосредственно к источникам данных.

Виртуальным хранилищем данных – это система, которая работает с разрозненными источниками данных и эмулирует работу обычного хранилища данных, извлекая, преобразуя и интегрируя данные непосредственно в процессе выполнения запроса.

При работе с ВХД пользователь, можно сказать, имеет дело с «иллюзией» хранилища данных (рис.4.11). Виртуальность предполагает, что ВХД существует только до тех пор, пока работает соответствующее приложение. Как только оно завершает работу, виртуальное хранилище прекращает существование.

158

Рис.4.11 Виртуальное ХД.

Преимущества виртуального хранилища данных.

Минимизируется объем требуемой дисковой и оперативной памяти, поскольку отсутствует необходимость хранения исторических данных и многочисленных агрегированных данных для различных уровней обобщения информации.

Наличие в ВХД развитого семантического слоя позволяет аналитику полностью абстрагироваться от проблем, связанных с процессом извлечения данных из разнообразных источников, и сосредоточиться на решении задач анализа данных.

Появляется возможность анализа данных в OLTPсистеме сразу после их поступления без ожидания загрузки в хранилище.

159