Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1222

.pdf
Скачиваний:
9
Добавлен:
07.01.2021
Размер:
980.73 Кб
Скачать

С е р и я в н у т р и в у з о в с к и х м е т о д и ч е с к и х у к а з а н и й С и б А Д И

Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

«Сибирский государственный автомобильно-дорожный университет (СибАДИ)»

Кафедра «Прикладная информатика в экономике»

МНОГОМЕРНЫЕ МАССИВЫ ДАННЫХ

Методические указания к дисциплине «Многомерные массивы данных»

Составитель С.Ю.Пестова, Е.О.Шершнева

Омск 2018

 

_____________________________

 

УДК 004

Согласно 436-ФЗ от 29.12.2010 «О защите

детей от

информации,

 

 

 

ББК 32.97

причиняющей вред их здоровью и развитию» данная продукция

М 73

маркировке не подлежит.

 

Рецензент

Доктор технических наук, профессор, С.Н. Чуканов (Заведующий кафедрой «Компьютерные информационные автоматизированные системы» ФГБОУ ВО СибАДИ.)

Работа утверждена редакционно-издательским советом университета в качестве методических указаний.

М 73 Многомерные массивы данных [Электронный ресурс] :

Методические указания / сост. С.Ю. Пестова, Е.О.Шершнева – (Серия

внутривузовских методических указаний СибАДИ). – Электрон. дан. – Омск :

СибАДИ, 2018. – Режим доступа: http://bek.sibadi.org/fulltext/bn1160.pdf,

свободный после авторизации. – Загл. с экрана.

По темам изложен материал, необходимый для выполнения лабораторных работ, дана рекомендуемая литература и перечень дополнительных ресурсов, необходимых для освоения дисциплины «Многомерные массивы данных». Для самостоятельной подготовки к промежуточной аттестации сформированы вопросы и типовые тесты.

Имеется интерактивное оглавление в виде закладок.

Методические указания предназначены для бакалавров направления 09.03.03 «Прикладная информатика». Также могут быть использованы как дополнительный учебный материал в различных информационных дисциплинах для формирования профессиональных компетенций.

Издание подготовлено на кафедре «Прикладная информатика в экономике».

Текстовое (символьное) издание ( )

Системные требования: Intel, 3,4 GHz; 150 Мб; Windows XP/Vista/7; DVDROM;

1 Гб свободного места на жестком диске; программа для чтения pdfфайлов:

Adobe Acrobat Reader; Foxit Reader

Издание первое. Дата подписания к использованию Издательско-полиграфический комплекс СибАДИ. 644080, г. Омск, пр.

Мира, 5 РИО ИПК СибАДИ. 644080, г. Омск, ул. 2-я Поселковая, 1

© ФГБОУ ВО «СибАДИ», 2018

 

 

СОДЕРЖАНИЕ

 

 

 

СОДЕРЖАНИЕ...............................................................................................

 

 

 

3

ВВЕДЕНИЕ .....................................................................................................

 

 

 

4

1. ТЕОРИТИЧЕСКИЙ МАТЕРИАЛ К ЛАБОРАТОРНЫМ РАБОТАМ

.. 6

1.1. Архитектуры данных: история развития

..............................................

 

6

1.2. Архитектуры данных: Базы данных и модели .......................данных

 

7

1.3. Многомерные данные .............................................................................

 

 

 

8

1.4. Концепция хранилищ данных (ХД).......................................................

 

 

9

1.5. Архитектуры хранилищ данных ..........................................................

 

 

10

1.6. Реляционные хранилища данных ........................................................

 

 

11

1.7. Реализация реляционных хранилищ данных .....................................

 

13

1.8. Виртуальные хранилища данных ........................................................

 

 

14

1.9.Использование

хранилищ

данных .

Различные

архитектурные решения ХД, реализация процедур .........................ETL

 

16

2. ЛАБОРАТОРНЫЕ РАБОТЫ...................................................................

 

 

18

2.1

Лабораторная работа 1 «Основы работы с аналитической

платформой Deductor studio» ......................................................................

 

 

18

2.2Лабораторная работа 2 «Трансформация данных в Deductor Studio»19

2.3

Лабораторная работа 3 «Создание, заполнение и использование

хранилища данных Deductor Warehouse на базе .......................Firebird»

 

20

2.4

Лабораторная работа 4 «Определение представления источника

данных и развертывание куба в проекте служб ........Analysis Services»

21

2.5

Лабораторная работа 5 «Изменение мер, ....атрибутов и иерархий»

22

2.6

Лабораторная работа 6 «Разработка реляционного хранилища

данных средствами платформы Deductor» ................................................

 

 

23

2.7

Лабораторная работа 7 «Разработка РХД ..........средствами СУБД»

24

2.8

Лабораторная работа 8 «Определение и развертывание .........куба»

24

4. ТЕМЫ ДЛЯ ПОДГОТОВКИ К ИТОГОВОЙ ..ФОРМЕ КОНТРОЛЯ

25

5. ТИПОВЫЕ ТЕСТОВЫЕ ЗАДАНИЯ......................................................

 

 

26

СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ ......................................

 

31

ПЕРЕЧЕНЬ РЕСУРСОВ СЕТИ «ИНТЕРНЕТ», РЕКОМЕНДУЕМЫХ

ДЛЯ ОСВОЕНИЯ ДИСЦИПЛИНЫ ...........................................................

 

 

31

ВВЕДЕНИЕ

Массив структура данных, хранящая набор значений (элементов массива), идентифицируемых по индексу или набору индексов, принимающих целые (или приводимые к целым) значения из некоторого заданного непрерывного диапазона. Одномерный массив можно рассматривать как реализацию абстрактного типа данных вектор. Многомерный массив это массив массивов, т. е. массив, элементами которого являются массивы. Размерность массива - это количество индексов, используемых для ссылки на конкретный элемент массива.

Целями освоения учебной дисциплины являются формирование у студентов теоретических знаний, практических умений и навыков по применению современных технологий хранилищ данных в различных сферах человеческой деятельности; получение базовых знаний о системах хранения данных, особенностях хранилищ данных и их назначении; знакомство с технологиями интеллектуального анализа.

Для изучения дисциплины, были поставлены следующие задачи:

изучение существующих технологий подготовки данных к анализу;

изучение основных методов поиска закономерностей, связей, правил в табулированных массивах данных большого объема; иллюстрированного их применения в различных областях деятельности;

овладение практическими умениями и навыками реализации технологий интеллектуального анализа данных, формирования и проверки гипотез о их природе и структуре, варьирования применяемыми моделями;

формирование умений и навыков применения универсальных программных пакетов и аналитических платформ для анализа данных.

В результате изучения дисциплины студент должен знать принципы, методы системного анализа, этапы формализации прикладных задач с использованием методов экономикоматематического моделирования, особенности аналитических платформ, различные модели и методы моделирования информационных систем. Студент должен уметь ставить задачи проектирования хранилищ данных; разрабатывать структуру хранилищ данных; анализировать многомерные данные посредством OLAP-технологий; вводить, хранить, обрабатывать и анализировать информацию в хранилище данных; выбирать средства реализации

требований к программному обеспечению. Помимо этого, проводить анализ предметной области, выявлять информационные потребности и разрабатывать требования к ИС.

1. ТЕОРИТИЧЕСКИЙ МАТЕРИАЛ К ЛАБОРАТОРНЫМ РАБОТАМ

1.1. Архитектуры данных: история развития

Вопросы для рассмотрения: Эволюция задач сбора и обработки информации. Понятие архитектуры данных. Развитие систем хранения и обработки данных. Системы оперативной обработки информации – OLTP. Системы консолидации и аналитической обработки информации – ELT.

Рекомендуемая литература: 1. Перечень дополнительных ресурсов: 3.

Наименование вида самостоятельной работы: изучение темы,

оформление отчета по работе.

Архитектура данных в области информационных технологий архитектура данных состоит из моделей, политик, правил или стандартов, которые определяют, какие данные собираются, и как они хранятся, размещаются, интегрируются и используются для использования в системах данных и в организациях. Данные обычно являются одним из нескольких доменов архитектуры, которые составляют основу архитектуры предприятия или архитектуры решения.

Системы хранения и обработки данных сложная комбинация серверов, систем хранения данных, сетевого оборудования для выполнения информационных сервисов.

Системы аналитической обработки данных OLAP это системы поддержки принятия решений, ориентированные на выполнение более сложных запросов, требующих статистической обработки исторических данных, накопленных за определенный промежуток времени. Они служат для подготовки бизнес-отчетов по продажам, маркетингу в целях управления, так называемого Data Mining добычи данных, т.е. способа анализа информации в базе данных для отыскания аномалий и трендов без выяснения смыслового значения записей.

Консолидация данных (ELT) является начальным этапом реализации любой аналитической задачи или проекта. В основе консолидации лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической

задачи. Сопутствующими задачами консолидации являются оценка качества данных и их обогащение.

1.2. Архитектуры данных: Базы данных и модели данных

Вопросы для рассмотрения: Иерархическая модель данных, условия целостности иерархической модели данных. Сетевая модель данных, условия целостности сетевой модели данных. Реляционная модель данных, реляционные базы данных. Хранилища данных – системы хранения данных, ориентированная на аналитическую обработку.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4,5.

Наименование вида самостоятельной работы: изучение вопросов темы, оформление отчета по лабораторной работе, подготовка к тесту по тематике курса.

Иерархическая модель данных логическая модель данных в виде древовидной структуры, представляющая собой совокупность элементов, расположенных в порядке их подчинения от общего к частному. В иерархических моделях основная структура представления данных имеет форму дерева. На самом высшем (первом) уровне иерархии находится только одна вершина, которая называется корнем дерева.

Сетевая модель данных логическая модель данных, являющаяся расширением иерархического подхода, строгая математическая теория, описывающая структурный аспект, аспект целостности и аспект обработки данных в сетевых базах данных. Разница между иерархической моделью данных и сетевой состоит в том, что в иерархических структурах запись-потомок должна иметь в точности одного предка, а в сетевой структуре данных у потомка может иметься любое число предков.

Реляционная модель данных логическая модель данных, прикладная теория построения баз данных, которая является приложением к задачам обработки данных таких разделов математики, как теория множеств и логика первого порядка. На реляционной модели данных строятся реляционные базы данных. Реляционная модель данных включает следующие компоненты: Структурный аспект (составляющая) данные в базе данных представляют собой набор отношений.

Хранилище данных предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений.

1.3. Многомерные данные

Вопросы для рассмотрения: OLAP-технология. Задачи OLAP-

систем: представление данных, процессы обработки. Концепция многомерного представления данных – гиперкубы. Базовые понятия: измерения и факты. Формализация многомерного представления данных: метки, иерархии, ячейки, меры.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4.

Наименование вида самостоятельной работы: изучение вопросов темы, оформление отчета по лабораторной работе, подготовка к тесту по тематике курса.

OLAP технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу. Реализации технологии OLAP являются компонентами программных решений класса Business Intelligence.

В основе OLAP лежит понятие гиперкуба, или многомерного куба данных, в ячейках которого хранятся анализируемые данные. Факт - это числовая величина которая располагается в ячейках гиперкуба. Один OLAP-куб может обладать одним или несколькими показателями.

Измерение (dimension) - это множество объектов одного или нескольких типов, организованных в виде иерархической структуры и обеспечивающих информационный контекст числового показателя. Измерение принято визуализировать в виде ребра многомерного куба.

Факт - это числовая величина которая располагается в ячейках гиперкуба. Один OLAP-куб может обладать одним или несколькими показателями.

Измерение - это множество объектов одного или нескольких типов, организованных в виде иерархической структуры и обеспечивающих информационный контекст числового показателя. Измерение принято визуализировать в виде ребра многомерного куба.

Объекты, совокупность которых и образует измерение, называются членами измерений. Члены измерений визуализируют как точки или участи, откладываемые на осях гиперкуба.

Ячейка - атомарная структура куба, соответствующая полному набору конкретный значений измерений.

Иерархия - группировка объектов одного измерения в объекты более высокого уровня. Например - день-месяц-год. Иерархии в измерениях необходимы для возможности агрегации и детализации значений показателей согласно их иерархической структуре. Иерархия целиком основывается на одном измерении и формируется из уровней.

1.4. Концепция хранилищ данных (ХД)

Вопросы для рассмотрения: OLAP как ключевой компонент ХД. Построение информационных систем на основе архитектур хранилищ данных. Операции над многомерными данными. Методы обработки агрегированных данных.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4,5.

Наименование вида самостоятельной работы: изучение вопросов темы, оформление отчета по лабораторной работе, подготовка к тесту по тематике курса.

OLAP — это ключевой компонент организации ХД. OLAPфункциональность может быть реализована различными способами, как простейшими, такими как анализ данных в офисных приложениях, так и более сложными - распределенными аналитическими системами, основанными на серверных продуктах.

Архитектура информационной системы – концепция, определяющая модель, структуру, выполняемые функции и взаимосвязь компонентов информационной системы.

Операции над данными. При выполнении операции срез формируется подмножество гиперкуба, в котором значение одного или более измерений фиксировано (например, значения параметров для фиксированного измерения Бригада). Операция вращения изменяет порядок представления измерений, обеспечивая представление куба в более удобной для восприятия форме. Консолидация — операция перехода от детального представления данных к агрегированному.

Агрегирование - метод обобщения моделей. Операцией, противоположной декомпозиции, является агрегирование -

объединение частей в целое. Операция декомпозиции применяется на этапе анализа системы.

1.5. Архитектуры хранилищ данных

Вопросы для рассмотрения: Современное представление. Классификация архитектур хранилищ данных. Многомерные, реляционные и гибридные хранилища данных. Различие концепций и особенности построения.

Рекомендуемая литература: 1.

Перечень дополнительных ресурсов: 3,4,5.

Наименование вида самостоятельной работы: изучение вопросов темы.

Типовыми архитектурами для систем складирования данных принято считать следующие:

системы с глобальным ХД ;

системы с независимыми киосками данных ;

системы с интегрированными киосками данных ;

системы, разработанные на основе комбинации из вышеперечисленных архитектур.

Глобальное хранилище данных (Global data warehouse), или хранилище данных масштаба организации, — это такое ХД, в котором будут поддерживаться все данные организации или большая их часть. Это наиболее полное интегрированное ХД с высокой степенью интенсивности доступа к консолидированным данным и использованием его всеми подразделениями организации или руководством организации в рамках основных направлений деятельности организации.

Централизованное глобальное ХД характерно для организаций, расположенных территориально в одном здании. Оно поддерживается отделом информационных систем организации. Распределенное глобальное ХД также может быть использовано в рамках организации

вцелом. Оно физически распределяется по подразделениям организации и также поддерживается отделом информационных систем.

Гибридные хранилища данных. Многомерная и реляционная модели хранилищ данных имеют свои преимущества и недостатки. Например, многомерная модель позволяет быстрее получить ответ на запрос, но не дает возможности эффективно управлять такими же большими объемами данных, как реляционная модель. Логично было бы использовать такую модель ХД, которая представляла бы собой

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]