Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ИИС ЛР 3-12

.pdf
Скачиваний:
59
Добавлен:
10.06.2015
Размер:
2.82 Mб
Скачать

Øвыполнить аналогичные действия для создания остальных измерений:

КодТовара, КодСотрудника, Дата; для измерения Дата указать тип данных –

Дата/Время;

Øдобавить (перед нажатием кнопки[Добавить] установить курсор на узел Атрибуты) измерению КодТипа атрибут Категория, измерению КодТо-

вара – атрибут Марка, измерению КодСотрудника – два атрибута: Фамилия и Имя;

Øсоздать для измерения КодТовара ссылку на измерениеКодТипа, ус-

тановив курсор на узел Измерения в измерении КодТовара, нажав кнопку [До-

бавить] и выбрав имя КодТипа;

Рисунок 5 – Вид окна редактора метаданных

Øсформировать процесс Заказы, установив курсор на узелПроцесс и

нажав кнопку [Добавить]; назначить процессу имя: Zak и метку: Заказы;

Øдобавить в процесс ссылки на измеренияКодТовара, КодСотрудника,

Дата;

Øсоздать для процесса атрибут: Номер заказа; назначить ему имя: Nomer и метку: Номер.

Øсоздать два факта: Количество, Скидка; назначить им имена: Kol, Skid

и метки: Количество, Скидка;

11

Øзакрыть окно редактора метаданных.

Тема 2 Наполнение хранилища данных

Задания

1 Импортировать текстовые файлы.

Последовательность выполнения задания:

Ø перейти на панель Сценарии и вызвать Мастер им-

порта;

Øвыбрать тип внешнего источника (Text). Нажать [Далее];

Øуказать в личной папке имя текстового файла для импорта(например Типы.txt);

Øуказать, что символом разделителем является точка с запятой(;); на-

жать [Далее] и еще раз [Далее];

Øуказать для столбца Код Типа строковый тип данных; нажать [Далее];

Øзапустить процесс импорта кнопкой [Пуск]; нажать [Далее], [Далее] и

[Готово].

Рисунок 6 – Вид окна импорта текстового файла

Øаналогичным образом последовательно один за другим выполнить им-

порт других текстовый файлов: Товары.txt, Сотрудники.txt и Заказы.txt; указать строковый тип данных для столбцовКодТовара, КодТипа, КодСотрудника,

КодЗаказа, Индекс;

Øпроверить на дереве сценариев наличие четырех узлов импорта;

Øпросмотреть импортированные данные и при необходимости отредак-

тировать; в случае наличия в столбцеКодТовара импортированного файла За-

12

казы содержатся нулевые (пустые) значения, выполнить фильтрацию данных с помощью Мастера обработки;

2 Загрузить данные в хранилище.

Последовательность выполнения задания:

Øперейти в режимПодключение и убедиться, что хранилище данных существует; Иначе использовать Мастер подключений;

Рисунок 7 – Вид программного окна в режиме Подключение

Øперейти в режим Сценарии;

Øустановить курсор на первый узел дерева сценариев и вызвать

Мастер Экспорта;

Øвыбрать тип приемника: Deductor Warehouse; нажать [Далее];

Øиз списка доступных хранилищ выбратьЗаказы Борей; нажать [Да-

лее];

Øдля загрузки данных в первое измерение указать его имя: КодТипа;

нажать [Далее];

Øвыбрать КодТипа; убедиться, что объекту соответствует поле из ис-

точника и нажать [Далее];

Рисунок 8 – Загрузка данных в хранилище

Øнажать кнопки [Пуск], [Далее], [Далее] и [Готово];

13

Øвыполнить аналогичные действия для измеренийКодТовара и Код-

Сотрудника;

Øзагрузить данные в процессЗаказы, действия аналогичны (объектом хранилища является процесс Заказы);

Øвыбрать объект Дата для удаления данных из хранилища, определе-

ние параметров загрузки данных в хранилище оставить настройки по умолча-

нию;

Øустановить варианты агрегации атрибутов и фактов: для факта Коли-

чество – сумма; для факта Скидка – среднее;

Рисунок 9– Фрагмент окна установления агрегации фактов

Øсохранить файл сценария под именем zak.ded. 3 Извлечь информацию из хранилища данных.

Последовательность выполнения задания

Øвызвать Мастер импорта;

Øвыбрать тип источника данных: Deductor Warehouse и нажать [Далее];

Øиз списка доступных хранилищ выбратьЗаказы Борей; нажать [Да-

лее];

Øуказать имя процесса: Заказы; нажать [Далее];

Øзадать все измерения, атрибуты и факты для импорта; нажать [Далее];

14

Рисунок 10 – Фрагмент окна задания измерения, атрибуты и факты для импорта

Øнажать кнопку [Пуск] и [Далее];

Øопределить способ отображения данных(можно оставить настройки по умолчанию); нажать [Далее] и [Готово].

1.2 Анализ данных

Цель работы. Ознакомиться с основными приемами анализа данных,

используемыми в Deductor Studio.

Теоретическая часть

Deductor Studio является аналитическим ядром платформыDeductor.

Данное приложение содержит набор механизмов импорта, обработки, визуали-

зации и экспорта данных для быстрого и эффективного анализа информации.

В Deductor Studio включен полный цикл механизмов, позволяющих по-

лучать информацию из различных источников данных, производить весь цикл обработки (очистка, трансформация данных, построение моделей), отображать полученные результаты наиболее удобным способом(OLAP, таблицы, диа-

граммы, деревья решений и пр.) и экспортировать данные.

Работа по анализу данных базируется на выполнении следующих дейст-

вий:

· Импорт данных;

15

· Обработка данных;

· Визуализация;

· Экспорт данных.

Рисунок 11 – Работа аналитического приложения Deductor Studio

Отправной точкой для анализа всегда является процедура импорта дан-

ных. Полученный набор данных может быть обработан любым доступным спо-

собом. Результатом обработки также является набор данных, который в свою очередь опять может быть обработан. Результаты обработки можно просмот-

реть множеством способов и экспортировать в наиболее популярные форматы.

Последовательность действий, которые необходимо провести для анали-

за данных, является сценарием, который можно автоматически выполнять на любых данных.

Сценарий представляет собой иерархическую последовательность об-

работки и визуализации набора данных, представленную в виде дерева.

В дереве каждая операция образует узел, заголовок которого содержит имя источника данных, наименование применяемого алгоритма обработки, ис-

пользуемые при этом поля и т.д. Кроме этого, слева от наименования узла стоит

16

значок, соответствующий типу операции или типу выборки данных, имеющих место в узле. Чтобы применить к узлу новый этап обработки или экспорта,

нужно выделить его и запустить соответствующий Мастер. При этом будет об-

разован подчиненный узел.

Если узел имеет подчиненные узлы, то слева от его названия будет рас-

положен значок "+", щелчок по которому позволит развернуть узел, т.е. сделать видимыми все его подчиненные узлы, при этом значок "+" поменяется на "-".

Щелчок по значку "-" сворачивает все подчиненные узлы.

Главным узлом является узел "Сценарии", который отображается всегда.

Щелчок по значку "-" слева от него сворачивает все дерево сценариев (скрывает все узлы и подузлы).

Сценарий начинается с импорта данных из произвольного источника.

После импорта может следовать произвольное число обработчиков любой глу-

бины и сложности. Каждой операции обработки соответствует отдельный узел дерева.

Рисунок 12 – Пример сценария в Deductor

Обработка данных в аналитической платформе Deductor включает в себя различные манипуляции над набором данных.

17

Визуализация - это отображение импортированных и обработанных дан-

ных. Визуализировать можно любой объект в сценарии обработки. Программа самостоятельно анализирует, каким образом можно отобразить информацию, и

пользователь должен только выбрать нужный вариант.

Обработчики и визуализаторы Deductor

 

 

 

 

 

 

 

 

 

 

 

 

 

Очистка данных

 

Трансформация данных

 

Data Mining

 

 

 

 

(Добыча данных)

 

 

 

 

 

 

 

 

 

 

 

· Редактирование ано-

 

· Замена пустых

значе-

·

Нейронные сети

 

 

малий

 

 

ний

 

 

 

 

 

 

 

· Заполнение

пропус-

 

· Квантование значений

·

Линейная регрессия

 

ков

 

 

 

 

 

 

 

 

 

 

 

· Сглаживание

 

 

· Табличная

замена

зна-

·

Автокорреляция

 

 

 

 

 

 

чений

 

 

 

 

 

 

 

· Очистка от шумов

 

· Скользящее окно

 

·

Прогнозирование

 

 

· Обнаружение

дубли-

 

· Преобразование даты

·

Деревья решений

 

 

катов и противоречий

 

 

 

 

 

 

 

 

 

 

 

 

 

 

· Группировка

 

 

·

Самоорганизующиеся

 

 

 

 

 

 

 

 

 

карты

 

 

 

 

 

 

· Разгруппировка

 

·

Ассоциативные

прави-

 

 

 

 

 

 

 

 

 

ла

 

 

 

 

 

 

· Понижение

размерно-

·

Пользовательская

мо-

 

 

 

 

 

сти

 

 

дель

 

 

 

 

 

 

· Устранение незначащих

·

Скрипты

 

 

 

 

 

 

факторов

 

 

 

 

 

 

 

Рисунок 13Классификация обработчиков и визуализаторов в Deductor

Таблица 1 Описание обработчиков и визуализаторов в Deductor

Пикто-

Наименование Описание

грамма

 

Очистка данных

 

 

 

 

 

Парциальная обработка

Восстановление, сглаживание и редак-

 

 

тирование аномальных данных

 

Факторный анализ

Понижение размерности входных фак-

 

 

 

торов

 

Корреляционный анализ

Устранение незначащих факторов

 

 

 

 

 

 

Дубликаты и противоречия

Выявление дубликатов и противоречи-

 

 

вых записей в исходном наборе данных

 

Фильтрация

Фильтрация записей выборки по задан-

 

 

 

 

 

18

Пикто-

Наименование

Описание

 

 

 

грамма

 

 

 

 

 

 

 

 

 

 

 

ным условиям

 

 

 

 

 

Трансформация данных

 

 

 

 

 

Настройка набора данных

Настройку параметров полей

 

 

 

 

 

 

 

 

 

Скользящее окно

Преобразование

данных

методом

 

 

скользящего окна

 

 

 

 

 

Дата и время

Обработка данных в формате"дата" и

 

 

 

"время

 

 

 

 

 

Квантование

Квантование значений выборки

 

 

 

Сортировка

Сортировка записей в исходной выбор-

 

 

 

ке данных

 

 

 

 

 

Слияние

Объединение данных из двух таблиц

 

 

 

 

 

 

Замена

Замена значений по таблице подстанов-

 

 

ки

 

 

 

 

 

Группировка

Группировка данных

 

 

 

 

 

 

 

 

 

 

 

Разгруппировка

Восстановление

выборки,

к

которой

 

 

была применена операция группировки

 

Data Mining (

Добыча данных)

 

 

 

 

 

 

 

 

 

Прогнозирование

Прогнозирование динамического ряда

 

 

 

 

 

Автокорреляция

Выполняет автокорреляционный анализ

 

 

данных

 

 

 

 

 

Линейная регрессия

Построение модели данных в виде на-

 

 

 

бора коэффициентов линейного преоб-

 

 

разования

 

 

 

 

 

Логистическая регрессия

Построение бинарной

логистической

 

 

 

регрессионной модели

 

 

 

 

Нейросеть

Обработко данных с помощью много-

 

 

 

слойной нейронной сети

 

 

 

 

Дерево решений

Обработка данных с помощью деревьев

 

 

 

решений

 

 

 

 

 

Самоорганизующаяся карта

Кластеризация

данных

 

 

 

 

 

 

 

 

Ассоциативные правила

Обнаружение зависимостей между свя-

 

 

занными событиями

 

 

 

 

Пользовательская модель

Задание модели вручную по формулам

 

 

 

 

 

 

Скрипт

Применение модели к новым данным

 

 

 

 

 

 

 

Очистка и трансформация данных являются предварительными обра-

ботчиками для непосредственного анализа данных

19

Очистка данных необходима для устранения ошибок, погрешностей,

имеющихся в исходных данных. Очищенные данные содержат наиболее цен-

ную для анализа информацию, из которой исключены противоречивые и дуб-

лирующиеся данные, устранены аномальные выбросы и шумы. Во многих слу-

чаях достаточно провести только очистку данных и выводы будут очевидны.

Кроме того, очистка данных позволяет получить лучшие результаты при -ис пользовании в дальнейшем любых методов построения моделей.

Парциальная обработка служит для восстановления пропущенных данных, редактирования аномальных значений и сглаживания данных.

Факторный анализ служит для выбора входных факторов путем указа-

ния необходимого порога значимости.

Корреляционный анализ применяется для оценки зависимости выход-

ных полей данных от входных факторов и устранения незначащих факторов.

Дубликаты и противоречия Противоречивыми являются группы запи-

сей, в которых содержатся строки с одинаковыми входными факторами, но раз-

ными выходными. В такой ситуации непонятно, какое результирующее значе-

ние верно. Противоречивые данные исключаются.

Дубликаты – это записи с одинаковыми входными и выходными данны-

ми. Такие данные приводят к избыточности, поэтому дублирующая информа-

ция исключается.

Трансформация данных

Разбиение данных служит для анализа всевозможных временных -ин тервалов на основе имеющейся информации о дате и времени.

Квантирование (дискретизация) предназначено для преобразования непрерывных данных в дискретные. Преобразование может происходить как по интервалам, так и по квантилям(данные разбиваются на интервалы разной длины, но с одинаковым количеством записей).

Настройка набора данныхприменяется для изменения имени, метки,

типа, размера, вида и назначения полей текущей таблицы данных.

20