ИИС ЛР 3-12
.pdf
Øвыполнить аналогичные действия для создания остальных измерений:
КодТовара, КодСотрудника, Дата; для измерения Дата указать тип данных –
Дата/Время;
Øдобавить (перед нажатием кнопки[Добавить] установить курсор на узел Атрибуты) измерению КодТипа атрибут Категория, измерению КодТо-
вара – атрибут Марка, измерению КодСотрудника – два атрибута: Фамилия и Имя;
Øсоздать для измерения КодТовара ссылку на измерениеКодТипа, ус-
тановив курсор на узел Измерения в измерении КодТовара, нажав кнопку [До-
бавить] и выбрав имя КодТипа;
Рисунок 5 – Вид окна редактора метаданных
Øсформировать процесс Заказы, установив курсор на узелПроцесс и
нажав кнопку [Добавить]; назначить процессу имя: Zak и метку: Заказы;
Øдобавить в процесс ссылки на измеренияКодТовара, КодСотрудника,
Дата;
Øсоздать для процесса атрибут: Номер заказа; назначить ему имя: Nomer и метку: Номер.
Øсоздать два факта: Количество, Скидка; назначить им имена: Kol, Skid
и метки: Количество, Скидка;
11
Øзакрыть окно редактора метаданных.
Тема 2 Наполнение хранилища данных
Задания
1 Импортировать текстовые файлы.
Последовательность выполнения задания:
Ø перейти на панель
Сценарии и вызвать
Мастер им-
порта;
Øвыбрать тип внешнего источника (Text). Нажать [Далее];
Øуказать в личной папке имя текстового файла для импорта(например Типы.txt);
Øуказать, что символом разделителем является точка с запятой(;); на-
жать [Далее] и еще раз [Далее];
Øуказать для столбца Код Типа строковый тип данных; нажать [Далее];
Øзапустить процесс импорта кнопкой [Пуск]; нажать [Далее], [Далее] и
[Готово].
Рисунок 6 – Вид окна импорта текстового файла
Øаналогичным образом последовательно один за другим выполнить им-
порт других текстовый файлов: Товары.txt, Сотрудники.txt и Заказы.txt; указать строковый тип данных для столбцовКодТовара, КодТипа, КодСотрудника,
КодЗаказа, Индекс;
Øпроверить на дереве сценариев наличие четырех узлов импорта;
Øпросмотреть импортированные данные и при необходимости отредак-
тировать; в случае наличия в столбцеКодТовара импортированного файла За-
12
казы содержатся нулевые (пустые) значения, выполнить фильтрацию данных с помощью Мастера обработки;
2 Загрузить данные в хранилище.
Последовательность выполнения задания:
Øперейти в режимПодключение и убедиться, что хранилище данных существует; Иначе использовать Мастер подключений;
Рисунок 7 – Вид программного окна в режиме Подключение
Øперейти в режим Сценарии;
Øустановить курсор на первый узел дерева сценариев и вызвать
Мастер Экспорта;
Øвыбрать тип приемника: Deductor Warehouse; нажать [Далее];
Øиз списка доступных хранилищ выбратьЗаказы Борей; нажать [Да-
лее];
Øдля загрузки данных в первое измерение указать его имя: КодТипа;
нажать [Далее];
Øвыбрать КодТипа; убедиться, что объекту соответствует поле из ис-
точника и нажать [Далее];
Рисунок 8 – Загрузка данных в хранилище
Øнажать кнопки [Пуск], [Далее], [Далее] и [Готово];
13
Øвыполнить аналогичные действия для измеренийКодТовара и Код-
Сотрудника;
Øзагрузить данные в процессЗаказы, действия аналогичны (объектом хранилища является процесс Заказы);
Øвыбрать объект Дата для удаления данных из хранилища, определе-
ние параметров загрузки данных в хранилище оставить настройки по умолча-
нию;
Øустановить варианты агрегации атрибутов и фактов: для факта Коли-
чество – сумма; для факта Скидка – среднее;
Рисунок 9– Фрагмент окна установления агрегации фактов
Øсохранить файл сценария под именем zak.ded. 3 Извлечь информацию из хранилища данных.
Последовательность выполнения задания
Øвызвать Мастер импорта;
Øвыбрать тип источника данных: Deductor Warehouse и нажать [Далее];
Øиз списка доступных хранилищ выбратьЗаказы Борей; нажать [Да-
лее];
Øуказать имя процесса: Заказы; нажать [Далее];
Øзадать все измерения, атрибуты и факты для импорта; нажать [Далее];
14
Рисунок 10 – Фрагмент окна задания измерения, атрибуты и факты для импорта
Øнажать кнопку [Пуск] и [Далее];
Øопределить способ отображения данных(можно оставить настройки по умолчанию); нажать [Далее] и [Готово].
1.2 Анализ данных
Цель работы. Ознакомиться с основными приемами анализа данных,
используемыми в Deductor Studio.
Теоретическая часть
Deductor Studio является аналитическим ядром платформыDeductor.
Данное приложение содержит набор механизмов импорта, обработки, визуали-
зации и экспорта данных для быстрого и эффективного анализа информации.
В Deductor Studio включен полный цикл механизмов, позволяющих по-
лучать информацию из различных источников данных, производить весь цикл обработки (очистка, трансформация данных, построение моделей), отображать полученные результаты наиболее удобным способом(OLAP, таблицы, диа-
граммы, деревья решений и пр.) и экспортировать данные.
Работа по анализу данных базируется на выполнении следующих дейст-
вий:
·
Импорт данных;
15
·
Обработка данных;
·
Визуализация;
·
Экспорт данных.
Рисунок 11 – Работа аналитического приложения Deductor Studio
Отправной точкой для анализа всегда является процедура импорта дан-
ных. Полученный набор данных может быть обработан любым доступным спо-
собом. Результатом обработки также является набор данных, который в свою очередь опять может быть обработан. Результаты обработки можно просмот-
реть множеством способов и экспортировать в наиболее популярные форматы.
Последовательность действий, которые необходимо провести для анали-
за данных, является сценарием, который можно автоматически выполнять на любых данных.
Сценарий представляет собой иерархическую последовательность об-
работки и визуализации набора данных, представленную в виде дерева.
В дереве каждая операция образует узел, заголовок которого содержит имя источника данных, наименование применяемого алгоритма обработки, ис-
пользуемые при этом поля и т.д. Кроме этого, слева от наименования узла стоит
16
значок, соответствующий типу операции или типу выборки данных, имеющих место в узле. Чтобы применить к узлу новый этап обработки или экспорта,
нужно выделить его и запустить соответствующий Мастер. При этом будет об-
разован подчиненный узел.
Если узел имеет подчиненные узлы, то слева от его названия будет рас-
положен значок "+", щелчок по которому позволит развернуть узел, т.е. сделать видимыми все его подчиненные узлы, при этом значок "+" поменяется на "-".
Щелчок по значку "-" сворачивает все подчиненные узлы.
Главным узлом является узел "Сценарии", который отображается всегда.
Щелчок по значку "-" слева от него сворачивает все дерево сценариев (скрывает все узлы и подузлы).
Сценарий начинается с импорта данных из произвольного источника.
После импорта может следовать произвольное число обработчиков любой глу-
бины и сложности. Каждой операции обработки соответствует отдельный узел дерева.
Рисунок 12 – Пример сценария в Deductor
Обработка данных в аналитической платформе Deductor включает в себя различные манипуляции над набором данных.
17
Визуализация - это отображение импортированных и обработанных дан-
ных. Визуализировать можно любой объект в сценарии обработки. Программа самостоятельно анализирует, каким образом можно отобразить информацию, и
пользователь должен только выбрать нужный вариант.
Обработчики и визуализаторы Deductor
|
|
|
|
|
|
|
|
|
|
|
|
|
Очистка данных |
|
Трансформация данных |
|
Data Mining |
|
|
||||||
|
|
(Добыча данных) |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|||
· Редактирование ано- |
|
· Замена пустых |
значе- |
· |
Нейронные сети |
|
|
|||||
малий |
|
|
ний |
|
|
|
|
|
|
|
||
· Заполнение |
пропус- |
|
· Квантование значений |
· |
Линейная регрессия |
|
||||||
ков |
|
|
|
|
|
|
|
|
|
|
|
|
· Сглаживание |
|
|
· Табличная |
замена |
зна- |
· |
Автокорреляция |
|
|
|||
|
|
|
|
чений |
|
|
|
|
|
|
|
|
· Очистка от шумов |
|
· Скользящее окно |
|
· |
Прогнозирование |
|
|
|||||
· Обнаружение |
дубли- |
|
· Преобразование даты |
· |
Деревья решений |
|
|
|||||
катов и противоречий |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
· Группировка |
|
|
· |
Самоорганизующиеся |
|
|||
|
|
|
|
|
|
|
|
карты |
|
|
||
|
|
|
|
· Разгруппировка |
|
· |
Ассоциативные |
прави- |
|
|||
|
|
|
|
|
|
|
|
ла |
|
|
||
|
|
|
|
· Понижение |
размерно- |
· |
Пользовательская |
мо- |
|
|||
|
|
|
|
сти |
|
|
дель |
|
|
|||
|
|
|
|
· Устранение незначащих |
· |
Скрипты |
|
|
||||
|
|
|
|
факторов |
|
|
|
|
|
|
|
|
Рисунок 13Классификация обработчиков и визуализаторов в Deductor
Таблица 1 Описание обработчиков и визуализаторов в Deductor
Пикто-
Наименование Описание
грамма
|
Очистка данных |
||
|
|
|
|
|
Парциальная обработка |
Восстановление, сглаживание и редак- |
|
|
|
тирование аномальных данных |
|
|
Факторный анализ |
Понижение размерности входных фак- |
|
|
|
торов |
|
|
Корреляционный анализ |
Устранение незначащих факторов |
|
|
|
|
|
|
Дубликаты и противоречия |
Выявление дубликатов и противоречи- |
|
|
|
вых записей в исходном наборе данных |
|
|
Фильтрация |
Фильтрация записей выборки по задан- |
|
|
|
|
|
18
Пикто- |
Наименование |
Описание |
|
|
|
|
грамма |
|
|
|
|||
|
|
|
|
|
|
|
|
|
ным условиям |
|
|
|
|
|
Трансформация данных |
|
|
|
|
|
|
Настройка набора данных |
Настройку параметров полей |
|
|
||
|
|
|
|
|
|
|
|
Скользящее окно |
Преобразование |
данных |
методом |
||
|
|
скользящего окна |
|
|
|
|
|
Дата и время |
Обработка данных в формате"дата" и |
|
|||
|
|
"время |
|
|
|
|
|
Квантование |
Квантование значений выборки |
|
|
||
|
Сортировка |
Сортировка записей в исходной выбор- |
|
|||
|
|
ке данных |
|
|
|
|
|
Слияние |
Объединение данных из двух таблиц |
|
|||
|
|
|
|
|||
|
Замена |
Замена значений по таблице подстанов- |
||||
|
|
ки |
|
|
|
|
|
Группировка |
Группировка данных |
|
|
|
|
|
|
|
|
|
|
|
|
Разгруппировка |
Восстановление |
выборки, |
к |
которой |
|
|
|
была применена операция группировки |
||||
|
Data Mining ( |
Добыча данных) |
|
|
|
|
|
|
|
|
|||
|
Прогнозирование |
Прогнозирование динамического ряда |
||||
|
|
|
|
|||
|
Автокорреляция |
Выполняет автокорреляционный анализ |
||||
|
|
данных |
|
|
|
|
|
Линейная регрессия |
Построение модели данных в виде на- |
|
|||
|
|
бора коэффициентов линейного преоб- |
||||
|
|
разования |
|
|
|
|
|
Логистическая регрессия |
Построение бинарной |
логистической |
|
||
|
|
регрессионной модели |
|
|
|
|
|
Нейросеть |
Обработко данных с помощью много- |
|
|||
|
|
слойной нейронной сети |
|
|
|
|
|
Дерево решений |
Обработка данных с помощью деревьев |
|
|||
|
|
решений |
|
|
|
|
|
Самоорганизующаяся карта |
Кластеризация |
данных |
|
|
|
|
|
|
|
|||
|
Ассоциативные правила |
Обнаружение зависимостей между свя- |
||||
|
|
занными событиями |
|
|
|
|
|
Пользовательская модель |
Задание модели вручную по формулам |
|
|||
|
|
|
|
|||
|
Скрипт |
Применение модели к новым данным |
||||
|
|
|
|
|
|
|
Очистка и трансформация данных являются предварительными обра-
ботчиками для непосредственного анализа данных
19
Очистка данных необходима для устранения ошибок, погрешностей,
имеющихся в исходных данных. Очищенные данные содержат наиболее цен-
ную для анализа информацию, из которой исключены противоречивые и дуб-
лирующиеся данные, устранены аномальные выбросы и шумы. Во многих слу-
чаях достаточно провести только очистку данных и выводы будут очевидны.
Кроме того, очистка данных позволяет получить лучшие результаты при -ис пользовании в дальнейшем любых методов построения моделей.
Парциальная обработка служит для восстановления пропущенных данных, редактирования аномальных значений и сглаживания данных.
Факторный анализ служит для выбора входных факторов путем указа-
ния необходимого порога значимости.
Корреляционный анализ применяется для оценки зависимости выход-
ных полей данных от входных факторов и устранения незначащих факторов.
Дубликаты и противоречия Противоречивыми являются группы запи-
сей, в которых содержатся строки с одинаковыми входными факторами, но раз-
ными выходными. В такой ситуации непонятно, какое результирующее значе-
ние верно. Противоречивые данные исключаются.
Дубликаты – это записи с одинаковыми входными и выходными данны-
ми. Такие данные приводят к избыточности, поэтому дублирующая информа-
ция исключается.
Трансформация данных
Разбиение данных служит для анализа всевозможных временных -ин тервалов на основе имеющейся информации о дате и времени.
Квантирование (дискретизация) предназначено для преобразования непрерывных данных в дискретные. Преобразование может происходить как по интервалам, так и по квантилям(данные разбиваются на интервалы разной длины, но с одинаковым количеством записей).
Настройка набора данныхприменяется для изменения имени, метки,
типа, размера, вида и назначения полей текущей таблицы данных.
20
