Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Поволжский государственный университет телекоммуникаций и информатики

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ИИС ЛР 3-12

.pdf

Скачиваний:

Добавлен:

10.06.2015

Размер:

2.82 Mб

Скачать

☆

<<< < Предыдущая 12 / 82 3 4 5 6 7 8 > Следующая >>>

Øвыполнить аналогичные действия для создания остальных измерений:

КодТовара, КодСотрудника, Дата; для измерения Дата указать тип данных –

Дата/Время;

Øдобавить (перед нажатием кнопки[Добавить] установить курсор на узел Атрибуты) измерению КодТипа атрибут Категория, измерению КодТо-

вара – атрибут Марка, измерению КодСотрудника – два атрибута: Фамилия и Имя;

Øсоздать для измерения КодТовара ссылку на измерениеКодТипа, ус-

тановив курсор на узел Измерения в измерении КодТовара, нажав кнопку [До-

бавить] и выбрав имя КодТипа;

Рисунок 5 – Вид окна редактора метаданных

Øсформировать процесс Заказы, установив курсор на узелПроцесс и

нажав кнопку [Добавить]; назначить процессу имя: Zak и метку: Заказы;

Øдобавить в процесс ссылки на измеренияКодТовара, КодСотрудника,

Дата;

Øсоздать для процесса атрибут: Номер заказа; назначить ему имя: Nomer и метку: Номер.

Øсоздать два факта: Количество, Скидка; назначить им имена: Kol, Skid

и метки: Количество, Скидка;

Øзакрыть окно редактора метаданных.

Тема 2 Наполнение хранилища данных

Задания

1 Импортировать текстовые файлы.

Последовательность выполнения задания:

Ø перейти на панель Сценарии и вызвать Мастер им-

порта;

Øвыбрать тип внешнего источника (Text). Нажать [Далее];

Øуказать в личной папке имя текстового файла для импорта(например Типы.txt);

Øуказать, что символом разделителем является точка с запятой(;); на-

жать [Далее] и еще раз [Далее];

Øуказать для столбца Код Типа строковый тип данных; нажать [Далее];

Øзапустить процесс импорта кнопкой [Пуск]; нажать [Далее], [Далее] и

[Готово].

Рисунок 6 – Вид окна импорта текстового файла

Øаналогичным образом последовательно один за другим выполнить им-

порт других текстовый файлов: Товары.txt, Сотрудники.txt и Заказы.txt; указать строковый тип данных для столбцовКодТовара, КодТипа, КодСотрудника,

КодЗаказа, Индекс;

Øпроверить на дереве сценариев наличие четырех узлов импорта;

Øпросмотреть импортированные данные и при необходимости отредак-

тировать; в случае наличия в столбцеКодТовара импортированного файла За-

казы содержатся нулевые (пустые) значения, выполнить фильтрацию данных с помощью Мастера обработки;

2 Загрузить данные в хранилище.

Последовательность выполнения задания:

Øперейти в режимПодключение и убедиться, что хранилище данных существует; Иначе использовать Мастер подключений;

Рисунок 7 – Вид программного окна в режиме Подключение

Øперейти в режим Сценарии;

Øустановить курсор на первый узел дерева сценариев и вызвать

Мастер Экспорта;

Øвыбрать тип приемника: Deductor Warehouse; нажать [Далее];

Øиз списка доступных хранилищ выбратьЗаказы Борей; нажать [Да-

лее];

Øдля загрузки данных в первое измерение указать его имя: КодТипа;

нажать [Далее];

Øвыбрать КодТипа; убедиться, что объекту соответствует поле из ис-

точника и нажать [Далее];

Рисунок 8 – Загрузка данных в хранилище

Øнажать кнопки [Пуск], [Далее], [Далее] и [Готово];

Øвыполнить аналогичные действия для измеренийКодТовара и Код-

Сотрудника;

Øзагрузить данные в процессЗаказы, действия аналогичны (объектом хранилища является процесс Заказы);

Øвыбрать объект Дата для удаления данных из хранилища, определе-

ние параметров загрузки данных в хранилище оставить настройки по умолча-

нию;

Øустановить варианты агрегации атрибутов и фактов: для факта Коли-

чество – сумма; для факта Скидка – среднее;

Рисунок 9– Фрагмент окна установления агрегации фактов

Øсохранить файл сценария под именем zak.ded. 3 Извлечь информацию из хранилища данных.

Последовательность выполнения задания

Øвызвать Мастер импорта;

Øвыбрать тип источника данных: Deductor Warehouse и нажать [Далее];

Øиз списка доступных хранилищ выбратьЗаказы Борей; нажать [Да-

лее];

Øуказать имя процесса: Заказы; нажать [Далее];

Øзадать все измерения, атрибуты и факты для импорта; нажать [Далее];

Рисунок 10 – Фрагмент окна задания измерения, атрибуты и факты для импорта

Øнажать кнопку [Пуск] и [Далее];

Øопределить способ отображения данных(можно оставить настройки по умолчанию); нажать [Далее] и [Готово].

1.2 Анализ данных

Цель работы. Ознакомиться с основными приемами анализа данных,

используемыми в Deductor Studio.

Теоретическая часть

Deductor Studio является аналитическим ядром платформыDeductor.

Данное приложение содержит набор механизмов импорта, обработки, визуали-

зации и экспорта данных для быстрого и эффективного анализа информации.

В Deductor Studio включен полный цикл механизмов, позволяющих по-

лучать информацию из различных источников данных, производить весь цикл обработки (очистка, трансформация данных, построение моделей), отображать полученные результаты наиболее удобным способом(OLAP, таблицы, диа-

граммы, деревья решений и пр.) и экспортировать данные.

Работа по анализу данных базируется на выполнении следующих дейст-

вий:

· Импорт данных;

· Обработка данных;

· Визуализация;

· Экспорт данных.

Рисунок 11 – Работа аналитического приложения Deductor Studio

Отправной точкой для анализа всегда является процедура импорта дан-

ных. Полученный набор данных может быть обработан любым доступным спо-

собом. Результатом обработки также является набор данных, который в свою очередь опять может быть обработан. Результаты обработки можно просмот-

реть множеством способов и экспортировать в наиболее популярные форматы.

Последовательность действий, которые необходимо провести для анали-

за данных, является сценарием, который можно автоматически выполнять на любых данных.

Сценарий представляет собой иерархическую последовательность об-

работки и визуализации набора данных, представленную в виде дерева.

В дереве каждая операция образует узел, заголовок которого содержит имя источника данных, наименование применяемого алгоритма обработки, ис-

пользуемые при этом поля и т.д. Кроме этого, слева от наименования узла стоит

значок, соответствующий типу операции или типу выборки данных, имеющих место в узле. Чтобы применить к узлу новый этап обработки или экспорта,

нужно выделить его и запустить соответствующий Мастер. При этом будет об-

разован подчиненный узел.

Если узел имеет подчиненные узлы, то слева от его названия будет рас-

положен значок "+", щелчок по которому позволит развернуть узел, т.е. сделать видимыми все его подчиненные узлы, при этом значок "+" поменяется на "-".

Щелчок по значку "-" сворачивает все подчиненные узлы.

Главным узлом является узел "Сценарии", который отображается всегда.

Щелчок по значку "-" слева от него сворачивает все дерево сценариев (скрывает все узлы и подузлы).

Сценарий начинается с импорта данных из произвольного источника.

После импорта может следовать произвольное число обработчиков любой глу-

бины и сложности. Каждой операции обработки соответствует отдельный узел дерева.

Рисунок 12 – Пример сценария в Deductor

Обработка данных в аналитической платформе Deductor включает в себя различные манипуляции над набором данных.

Визуализация - это отображение импортированных и обработанных дан-

ных. Визуализировать можно любой объект в сценарии обработки. Программа самостоятельно анализирует, каким образом можно отобразить информацию, и

пользователь должен только выбрать нужный вариант.

Обработчики и визуализаторы Deductor

Очистка данных

Трансформация данных

Data Mining

(Добыча данных)

· Редактирование ано-

· Замена пустых

значе-

Нейронные сети

малий

ний

· Заполнение

пропус-

· Квантование значений

Линейная регрессия

ков

· Сглаживание

· Табличная

замена

зна-

Автокорреляция

чений

· Очистка от шумов

· Скользящее окно

Прогнозирование

· Обнаружение

дубли-

· Преобразование даты

Деревья решений

катов и противоречий

· Группировка

Самоорганизующиеся

карты

· Разгруппировка

Ассоциативные

прави-

ла

· Понижение

размерно-

Пользовательская

мо-

сти

дель

· Устранение незначащих

Скрипты

факторов

Рисунок 13Классификация обработчиков и визуализаторов в Deductor

Таблица 1 Описание обработчиков и визуализаторов в Deductor

Пикто-

Наименование Описание

грамма

	Очистка данных

	Парциальная обработка	Восстановление, сглаживание и редак-
		тирование аномальных данных
	Факторный анализ	Понижение размерности входных фак-
		торов
	Корреляционный анализ	Устранение незначащих факторов

	Дубликаты и противоречия	Выявление дубликатов и противоречи-
		вых записей в исходном наборе данных
	Фильтрация	Фильтрация записей выборки по задан-

Пикто-	Наименование	Описание
грамма	Наименование	Описание
грамма
		ным условиям
	Трансформация данных
	Настройка набора данных	Настройку параметров полей

	Скользящее окно	Преобразование	данных		методом
		скользящего окна
	Дата и время	Обработка данных в формате"дата" и
		"время
	Квантование	Квантование значений выборки
	Сортировка	Сортировка записей в исходной выбор-
		ке данных
	Слияние	Объединение данных из двух таблиц

	Замена	Замена значений по таблице подстанов-
		ки
	Группировка	Группировка данных

	Разгруппировка	Восстановление	выборки,	к	которой
		была применена операция группировки
	Data Mining (	Добыча данных)

	Прогнозирование	Прогнозирование динамического ряда

	Автокорреляция	Выполняет автокорреляционный анализ
		данных
	Линейная регрессия	Построение модели данных в виде на-
		бора коэффициентов линейного преоб-
		разования
	Логистическая регрессия	Построение бинарной		логистической
		регрессионной модели
	Нейросеть	Обработко данных с помощью много-
		слойной нейронной сети
	Дерево решений	Обработка данных с помощью деревьев
		решений
	Самоорганизующаяся карта	Кластеризация	данных

	Ассоциативные правила	Обнаружение зависимостей между свя-
		занными событиями
	Пользовательская модель	Задание модели вручную по формулам

	Скрипт	Применение модели к новым данным

Очистка и трансформация данных являются предварительными обра-

ботчиками для непосредственного анализа данных

Очистка данных необходима для устранения ошибок, погрешностей,

имеющихся в исходных данных. Очищенные данные содержат наиболее цен-

ную для анализа информацию, из которой исключены противоречивые и дуб-

лирующиеся данные, устранены аномальные выбросы и шумы. Во многих слу-

чаях достаточно провести только очистку данных и выводы будут очевидны.

Кроме того, очистка данных позволяет получить лучшие результаты при -ис пользовании в дальнейшем любых методов построения моделей.

Парциальная обработка служит для восстановления пропущенных данных, редактирования аномальных значений и сглаживания данных.

Факторный анализ служит для выбора входных факторов путем указа-

ния необходимого порога значимости.

Корреляционный анализ применяется для оценки зависимости выход-

ных полей данных от входных факторов и устранения незначащих факторов.

Дубликаты и противоречия Противоречивыми являются группы запи-

сей, в которых содержатся строки с одинаковыми входными факторами, но раз-

ными выходными. В такой ситуации непонятно, какое результирующее значе-

ние верно. Противоречивые данные исключаются.

Дубликаты – это записи с одинаковыми входными и выходными данны-

ми. Такие данные приводят к избыточности, поэтому дублирующая информа-

ция исключается.

Трансформация данных

Разбиение данных служит для анализа всевозможных временных -ин тервалов на основе имеющейся информации о дате и времени.

Квантирование (дискретизация) предназначено для преобразования непрерывных данных в дискретные. Преобразование может происходить как по интервалам, так и по квантилям(данные разбиваются на интервалы разной длины, но с одинаковым количеством записей).

Настройка набора данныхприменяется для изменения имени, метки,

типа, размера, вида и назначения полей текущей таблицы данных.

<<< < Предыдущая 12 / 82 3 4 5 6 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025121.86 Кб1Защита информации.doc
#
01.05.202537.26 Кб0Защита от химических и биологических негативных...docx
#
20.09.20191.84 Mб132здесь есть ответы на дополнительные вопросы.doc
#
01.05.20191.69 Mб88ИБ лекция.doc
#
01.07.20259.14 Mб6ИГ учебное пособие.doc
#
10.06.20152.82 Mб59ИИС ЛР 3-12.pdf
#
01.04.20258.34 Mб7ИКГ_конспект лек..doc
#
01.04.20252.33 Mб6Илл-ТЭ2010.doc
#
10.06.20158.43 Mб28ИМ-ГультяевАК.pdf
#
10.06.2015205.89 Кб36импульсная помеха.pdf
#
10.06.201562.98 Кб116имэп ( ).doc