Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8879

.pdf
Скачиваний:
5
Добавлен:
25.11.2023
Размер:
1.99 Mб
Скачать

Рис. 25. Задание вариантов обработки пропусков Параметры восстановления задаются на первом шаге Мастера. Для каждого

поля на выбор предлагается три варианта обработки пропусков (рис. 25). В нашем примере все поля с пропусками относятся к типу неупорядоченных. Остальные два шага Мастера пропустим, т.к. они относятся к очистке и сглаживанию временных рядов.

После выполнения обработчика в таблице можно убедиться, что значения восста-

новлены (рис. 26).

Рис. 26. Восстановленные значения

61

Алгоритм подставил наиболее вероятное значение (строится плотность рас-

пределения вероятностей, и отсутствующие данные заменяются значением, соответ-

ствующим ее максимуму).

Шаг 4 – выявление аномалий

Анализ визуализатора Статистика (минимальные и максимальные значения полей) позволил сделать вывод об отсутствии аномальных выбросов в данных файла

сотовые операторы.txt.

Перед выявлением аномалий полезно также изучить распределение данных

(гистограмму), и те поля, в которых оно нормальное, проанализировать на выбросы методом «сигм»: любые значения ряда, отличающиеся от среднего больше чем на три среднеквадратических отклонения, являются потенциальными аномалиями.

Потенциальные аномалии можно обнаружить и на графике, для чего исполь-

зуют визуализатор Диаграмма (для аномальных точек используют один цвет,

например, красный цвет, для не аномальных – белый).

Шаг 5 – фильтрация

Фильтрация в очистке и предобработке используется для получения очищен-

ной выборки после принятия решений о судьбе «грязных» записей и для вспомога-

тельных действий.

В рассматриваемом примере фильтрация использовалась для исключения дуб-

ликатов и противоречий (см. сценарий на рис. 2.17).

Шаг 6 – совокупная оценка качества

Всего записей: до очистки – 607, после очистки – 557, удалено 8,24%.

Выводы: в целом качество данных можно признать очень хорошим; проблемы, воз-

никшие с пропущенными и аномальными данными, были решены стандартными ме-

тодами.

Задания для раздела 2.

Задание 1. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных ВОДА. Все требуемые отчеты

62

должны быть вынесены на Панель отчетов.

1.Постройте отчет–диаграмму «Динамика показателя содержания ХПК (хи-

мическое потребление кислорода) в реке Ока», используя все имеющиеся данные.

Рис. 27. Временной ряд загрязнителя ХПК

2.Постройте отчет–гистограмму распределения показателя «ХПК» в реке Бе-

ленькая за последние 5 месяцев от имеющихся данных. Назовите отчет «Ги-

стограмма показателя ХПК»

Рис. 28. Гистограмма показателя ХПК

3.Постройте куб (и кросс-диаграмму) по двум измерениям Створ и Название загрязнителя, в ячейках которого указаны средние значения показателей,

имеющихся в ХД ВОДА. Определите, у какого загрязнителя наибольшее среднее значение. Назовите отчет «Средние значения загрязнителей»

63

Рис. 29. Отчет «Средние значения загрязнителей»

4.Из ХД ВОДА выгружена информация по экологическим показателям объек-

тов Нижегородской области (фрагмент данных в таблице).

Используя визуализатор OLAP-куб, требуется получить отчет в виде приведенной ниже таблицы (указан фрагмент).

Таблица

Дополнительно: требуется сделать преобразование (трансформацию) дан-

ных так, чтобы на выходе была указанная таблица. Какие обработчики нуж-

но использовать в сценарии для решения этой задачи?

64

5.Построить отчет-диаграмму «Индекс загрязнения воды (ИЗВ)» для всех рас-

сматриваемых водных объектов и сделать вывод, какой объект является са-

мым загрязненным.

Рис. 30. Отчет «ИЗВ»

Указание: Для составления данного отчета должна быть произведена фильтрация по каждому водному объекту и шести загрязнителям, относящимся к конкретному водному объекту. С помощью внешнего левого соединения для каждого водного объекта нужно составить таблицу, содержащую информацию о загрязнителях, их значениях и ПДК (предельно допустимая концентрация). Далее с помощью калькулятора в таблицу добавить поле «Отношение», которое вычисляется путем деления столбца «Значение загрязнителя» на столбец «ПДК». После вычисления данного столбца произвести группировку по измерениям

«Наименование объекта» и «Дата», а в качестве агрегации факта «Отношение» выбрать. Затем с помощью калькулятора в полученную таблицу добавить поле

«ИЗВ», которое вычисляется по формуле (2), и вывести диаграмму на панель отчетов.

 

n

 

/

ПДК

i

ИЗВ

i 1Ci

 

 

 

N

 

 

 

 

 

 

Сi - концентрация компонента;

N – число показателей, используемых для расчета индекса;

ПДКi – установленная величина для соответствующего типа водного объекта.

65

6. Написать сценарий и получить отчет «Отношение к ПДК» (рис. 31).

Отчет представляет собой сводную таблицу, в которой представлено отно-

шение каждого загрязнителя к уровню его ПДК. Данные значения являются относи-

тельными, то есть не имеют единиц измерения, поэтому их можно использовать для корреляционного анализа.

Рис. 31. Отчет «Отношение к ПДК» (фрагмент)

Задание 2. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных Регион. Все требуемые отчеты должны быть вынесены на Панель отчетов (рис. 32). При помощи операций транс-

понирование измерений, фильтрация и агрегирование фактов, сформировать отчеты и ответить на вопросы в заданиях.

Используемые обозначения основных социально-экономических показателей:

Показатель промышленность – объем произведенной продукции (работ,

услуг) в действующих ценах соответствующих лет по крупным и средним предприятиям, млн.руб.;

Показатель с/х – продукция сельского хозяйства в хозяйствах всех категорий

(в фактически действовавших ценах), тыс.руб.;

Показатель инвестиции – инвестиции в основной капитал крупных и средних предприятий, тыс.руб.;

Показатель зарплата – среднемесячная заработная плата работающих на крупных и средних предприятиях, руб.;

Показатель безработица – уровень официально зарегистрированной безработицы (в % от экономически активного населения);

Показатель доход – доходы бюджета, млн.руб.;

Показатель расход – расходы бюджета, млн.руб.

66

Рис. 32. Отчеты по данным ХД Регион

1. Сформировать многомерные отчеты и соответствующие им кросс-

диаграммы для показателя промышленность, в которых будут указаны 5

лучших районов по объем произведенной продукции, 5 худших и районы,

дающие 50% от общего объема произведенной продукции в Нижегород-

ском регионе.

Последовательность выполнения задания

1)Подключить ХД Регион, извлечь имеющуюся там информацию и от-

корректировать названия полей, используя обработчик Настройка набора данных.

2)Запустить мастер визуализации и указать способ отображения дан-

ных в виде куба.

3)Произвести настройку назначений полей куба: измерения – дата

(размещаем в строки), код_региона-название (размещаем в колонки),

код региона – информационный, остальные поля – факты (с агрегаци-

ей – сумма).

67

4)В полученной кросс-таблице осуществить фильтрацию, выбрав факт промышленность, измерение код_региона-название и

а) условие «Первые N», значение «5»;

б) условие «Последние N», значение «5»;

в) условие «Доля от общего», значение «50».

2.Сформировать многомерные отчеты и соответствующие им кросс-

диаграммы для показателя с/х, в которых будут указаны 5 лучших районов по уровню с/х, 5 худших.

3.Определить первые 5 районов по инвестициям и 5 последних.

4.Определить районы с самым высоким и самым низким уровнем безработицы.

5.Определить районы с самым высоким и самым низким уровнем зарплаты.

6.Определить 5 самых доходных районов, 5 районов с самым низким уровнем доходов и районы, дающие 80% дохода бюджета всего Нижегородского региона.

7.Определить районы с наибольшим и наименьшим расходом бюджета.

Задание для раздела 3.

Пример построения классифицирующего дерева решений для оценки не-

движимости в аналитической платформе Deductor Studio Academic.

Рассмотрим построение модели классификации, относящей объекты недвижимости на основе их признаков к одному из трех классов «дорогие, средние, дешевые квартиры».

Таблица. Входные атрибуты, влияющие на оценку жилья.

Наименование

Описание

Тип значений

 

 

 

 

 

1

2

3

4

 

 

 

 

 

1

№ п/п

номер по порядку

целый

 

 

 

 

 

2

Адрес

название улицы

строковый

 

 

 

 

 

3

Общая площадь

общая площадь квартиры, кв. м

вещественный

 

 

 

 

 

 

 

68

 

4

Кухня

площадь кухни, кв. м

 

вещественный

 

 

 

 

 

 

 

 

5

Жилая площадь

жилая площадь, кв. м

 

вещественный

 

 

 

 

 

 

 

 

6

Остальная

остальная площадь, кв. м

 

вещественный

площадь

 

 

 

 

 

 

 

 

 

 

материал стен дома:

 

 

 

 

 

кирпич – 4

 

 

7

Стены

 

монолитный – 3

 

целый

 

 

 

 

 

 

 

 

 

 

панельный- 2

 

 

 

 

шлакоблочный – 1

 

 

 

 

 

 

 

 

 

этаж дома:

 

 

8

Этаж

первый/последний - 0

 

целый

 

 

 

 

 

 

 

 

 

 

остальные - 1

 

 

 

 

 

 

 

 

 

наличие балкона:

 

 

 

 

 

лоджия - 2

 

 

9

Балкон

 

простой - 1

 

целый

 

 

 

 

 

нет – 0

 

 

 

 

 

 

 

 

 

 

 

 

окончание таблицы 7

1

2

 

3

 

4

 

 

 

 

 

 

 

 

 

 

наличие санузла:

 

 

10

Санузел

 

раздельный - 1

 

целый

 

 

 

 

 

 

 

 

 

 

совмещенный – 0

 

 

 

 

 

 

 

 

 

наличие телефона:

 

 

11

Телефон

 

есть -1

 

целый

 

 

 

 

 

 

 

 

 

 

нет – 0

 

 

 

 

 

 

 

 

 

Оценка состояния помещения:

 

 

 

 

 

нежилое - 0

 

 

 

 

 

без отделки - 1

 

 

12

Состояние

 

удовлетворительное -2

 

целый

 

 

 

 

 

хорошее- 3

 

 

 

 

 

отличное – 4

 

 

 

 

 

 

 

 

 

 

 

69

 

 

Шаг 1. Загрузка данных и проверка их качества определяется с помощью ви-

зуализаторов Статистика и различных диаграмм.

Шаг 2. Очистка данных, используя следующие обработчики:

Парциальная обработка – восстановление, редактирование,

сглаживание данных;

Факторный анализ – понижение размерности входных

факторов;

Корреляционный анализ – устранение незначащих факторов;

Дубликаты и противоречия – выявление дубликатов и противоречий;

Фильтрация – фильтрация строк таблицы по условию.

Шаг 3. Трансформация данных (так как обработчик Дерево решений работает только с дискретными значениями): преобразование выходного поля «цена 1 кв. м»

из непрерывного в дискретный тип, используя обработчик Квантование.

Квантование – это процесс, в результате которого происходит распределение значений непрерывных данных по конечному числу интервалов заданной длины.

Для разбиения нужно настроить следующие параметры квантования:

Способ – выбираем из списка способ квантования по квантилям, чтобы в каждый из квантильных интервалов попадало одинаковое количество квартир.

Интервал – указываем количество интервалов, на которое будет разбит диапазон исходных данных. Разбиваем на три интервала, так как в необходимо все объекты недвижимости разбить на 3 класса.

Значение – указываем 3 интервала, например: от 51111,11 до 60000 рублей;

от 60000 до 62857,15 рублей; от 62857,15 до75000 рублей.

Шаг 4. Применяя обработчик «Замена значений», по таблице подстановок присваиваем интервалам, полученным на предыдущем шаге метки <Дешевая квартира>, <Средняя квартира>, <Дорогая квартира>.

Шаг 5. Строим модель классификации объектов недвижимости, используя об-

работчик Дерево решений:

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]