Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Архитектурно-Строительный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

8879

.pdf

Скачиваний:

Добавлен:

25.11.2023

Размер:

1.99 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 67 / 127 8 9 10 11 12 > Следующая >>>

Рис. 25. Задание вариантов обработки пропусков Параметры восстановления задаются на первом шаге Мастера. Для каждого

поля на выбор предлагается три варианта обработки пропусков (рис. 25). В нашем примере все поля с пропусками относятся к типу неупорядоченных. Остальные два шага Мастера пропустим, т.к. они относятся к очистке и сглаживанию временных рядов.

После выполнения обработчика в таблице можно убедиться, что значения восста-

новлены (рис. 26).

Рис. 26. Восстановленные значения

Алгоритм подставил наиболее вероятное значение (строится плотность рас-

пределения вероятностей, и отсутствующие данные заменяются значением, соответ-

ствующим ее максимуму).

Шаг 4 – выявление аномалий

Анализ визуализатора Статистика (минимальные и максимальные значения полей) позволил сделать вывод об отсутствии аномальных выбросов в данных файла

сотовые операторы.txt.

Перед выявлением аномалий полезно также изучить распределение данных

(гистограмму), и те поля, в которых оно нормальное, проанализировать на выбросы методом «сигм»: любые значения ряда, отличающиеся от среднего больше чем на три среднеквадратических отклонения, являются потенциальными аномалиями.

Потенциальные аномалии можно обнаружить и на графике, для чего исполь-

зуют визуализатор Диаграмма (для аномальных точек используют один цвет,

например, красный цвет, для не аномальных – белый).

Шаг 5 – фильтрация

Фильтрация в очистке и предобработке используется для получения очищен-

ной выборки после принятия решений о судьбе «грязных» записей и для вспомога-

тельных действий.

В рассматриваемом примере фильтрация использовалась для исключения дуб-

ликатов и противоречий (см. сценарий на рис. 2.17).

Шаг 6 – совокупная оценка качества

Всего записей: до очистки – 607, после очистки – 557, удалено 8,24%.

Выводы: в целом качество данных можно признать очень хорошим; проблемы, воз-

никшие с пропущенными и аномальными данными, были решены стандартными ме-

тодами.

Задания для раздела 2.

Задание 1. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных ВОДА. Все требуемые отчеты

должны быть вынесены на Панель отчетов.

1.Постройте отчет–диаграмму «Динамика показателя содержания ХПК (хи-

мическое потребление кислорода) в реке Ока», используя все имеющиеся данные.

Рис. 27. Временной ряд загрязнителя ХПК

2.Постройте отчет–гистограмму распределения показателя «ХПК» в реке Бе-

ленькая за последние 5 месяцев от имеющихся данных. Назовите отчет «Ги-

стограмма показателя ХПК»

Рис. 28. Гистограмма показателя ХПК

3.Постройте куб (и кросс-диаграмму) по двум измерениям Створ и Название загрязнителя, в ячейках которого указаны средние значения показателей,

имеющихся в ХД ВОДА. Определите, у какого загрязнителя наибольшее среднее значение. Назовите отчет «Средние значения загрязнителей»

Рис. 29. Отчет «Средние значения загрязнителей»

4.Из ХД ВОДА выгружена информация по экологическим показателям объек-

тов Нижегородской области (фрагмент данных в таблице).

Используя визуализатор OLAP-куб, требуется получить отчет в виде приведенной ниже таблицы (указан фрагмент).

Таблица

Дополнительно: требуется сделать преобразование (трансформацию) дан-

ных так, чтобы на выходе была указанная таблица. Какие обработчики нуж-

но использовать в сценарии для решения этой задачи?

5.Построить отчет-диаграмму «Индекс загрязнения воды (ИЗВ)» для всех рас-

сматриваемых водных объектов и сделать вывод, какой объект является са-

мым загрязненным.

Рис. 30. Отчет «ИЗВ»

Указание: Для составления данного отчета должна быть произведена фильтрация по каждому водному объекту и шести загрязнителям, относящимся к конкретному водному объекту. С помощью внешнего левого соединения для каждого водного объекта нужно составить таблицу, содержащую информацию о загрязнителях, их значениях и ПДК (предельно допустимая концентрация). Далее с помощью калькулятора в таблицу добавить поле «Отношение», которое вычисляется путем деления столбца «Значение загрязнителя» на столбец «ПДК». После вычисления данного столбца произвести группировку по измерениям

«Наименование объекта» и «Дата», а в качестве агрегации факта «Отношение» выбрать. Затем с помощью калькулятора в полученную таблицу добавить поле

«ИЗВ», которое вычисляется по формуле (2), и вывести диаграмму на панель отчетов.

	n		/	ПДК	i
ИЗВ	i 1Ci				i
ИЗВ		N
		N

Сi - концентрация компонента;

N – число показателей, используемых для расчета индекса;

ПДКi – установленная величина для соответствующего типа водного объекта.

6. Написать сценарий и получить отчет «Отношение к ПДК» (рис. 31).

Отчет представляет собой сводную таблицу, в которой представлено отно-

шение каждого загрязнителя к уровню его ПДК. Данные значения являются относи-

тельными, то есть не имеют единиц измерения, поэтому их можно использовать для корреляционного анализа.

Рис. 31. Отчет «Отношение к ПДК» (фрагмент)

Задание 2. Требуется разработать систему аналитической отчетности в Deductor на основе созданного ранее хранилища данных Регион. Все требуемые отчеты должны быть вынесены на Панель отчетов (рис. 32). При помощи операций транс-

понирование измерений, фильтрация и агрегирование фактов, сформировать отчеты и ответить на вопросы в заданиях.

Используемые обозначения основных социально-экономических показателей:

Показатель промышленность – объем произведенной продукции (работ,

услуг) в действующих ценах соответствующих лет по крупным и средним предприятиям, млн.руб.;

Показатель с/х – продукция сельского хозяйства в хозяйствах всех категорий

(в фактически действовавших ценах), тыс.руб.;

Показатель инвестиции – инвестиции в основной капитал крупных и средних предприятий, тыс.руб.;

Показатель зарплата – среднемесячная заработная плата работающих на крупных и средних предприятиях, руб.;

Показатель безработица – уровень официально зарегистрированной безработицы (в % от экономически активного населения);

Показатель доход – доходы бюджета, млн.руб.;

Показатель расход – расходы бюджета, млн.руб.

Рис. 32. Отчеты по данным ХД Регион

1. Сформировать многомерные отчеты и соответствующие им кросс-

диаграммы для показателя промышленность, в которых будут указаны 5

лучших районов по объем произведенной продукции, 5 худших и районы,

дающие 50% от общего объема произведенной продукции в Нижегород-

ском регионе.

Последовательность выполнения задания

1)Подключить ХД Регион, извлечь имеющуюся там информацию и от-

корректировать названия полей, используя обработчик Настройка набора данных.

2)Запустить мастер визуализации и указать способ отображения дан-

ных в виде куба.

3)Произвести настройку назначений полей куба: измерения – дата

(размещаем в строки), код_региона-название (размещаем в колонки),

код региона – информационный, остальные поля – факты (с агрегаци-

ей – сумма).

4)В полученной кросс-таблице осуществить фильтрацию, выбрав факт промышленность, измерение код_региона-название и

а) условие «Первые N», значение «5»;

б) условие «Последние N», значение «5»;

в) условие «Доля от общего», значение «50».

2.Сформировать многомерные отчеты и соответствующие им кросс-

диаграммы для показателя с/х, в которых будут указаны 5 лучших районов по уровню с/х, 5 худших.

3.Определить первые 5 районов по инвестициям и 5 последних.

4.Определить районы с самым высоким и самым низким уровнем безработицы.

5.Определить районы с самым высоким и самым низким уровнем зарплаты.

6.Определить 5 самых доходных районов, 5 районов с самым низким уровнем доходов и районы, дающие 80% дохода бюджета всего Нижегородского региона.

7.Определить районы с наибольшим и наименьшим расходом бюджета.

Задание для раздела 3.

Пример построения классифицирующего дерева решений для оценки не-

движимости в аналитической платформе Deductor Studio Academic.

Рассмотрим построение модели классификации, относящей объекты недвижимости на основе их признаков к одному из трех классов «дорогие, средние, дешевые квартиры».

Таблица. Входные атрибуты, влияющие на оценку жилья.

№	Наименование	Описание	Тип значений


1	2	3	4


1	№ п/п	номер по порядку	целый


2	Адрес	название улицы	строковый


3	Общая площадь	общая площадь квартиры, кв. м	вещественный


		68

4	Кухня	площадь кухни, кв. м			вещественный
	Кухня	площадь кухни, кв. м			вещественный

5	Жилая площадь	жилая площадь, кв. м			вещественный
	Жилая площадь	жилая площадь, кв. м			вещественный

6	Остальная	остальная площадь, кв. м			вещественный
6	площадь


		материал стен дома:
			кирпич – 4
7	Стены		монолитный – 3		целый
7

			панельный- 2
		шлакоблочный – 1

		этаж дома:
8	Этаж	первый/последний - 0			целый
8

			остальные - 1

		наличие балкона:
			лоджия - 2
9	Балкон		простой - 1		целый
	Балкон		простой - 1		целый
			нет – 0

				окончание таблицы 7
1	2		3		4
	2		3		4

		наличие санузла:
10	Санузел		раздельный - 1		целый
10

			совмещенный – 0

		наличие телефона:
11	Телефон		есть -1		целый
11

			нет – 0

		Оценка состояния помещения:
			нежилое - 0
			без отделки - 1
12	Состояние		удовлетворительное -2		целый
	Состояние		удовлетворительное -2		целый
			хорошее- 3
			отличное – 4

			69

Шаг 1. Загрузка данных и проверка их качества определяется с помощью ви-

зуализаторов Статистика и различных диаграмм.

Шаг 2. Очистка данных, используя следующие обработчики:

Парциальная обработка – восстановление, редактирование,

сглаживание данных;

Факторный анализ – понижение размерности входных

факторов;

Корреляционный анализ – устранение незначащих факторов;

Дубликаты и противоречия – выявление дубликатов и противоречий;

Фильтрация – фильтрация строк таблицы по условию.

Шаг 3. Трансформация данных (так как обработчик Дерево решений работает только с дискретными значениями): преобразование выходного поля «цена 1 кв. м»

из непрерывного в дискретный тип, используя обработчик Квантование.

Квантование – это процесс, в результате которого происходит распределение значений непрерывных данных по конечному числу интервалов заданной длины.

Для разбиения нужно настроить следующие параметры квантования:

Способ – выбираем из списка способ квантования по квантилям, чтобы в каждый из квантильных интервалов попадало одинаковое количество квартир.

Интервал – указываем количество интервалов, на которое будет разбит диапазон исходных данных. Разбиваем на три интервала, так как в необходимо все объекты недвижимости разбить на 3 класса.

Значение – указываем 3 интервала, например: от 51111,11 до 60000 рублей;

от 60000 до 62857,15 рублей; от 62857,15 до75000 рублей.

Шаг 4. Применяя обработчик «Замена значений», по таблице подстановок присваиваем интервалам, полученным на предыдущем шаге метки <Дешевая квартира>, <Средняя квартира>, <Дорогая квартира>.

Шаг 5. Строим модель классификации объектов недвижимости, используя об-

работчик Дерево решений:

<<< < Предыдущая 1 2 3 4 5 67 / 127 8 9 10 11 12 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.11.20231.99 Mб08874.pdf
#
25.11.20231.99 Mб08875.pdf
#
25.11.20231.99 Mб18876.pdf
#
25.11.20231.99 Mб08877.pdf
#
25.11.20231.99 Mб08878.pdf
#
25.11.20231.99 Mб58879.pdf
#
21.11.2023159.55 Кб0888.pdf
#
25.11.20231.99 Mб08880.pdf
#
25.11.20231.99 Mб08881.pdf
#
25.11.20231.99 Mб08882.pdf
#
25.11.20231.99 Mб08883.pdf