Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
13.67 Mб
Скачать

Группировка данных

Собранный в процессе статистического наблюдения материал нуждается в определенной обработке для принятия решения. Необходима сводная информация по различным разрезам. В Deductor имеется соответствующий инструмент, позволяющий осуществлять сбор сводной информации – «Группировка». Данный инструмент дает возможность объединить записи по полям – измерениям и агрегировать данные в полях – фактах для дальнейшего анализа.

Предположим, аналитик располагает информацией о статистике банков России за определенный период. Необходимо выявить города, в которых прибыль банков самая большая. Для этого нужно определить суммарную прибыль всех банков в каждом городе, используя инструмент группировку.

Данные для обработки содержатся в файле «Banks.txt». После импорта данных из текстового файла просмотрим информацию в виде таблицы.

Выделив импортированный файл, запустим мастер обработки и выберем в качестве инструмента «Группировка». На втором шаге мастера определим в качестве измерения «Город», фактом укажем измерение «Прибыль», а все остальные поля определим как неиспользуемые. По полю «Прибыль» в качестве функции агрегации укажем «Сумму».

Для просмотра результата мастера обработки воспользуемся таблицей. После обработки получим необходимые данные по прибыли всех банков в каждом городе, которые можно использовать в дальнейшей работе аналитика.

Преобразование данных к скользящему окну

Если некоторый временной ряд можно спрогнозировать, т.е. налицо его сезонность (периодичность), то более достоверный результат можно получить, учитывая значение факторов не только в данный момент времени, но и за неделю назад, за месяц, за сезон. Трансформацию данных во времени можно получить с помощью скользящего окна.

После обработки будет получена выборка, где в каждой записи содержится поле, соответствующее текущему отсчету (с таким же именем, что и в исходной выборке), а слева и справа от него будут располагаться поля, смещенные от текущего отчета в прошлое и будущее соответственно. Следовательно, мастер обработки имеет два параметра: глубина погружения – количество погружения в «прошлое» и горизонт прогнозирование – количество отсчетов в «будущее».

Для рассмотрения примера трансформирования данных, выполним импорт из файла «Пример для скользящего окна.txt». Файл состоит из двух полей: «Аргумент» – аргумент (время), «Функция» – временной ряд.

Указав тип полей «Вещественный», построим диаграмму.

  • Преобразование данных к скользящему окну

В мастере обработки на втором шаге назначим столбец «Функция» используемым, установив для него глубину погружения 12 и горизонт прогноза 1.

После обработки получены новые столбцы «Функция-11» …. «Функция-1», «Функция», «Функция+1» на основе столбца «Функция». На диаграмме видно, что данные, на основе которых построены столбцы, сдвинуты относительно друг друга.

Примеры анализа данных

Главное направление использования программы Deductor – анализ, прогнозирование, классификация и кластеризация. Примеры, рассмотренные выше, касались предварительной обработки данных для последующего анализа. Для реализации основных направлений, перечисленных выше в Deductor, предусмотрены инструменты анализа: нейронные сети, линейный регрессивный анализ, построения деревьев решений, самоорганизующиеся карты Кохонена, прогнозирование временного ряда, обнаружения дубликатов и противоречий.

Работу каждого из вышеперечисленных инструментов рассмотрим на следующих примерах.