
- •Оглавление
- •Введение
- •Импорт данных и способы визуализации
- •Обработка данных
- •Очистка данных
- •Восстановление пропущенных данных
- •Удаление аномалий
- •Спектральная обработка
- •Удаление шумов
- •Факторный анализ
- •Трансформация данных
- •Квантование
- •Группировка данных
- •Преобразование данных к скользящему окну
- •Примеры анализа данных
- •Прогнозирование умножения с помощью нейронных сетей
- •Классификация с помощью деревьев решений
- •Прогнозирование с помощью линейной регрессии
- •Кластеризация с помощью самоорганизующейся карты Кохонена
- •Поиск ассоциативных правил
- •Выявление дубликатов и противоречий
- •Автокорреляция
- •Прогнозирование временного ряда
- •Экспорт данных
Группировка данных
Собранный в процессе статистического наблюдения материал нуждается в определенной обработке для принятия решения. Необходима сводная информация по различным разрезам. В Deductor имеется соответствующий инструмент, позволяющий осуществлять сбор сводной информации – «Группировка». Данный инструмент дает возможность объединить записи по полям – измерениям и агрегировать данные в полях – фактах для дальнейшего анализа.
Предположим, аналитик располагает информацией о статистике банков России за определенный период. Необходимо выявить города, в которых прибыль банков самая большая. Для этого нужно определить суммарную прибыль всех банков в каждом городе, используя инструмент группировку.
Данные для обработки содержатся в файле «Banks.txt». После импорта данных из текстового файла просмотрим информацию в виде таблицы.
Выделив импортированный файл, запустим мастер обработки и выберем в качестве инструмента «Группировка». На втором шаге мастера определим в качестве измерения «Город», фактом укажем измерение «Прибыль», а все остальные поля определим как неиспользуемые. По полю «Прибыль» в качестве функции агрегации укажем «Сумму».
Для просмотра результата мастера обработки воспользуемся таблицей. После обработки получим необходимые данные по прибыли всех банков в каждом городе, которые можно использовать в дальнейшей работе аналитика.
Преобразование данных к скользящему окну
Если некоторый временной ряд можно спрогнозировать, т.е. налицо его сезонность (периодичность), то более достоверный результат можно получить, учитывая значение факторов не только в данный момент времени, но и за неделю назад, за месяц, за сезон. Трансформацию данных во времени можно получить с помощью скользящего окна.
После обработки будет получена выборка, где в каждой записи содержится поле, соответствующее текущему отсчету (с таким же именем, что и в исходной выборке), а слева и справа от него будут располагаться поля, смещенные от текущего отчета в прошлое и будущее соответственно. Следовательно, мастер обработки имеет два параметра: глубина погружения – количество погружения в «прошлое» и горизонт прогнозирование – количество отсчетов в «будущее».
Для рассмотрения примера трансформирования данных, выполним импорт из файла «Пример для скользящего окна.txt». Файл состоит из двух полей: «Аргумент» – аргумент (время), «Функция» – временной ряд.
Указав тип полей «Вещественный», построим диаграмму.
Преобразование данных к скользящему окну
В мастере обработки на втором шаге назначим столбец «Функция» используемым, установив для него глубину погружения 12 и горизонт прогноза 1.
После обработки получены новые столбцы «Функция-11» …. «Функция-1», «Функция», «Функция+1» на основе столбца «Функция». На диаграмме видно, что данные, на основе которых построены столбцы, сдвинуты относительно друг друга.
Примеры анализа данных
Главное направление использования программы Deductor – анализ, прогнозирование, классификация и кластеризация. Примеры, рассмотренные выше, касались предварительной обработки данных для последующего анализа. Для реализации основных направлений, перечисленных выше в Deductor, предусмотрены инструменты анализа: нейронные сети, линейный регрессивный анализ, построения деревьев решений, самоорганизующиеся карты Кохонена, прогнозирование временного ряда, обнаружения дубликатов и противоречий.
Работу каждого из вышеперечисленных инструментов рассмотрим на следующих примерах.