
- •Оглавление
- •Введение
- •Импорт данных и способы визуализации
- •Обработка данных
- •Очистка данных
- •Восстановление пропущенных данных
- •Удаление аномалий
- •Спектральная обработка
- •Удаление шумов
- •Факторный анализ
- •Трансформация данных
- •Квантование
- •Группировка данных
- •Преобразование данных к скользящему окну
- •Примеры анализа данных
- •Прогнозирование умножения с помощью нейронных сетей
- •Классификация с помощью деревьев решений
- •Прогнозирование с помощью линейной регрессии
- •Кластеризация с помощью самоорганизующейся карты Кохонена
- •Поиск ассоциативных правил
- •Выявление дубликатов и противоречий
- •Автокорреляция
- •Прогнозирование временного ряда
- •Экспорт данных
Примеры обработки данных с помощью инструментов Deductor Studio
Оглавление
Введение 1
Импорт данных и способы визуализации 2
Обработка данных 10
Очистка данных 14
Восстановление пропущенных данных 15
Удаление аномалий 16
Спектральная обработка 17
Удаление шумов 19
Факторный анализ 22
Трансформация данных 25
Квантование 29
Группировка данных 31
Преобразование данных к скользящему окну 32
Примеры анализа данных 34
Прогнозирование умножения с помощью нейронных сетей 34
Классификация с помощью деревьев решений 42
Прогнозирование с помощью линейной регрессии 46
Кластеризация с помощью самоорганизующейся карты Кохонена 49
Поиск ассоциативных правил 54
Выявление дубликатов и противоречий 59
Автокорреляция 62
Прогнозирование временного ряда 64
Экспорт данных 68
Введение
В экономике целью сбора, обработки и анализа информации является установление закономерностей развития рынка, определение направлений изменение цен для успешного развития бизнеса и повышение его конкурентоспособности. Как правило, работой по анализу информации занимаются эксперты и аналитики, которые, применяя различные методы обработки, подготавливают информацию к пригодному для анализа виду. Затем результаты, полученные экспертами, поступают к руководителям отделов и менеджерам для принятия решений.
Существуют различные механизмы анализа данных, которые являются универсальными и применяются в различных предметных областях. В данном пособии мы рассмотрим механизмы анализа данных, реализованных в аналитической платформе Deductor, разработанной компанией BaseGroup (www.basegroup.ru). Deductor предназначен для создания прикладных решений в сфере анализа данных. В данной платформе реализованы механизмы, позволяющие пройти все этапы создания аналитической системы: от хранения информации до разнообразных способов ее визуализации после соответствующей обработки (моделирование, прогнозирование, кластеризация, поиск закономерностей и многие другие технологии обнаружения знаний (Knowledge Discovery in Databases) и добычи данных (Data Mining).
Deductor состоит из пяти частей: Deductor Warehouse – хранилище данных, консолидирующий информацию из различных источников, Deductor Studio – аналитическая приложение, содержащее инструменты импорта, обработки, визуализации и экспорта данных, Deductor Viewer – рабочее место конечного пользователя, Deductor Server для удаленной аналитической обработки, Deductor Client для доступа к серверу аналитической обработки.
В данном пособии мы рассмотрим версию Deductor 5.1 (Academic) (далее Deductor), хотя есть и более поздние версии Deductor 5.2, объясняется это тем, что в компьютерных классах установлена именно эта версия.
Анализ данных с помощью Deductor начинается с импорта данных. Импорт осуществляется из различных форматов хранения данных, таких как Virual Warehouse, Deductor Warehouse, Excel, Access, Interbase, Oracle, Текстовый формат, и из форматов 1С: Предприятие версии 7.7 и 1С: Предприятие версии 8.х.
Все примеры разбиты на соответствующие группы в зависимости от цели, которую нужно достичь. После импорта данных может понадобиться так называемая предварительная обработка «сырых» данных, которая позволит преобразовать их к пригодному для анализа виду (заполнение пропусков, удаление аномалий, сглаживание и т.д.). Группа инструментов преобразования данных позволяет настроить данные по усмотрению аналитика (фильтрует, дискретизирует, группирует, и т.д.). Набор инструментов анализа данных, позволяет выявить зависимость одних факторов от других, значимость влияния факторов на результат, найти сезонность во временных рядах, выявить противоречивые данные, а также построить модель прогноза и получить желаемый результат. (в этом предложении нет глагола, который указывает на действие)