- •Deductor
- •Руководство аналитика
- •Введение
- •Анализ данных – основные принципы
- •Два подхода к анализу данных
- •Базовые методы анализа
- •Online Analytical Processing
- •Knowledge Discovery in Databases
- •Data Mining
- •Поддержка процесса от разведочного анализа до отображения данных
- •Тиражирование знаний
- •Основные модули
- •Подготовка сценариев
- •Визуализация данных
- •Работа с отчетами
- •Работа с избранными узлами
- •Пакетная обработка
- •Многомерное представление данных
- •Физическая реализация Deductor Warehouse
- •Создание хранилища данных
- •Подключение к Deductor Warehouse
- •Создание структуры хранилища с помощью Редактора метаданных
- •Загрузка данных в хранилище
- •Процессы
- •Измерения
- •Автоматическая загрузка данных в хранилище
- •Импорт данных из хранилища
- •Импорт процесса
- •Импорт измерения
- •Кубы в хранилище данных
- •Виртуальное хранилище Virtual Warehouse
- •Работа с OLAP-кубом
- •Кросс-таблица
- •Размещение измерений
- •Способы агрегации и отображения фактов
- •Селектор – фильтрация данных в кубе
- •Функция «Калькулятор»
- •Пример
- •Кросс-диаграмма
- •Описание аналитических алгоритмов
- •Очистка данных
- •Парциальная обработка
- •Заполнение пропусков
- •Редактирование аномалий
- •Сглаживание
- •Очистка от шумов
- •Факторный анализ
- •Корреляционный анализ
- •Обнаружение дубликатов и противоречий
- •Фильтрация
- •Трансформация данных
- •Настройка набора данных
- •Скользящее окно
- •Преобразование даты
- •Квантование значений
- •Сортировка
- •Слияние
- •Замена данных
- •Группировка
- •Разгруппировка
- •Кросс-таблица
- •Свертка столбцов
- •Data Mining
- •Автокорреляция
- •Нейронные сети
- •Линейная регрессия
- •Прогнозирование
- •Логистическая регрессия
- •Деревья решений
- •Карты Кохонена
- •Кластеризация (k-means и g-means)
- •Ассоциативные правила
- •Декомпозиция
- •Пользовательские модели
- •Вспомогательные методы обработки
- •Скрипт
- •Групповая обработка
- •Калькулятор
- •Условие
- •Команда ОС
- •Сценарий Deductor
- •Переменные
- •Интерпретация результатов
- •ROC-анализ
- •Анализ «Что-если»
- •Таблица «Что-если»
- •Диаграмма «что–если»
- •Подготовка данных для анализа
- •Выдвижение гипотез
- •Формализация и сбор данных
- •Представление и минимальные объемы необходимых данных
- •Построение моделей – анализ
- •Оптимизация работы и создания сценариев
- •Какие источники использовать
- •Кэширование
- •Динамические фильтры
- •Быстрая подготовка сценариев (скрипты)
- •Использование переменных
- •Обработка сценариев при помощи Deductor Server
- •Пример создания законченного аналитического решения
- •Создание хранилища данных
- •Прогнозирование объемов продаж
- •Поиск оптимальной наценки
- •Анализ потребительской корзины
- •Аналитическая отчетность
- •Создание отчетности
- •Что делать при возникновении ошибок
- •Заключение
- •Дополнительные источники
- •Контакты
www.basegroup.ru
также восстанавливаются значения для второго товара. Так удалось перейти от общего прогноза к прогнозу по каждой позиции.
В этом примере мы посчитали вклад Товар 1 в сумму по всем месяцам. Однако такой расчет может оказаться неактуальным, так как пропорциональное соотношение продаваемого товара может изменяться с течением времени. Поэтому можно посчитать вклад первого товара в общее количество по последнему месяцу (в общем случае, разгруппировывать можно по любому числу последних месяцев, недель, дней и вообще по произвольному числу значений любого измерения). Тогда получим такую таблицу:
Месяц |
|
Наименование товара |
|
Количество |
|
|
|
|
|
|
|
3 |
|
Товар 1 |
|
118,46 |
|
|
|
|
|
|
|
3 |
|
Товар 2 |
|
21,54 |
|
|
|
|
|
|
|
4 |
|
Товар 1 |
|
131,15 |
|
|
|
|
|
|
|
4 |
|
Товар 2 |
|
23,85 |
|
|
|
|
|
|
|
Общий объем за второй месяц 110 + 20 = 130. Из них 110 приходится на первый товар. Это
(110/130)*100 = 84,6%. На второй приходится 15,4%.
Для настройки разгруппировки нужно выбрать поле, значения которого нужно восстановить, и указать ему назначение «Факт» (в примере это Количество). Затем следует выбрать восстанавливаемое измерение (в примере это Наименование товара). Для восстановления значений факта необходимо выбрать столбец, по которому проводится разгруппировка. В нашем примере прогнозируемое количество продаж товаров восстанавливается по полю Количество, т.е. разгруппировка рассчитывается на основании значений столбца Количество за прошлые периоды времени. Далее нужно выбрать способ восстановления: по всей выборке (в примере – по всем месяцам) или по последним N значениям какого-либо измерения (в примере – по одному последнему месяцу). В последнем случае предлагается выбрать измерение и количество его последних значений.
Кросс-таблица
Назначение
Обработчик «Кросс-таблица» предназначен для изменения структуры таблицы, а именно, перенесения значений полей в заголовки столбцов. Напоминает операцию транспонирования измерений в OLAP-кубе.
Пример
Пусть есть таблица с объемами продаж некоторых товаров за два месяца.
Месяц |
|
Наименование товара |
|
Количество |
|
|
|
|
|
01.01.2008 |
|
Товар 1 |
|
100 |
|
|
|
|
|
01.01.2008 |
|
Товар 2 |
|
10 |
|
|
|
|
|
01.02.2008 |
|
Товар 1 |
|
110 |
|
|
|
|
|
01.02.2008 |
|
Товар 2 |
|
20 |
стр. 97 из 192
www.basegroup.ru
Применим к исходному набору данных обработчик «Кросс-таблица». На этапе настройки назначения полей зададим следующие параметры:
§Колонки – Наименование товара. Из значений этого поля будут сформированы новые столбцы в кросс-таблице.
§Строки – Месяцы. Из значений этого поля будут сформированы строки в кросс-таблице.
§Факты – Количество. Значения этого поля будут располагаться в «теле» кросс-таблицы.
При работе с обработчиком может возникнуть ситуация, когда в полях, по которым были сформированы столбцы, появляются новые значения. Эти значения изначально не были учтены, поэтому, чтобы напомнить пользователю о их появлении, в выходном наборе данных может появиться столбец Прочие значения. В него будут агрегироваться все факты, относящиеся к новым данным. Аналогично, если в исходном поле имеются пропуски в данных, то факты для них будут агрегироваться в столбце Пропущенные значения.
Результат преобразования исходной таблицы представлен ниже.
Свертка столбцов
Назначение
Обработчик предназначен для изменения структуры таблицы, а именно, перенесения заголовков полей в значения строк и столбцов.
Пример
Пусть есть таблица с объемами продаж некоторых товаров за три месяца.
Группа |
|
Товар |
|
Январь |
|
Февраль |
|
Март |
|
|
|
|
|
|
|
|
|
Группа 1 |
|
Товар 1 |
|
54 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Группа 1 |
|
Товар 2 |
|
|
|
31 |
|
46 |
|
|
|
|
|
|
|
|
|
Группа 1 |
|
Товар 3 |
|
63 |
|
61 |
|
|
|
|
|
|
|
|
|
|
|
Группа 2 |
|
Товар 1 |
|
77 |
|
19 |
|
93 |
|
|
|
|
|
|
|
|
|
Группа 2 |
|
Товар 4 |
|
63 |
|
51 |
|
70 |
|
|
|
|
|
|
|
|
|
Применим к исходному набору данных обработчик «Свертка столбцов». На этапе настройки назначения полей зададим следующие параметры:
§Информационные поля – Группа и Товар. Поля, помещенные в этот узел, не будут изменяться.
§Транспонируемые поля – Январь, Февраль и Март. Из значений полей, помещенных в этот узел, будут сформированы два новых столбца один со списком из меток, другой со списком значений. Транспонируемые столбцы должны быть одного типа.
стр. 98 из 192