
- •Deductor
- •Руководство аналитика
- •Введение
- •Анализ данных – основные принципы
- •Два подхода к анализу данных
- •Базовые методы анализа
- •Online Analytical Processing
- •Knowledge Discovery in Databases
- •Data Mining
- •Поддержка процесса от разведочного анализа до отображения данных
- •Тиражирование знаний
- •Основные модули
- •Подготовка сценариев
- •Визуализация данных
- •Работа с отчетами
- •Работа с избранными узлами
- •Пакетная обработка
- •Многомерное представление данных
- •Физическая реализация Deductor Warehouse
- •Создание хранилища данных
- •Подключение к Deductor Warehouse
- •Создание структуры хранилища с помощью Редактора метаданных
- •Загрузка данных в хранилище
- •Процессы
- •Измерения
- •Автоматическая загрузка данных в хранилище
- •Импорт данных из хранилища
- •Импорт процесса
- •Импорт измерения
- •Кубы в хранилище данных
- •Виртуальное хранилище Virtual Warehouse
- •Работа с OLAP-кубом
- •Кросс-таблица
- •Размещение измерений
- •Способы агрегации и отображения фактов
- •Селектор – фильтрация данных в кубе
- •Функция «Калькулятор»
- •Пример
- •Кросс-диаграмма
- •Описание аналитических алгоритмов
- •Очистка данных
- •Парциальная обработка
- •Заполнение пропусков
- •Редактирование аномалий
- •Сглаживание
- •Очистка от шумов
- •Факторный анализ
- •Корреляционный анализ
- •Обнаружение дубликатов и противоречий
- •Фильтрация
- •Трансформация данных
- •Настройка набора данных
- •Скользящее окно
- •Преобразование даты
- •Квантование значений
- •Сортировка
- •Слияние
- •Замена данных
- •Группировка
- •Разгруппировка
- •Кросс-таблица
- •Свертка столбцов
- •Data Mining
- •Автокорреляция
- •Нейронные сети
- •Линейная регрессия
- •Прогнозирование
- •Логистическая регрессия
- •Деревья решений
- •Карты Кохонена
- •Кластеризация (k-means и g-means)
- •Ассоциативные правила
- •Декомпозиция
- •Пользовательские модели
- •Вспомогательные методы обработки
- •Скрипт
- •Групповая обработка
- •Калькулятор
- •Условие
- •Команда ОС
- •Сценарий Deductor
- •Переменные
- •Интерпретация результатов
- •ROC-анализ
- •Анализ «Что-если»
- •Таблица «Что-если»
- •Диаграмма «что–если»
- •Подготовка данных для анализа
- •Выдвижение гипотез
- •Формализация и сбор данных
- •Представление и минимальные объемы необходимых данных
- •Построение моделей – анализ
- •Оптимизация работы и создания сценариев
- •Какие источники использовать
- •Кэширование
- •Динамические фильтры
- •Быстрая подготовка сценариев (скрипты)
- •Использование переменных
- •Обработка сценариев при помощи Deductor Server
- •Пример создания законченного аналитического решения
- •Создание хранилища данных
- •Прогнозирование объемов продаж
- •Поиск оптимальной наценки
- •Анализ потребительской корзины
- •Аналитическая отчетность
- •Создание отчетности
- •Что делать при возникновении ошибок
- •Заключение
- •Дополнительные источники
- •Контакты

www.basegroup.ru
Пример несбалансированной иерархии:
Товары
Молочные
Йогурты
Чудо
Эрмигут
Сыр «Гауда»
Молоко 2.5%
Так же и измерения, процессы могут иметь атрибуты, которые так и называются – атрибуты процесса. Атрибут процесса в отличие от измерения не определяет координату в многомерном пространстве. Это справочное значение, относящееся к процессу, например, № накладной, Валюта документа и так далее. Значение атрибута процесса в отличие от измерения может быть не всегда определено.
Часто сложно определиться, что делать атрибутом процесса, а что измерением. Универсальных рецептов на все случаи не существует. Но можно дать общие рекомендации:
§совокупность измерений процесса должна однозначно определять единственную запись в таблице процесса («точку» в многомерном пространстве);
§если существуют иерархии, то выбор должен быть в пользу измерения;
§если по объекту хранилища данных предполагается в будущем делать частые «срезы», то снова лучше отдать предпочтение измерению;
§наличие возможных пропусков (необязательное поле) говорит о том, что объект лучше сделать атрибутом процесса.
Физическая реализация Deductor Warehouse
Физически Deductor Warehouse 6 – это реляционная база данных, содержащая таблицы для хранения информации и таблицы связей, обеспечивающие целостное хранение сведений. Поверх реляционной базы данных реализован специальный семантический слой, который преобразует реляционное представление к многомерному. Многомерное представление используется потому, что оно намного лучше реляционного соответствует идеологии анализа данных. Благодаря этому слою пользователь оперирует не полями и колонками таблиц базы данных, а многомерными понятиями, такими как измерение, факт, и система автоматически производит все необходимые манипуляции, необходимые для работы с реляционной СУБД.
стр. 32 из 192

www.basegroup.ru
Deductor Studio
Семантический слой
Таблицы с данными
Deductor Warehouse
Хранилище данных Deductor Warehouse прозрачно для пользователя проводит все необходимые операции по подключению к реляционной СУБД и выборке нужной информации. Системой поддерживается прозрачная работа хранилища данных на базе трех СУБД: Firebird, Microsoft SQL, Oracle.
С хранилищем данных на базе Firebird есть возможность локальной работы. Пользователю остается лишь создать или подключить хранилище данных к Deductor Studio.
Поддержка нескольких различных по стоимости и производительности СУБД в качестве платформы хранилища позволяет в каждом конкретном случае использовать наиболее пригодную для данного случая базу данных. Кросс-платформенный Deductor Warehouse является удобной базой для создания распределенных хранилищ данных, витрин данных и прочее.
Deductor Warehouse 6 реализует универсальное многомерное хранение, т.е. может содержать множество процессов с различным количеством измерений и фактов. Настройка процессов, задание измерений, атрибутов и фактов может осуществляться с помощью редактора метаданных, встроенного в Deductor Studio.
Создание хранилища данных
В этом разделе кратко описываются процессы создания и подключения локального традиционного хранилища данных на базе Firebird, создания его структуры, загрузки и импорта данных. Необходимо отметить, что при использовании хранилища на другой платформе эти действия идентичны, требуется только обеспечить доступ к соответствующему серверу базы данных и настроить подключение. Но есть одно отличие: локально работать можно только с хранилищем на базе Firebird.
Очень подробно концепция источников/приемников данных в Deductor, процессы создания и подключения хранилища, импорта и экспорта данных в хранилище описывается в документе «Руководство по импорту и экспорту данных». Рекомендуется при возникновении вопросов по работе с хранилищем данных первоначально изучить этот документ. Дополнительную информацию о подключении удаленного хранилища, оптимизации работы и текущему администрированию можно найти в «Руководстве администратора».
Создание хранилища данных производится на панели Подк лючени я . Открыть или скрыть эту панель можно, выбрав в главном меню Вид ► Подключения.
Для создания хранилища данных необходимо выполнить следующее. На панели инструментов
закладки Подключения нажать кнопку . В результате откроется мастер подключений, в котором можно выбрать и настроить все доступные в системе источники/приемники данных:
стр. 33 из 192

www.basegroup.ru
В данном мастере подключений доступны несколько типов хранилища данных: Deductor Warehouse (кросс-платформенный), Virtual Warehouse (кросс-платформенный).
Рассмотрим работу с Deductor Warehouse (кросс-платформенный). В Мастере подключений выбираем хранилище данных «Deductor Warehouse (кросс-платформенный)». Переходим на следующий этап настройки, нажав кнопку Дал ее. На следующем этапе выбираем тип базы данных. Система поддерживает следующие СУБД: Oracle, MS SQL, Firebird. После выбора типа базы данных на следующем шаге в мастере подключений необходимо указать параметры базы данных:
§База данных – необходимо указать имя базы данных;
§Логин/пароль – необходимо указать логин и пароль подключения к базе данных. По умолчанию в Firebird логин «sysdba» пароль «masterkey»;
§Параметры – имеется несколько следующих параметров:
(1)Спрашивать логин/пароль при подключении;
(2)Сохранять пароль;
(3)Показывать системные таблицы.
На этом же шаге можно проверить правильность настроек подключения к базе данных. Для этого
необходимо нажать кнопку. Если все параметры подключения указаны верно, то система выдаст следующее сообщение:
стр. 34 из 192

www.basegroup.ru
При использовании хранилища данных на базе Firebird имеется возможность выбора версии Deductor Warehouse 6, 5 или 4. Версии 5 и 4 включены в программу для совместимости с предыдущими версиями хранилищ данных. 4-ая версия поддерживает схему хранения «звезда».
В схеме «звезда» измерение может ссылаться только на таблицу фактов, а в «снежинке» измерение может ссылаться на другие измерения, которые в свою очередь ссылаются на таблицу фактов. Можно говорить, что «звезда» – это частный случай схемы «снежинка».
Группа товара
Товар |
Поставщик |
Количество Сумма к оплате Наценка
Клиент
Схема «звезда»
Категория |
Схема «снежинка» |
На следующем шаге в мастере подключений доступны дополнительные инструменты работы с хранилищем данных:
§ Т ест – проверка наличия необходимой структуры метаданных;
§ SQL скрипт – создание файла с SQL скриптом, для создания необходимой структуры метаданных. Данный скрипт необходимо запустить на сервере используемой СУБД, чтобы создать там необходимую для Deductor Warehouse структуру метаданных;
§ Создать – создать файл базы данных с необходимой структурой метаданных. Данный инструмент доступен в случае, когда хранилище данных Deductor Warehouse строится на платформе Firebird.
После выполнения всех настроек в мастере подключений на закладке Подключения в папке Deductor Warehouse появится новый узел с хранилищем. Хранилище готово к использованию.
Для того чтобы изменить настройки существующего хранилища данных, достаточно либо щелчком правой кнопки мыши на узле нужного хранилища открыть меню и выбрать там пункт
Настроить, либо на панели инструментов закладки Подключения нажать кнопку . При выполнении этого действия откроется мастер подключений, в котором станет доступным внесение изменений в параметры на каждом его шаге.
стр. 35 из 192