Лекция 7.
Роли заказчика и исполнителя при построении хранилищ данных. Их дофига всяких, можно посмотреть на «www.prj-exp.ru», там есть Матрица ответственности по ролям.
Для любых внедрений ИС, в том числе ХД главный чувак от заказчика – это куратор проекта.
Иерархия людей от исполнителя:
Куратор проекта
Руководитель проекта
Системный архитектор – отвечает за систему в целом. Эта роль может быть разделена на несколько людей, но всегда должен быть один чувак, который отвечает за всю систему.
Бизнес-аналитик – перевод бизнес-требований в функциональные требования
Архитектор по ETL и разработчики
Администратор БД
Администратор приложений
Архитектор ETL и разработчики
Архитектор BI и разработчики
Модель RACI
R – responsible (исполнитель, отвечающий за действие)
A – accountant – ответственный за качество выполненной работы
C – consultant
I – наблюдатель
При внедрении на этапе перед требованиями хорошо проводить обучение чуваков из команды заказчика дабы обеспечить единый язык и понимание между заказчиком и исполниетелем.
Проблемы (риски), возникающие при внедрении:
Качественные. Трудности во время анализа данных, проблемы с определением качества
Организационные. Тут часто бывает проблема с закрытостью систем, откуда мы берем информацию для ХД.
Технические. Необходимо выбрать адекватные задачам и размерам технологии.
Физическое моделирование ХД.
Тут имеется ввиду в основном оптимизация работы конкретных систем.
Техники оптимизации:
Денормализация бывает 2-х видов:
Нисходящая – внесение полей из более общей таблицы в более детализированную, зависимую таблицу. Это делается с целью минимизации использования связей. В общем виде это объединение таблиц.
Восходдящая – внесение полей из зависимой таблицы в родительскую. Это обычно вынесение агрегированных показателей. Делается для того же самого.
Разделение таблиц (изменение логики структуры БД):
Горизонтальное. Таблицы бьются по записям, чтобы в одной таблице было меньше записей. Часто бьется на текущие и архивные записи, то есть разбиение по времени.
Вертикальное. Разделение таблиц на несколько по атрибутам. Атрибуты, выделяемые в другие таблицы определяются по принципу частоты запрашивания их.
Партиции – это физическое разбиение таблицы на несколько файлов.
Индексы.
Расширения SQL. Group by и проч.
Тенденции.
БД в памяти.
Повышение прозрачности данных.
Интеграция BI с ERP
