
- •Методология анализа данных. Аналитический и информационный подходы к моделированию.
- •Принципы анализа данных
- •Формы представления данных
- •Процесс подготовки данных к анализу
- •Технологии kdd и Data Mining
- •Аналитические платформы
- •Консолидация данных: источники данных, основные задачи консолидации данных, обобщенная схема процесса консолидации данных
- •Хранилища данных: основные особенности концепции хд, основные требования к хд
- •Многомерные и реляционные хранилища данных Реляционные хранилища данных
- •Продукты etl Коммерческие
- •[Править]Свободно распространяемые
- •Трансформация данных: основные методы
- •Визуализация данных: цели и задачи на разных этапах аналитического процесса, группы методов визуализации данных
- •Оценка качества данных: уровни качества данных, оценка пригодности данных к анализу, оценка качества данных по их происхождению
- •Технологии и методы оценки качества данных
- •Ассоциативные правила
- •Алгоритм a priori
- •Кластеризация: алгоритм кластеризации k-means, меры расстояний, выбор числа кластеров
- •Классификация и регрессия: применение классификации и регрессии, линейная и логистическая регрессии
- •Временной ряд и его компоненты
- •Модели прогнозирования
- •Ансамбли моделей: комбинирование решений, виды ансамблей
- •Бэггинг, бустинг, стэкинг: основная идея
- •Оценка эффективности и сравнение моделей: Lift и Profit-кривые, roc-анализ
Консолидация данных: источники данных, основные задачи консолидации данных, обобщенная схема процесса консолидации данных
Консолидация данных - комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование к единому формату, в котором они могут быть загружены в хранилище данных или аналитическую систему.
В процессе консолидации данных решаются следующие задачи:
- выбор источников данных;
- разработка стратегии консолидации;
- оценка качества данных;
- обогащение;
- очистка;
- перенос в хранилище данных.
При разработке стратегии консолидации данных необходимо учитывать характер расположения источников. Характер расположения источников данных может существенно повлиять на качество собранных данных (потеря фрагментов, несогласованность во времени их обновления, противоречивость и т.д.).
Другой важной задачейявляется оценка качества данных с точки зрения их пригодности для обработки с помощью различных аналитических алгоритмов и методов. В большинстве случаев исходные данные являются «грязными», то есть содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности.
Обогащение - процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач.
Очистка данных - комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д.
Хранилища данных: основные особенности концепции хд, основные требования к хд
Концепция определяет процесс сбора, отсеивания, предварительной обработки и накопления данных с целью долговременного хранения данных и предоставления результирующей информации пользователям в удобной форме для статистического анализа и создания аналитических отчетов. В основе концепции ХД для интеграции неоднородных источников данных принципиально отличается от подхода динамической интеграции разнородных БД, лежат две основополагающие идеи: Интеграция ранее разъединенных детализированных (описывающих некоторые конкретные факты, свойства, события и т.д.) данных в едином ХД : исторические архивы, данные из традиционных СОД, данные из внешних источников в едином ХД, их согласование и возможно агрегация. Интегрированность означает, что, например, данные, полученные из различных источников, хранятся согласованно и централизованно. Разделение наборов данных используемых для операционной обработки и наборов данных используемых для решения задач анализа, применяемых в системах поддержки принятия решений. Такое разделение возможно путем интеграции источников ранее разъединенных детализированных данных в едином ХД, их согласования и, возможно, агрегации. Организация информационного процесса при построении ХД представлена на рисунке. |
Цель концепции ХД
Цель концепции ХД - прояснить отличия в характеристиках данных в операционных и аналитических системах, определить требования к данным помещаемым в целевую БД ХД, определить общие принципы и этапы её построения, основные источники данных, дать рекомендации по решению потенциальных проблем возникающих при их выгрузке, очистке, согласовании, транспортировке и загрузке в целевую БД.
Для правильного понимания данной концепции необходимо понимание следующих принципиальных моментов, заключающихся в том, что концепция ХД:
это не концепция анализа данных, скорее это концепция подготовки данных для анализа.
не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.
предполагает не просто единый логический взгляд на данные организации (как иногда это трактуется). Она предполагает реализацию единого интегрированного источника данных.