
- •Методология анализа данных. Аналитический и информационный подходы к моделированию.
- •Принципы анализа данных
- •Формы представления данных
- •Процесс подготовки данных к анализу
- •Технологии kdd и Data Mining
- •Аналитические платформы
- •Консолидация данных: источники данных, основные задачи консолидации данных, обобщенная схема процесса консолидации данных
- •Хранилища данных: основные особенности концепции хд, основные требования к хд
- •Многомерные и реляционные хранилища данных Реляционные хранилища данных
- •Продукты etl Коммерческие
- •[Править]Свободно распространяемые
- •Трансформация данных: основные методы
- •Визуализация данных: цели и задачи на разных этапах аналитического процесса, группы методов визуализации данных
- •Оценка качества данных: уровни качества данных, оценка пригодности данных к анализу, оценка качества данных по их происхождению
- •Технологии и методы оценки качества данных
- •Ассоциативные правила
- •Алгоритм a priori
- •Кластеризация: алгоритм кластеризации k-means, меры расстояний, выбор числа кластеров
- •Классификация и регрессия: применение классификации и регрессии, линейная и логистическая регрессии
- •Временной ряд и его компоненты
- •Модели прогнозирования
- •Ансамбли моделей: комбинирование решений, виды ансамблей
- •Бэггинг, бустинг, стэкинг: основная идея
- •Оценка эффективности и сравнение моделей: Lift и Profit-кривые, roc-анализ
Методология анализа данных. Аналитический и информационный подходы к моделированию.
Аналитический подход.Модель в традиционном понимании представляет собой результат отображения одной структуры (изученной) на другую (малоизученную). Любая модель строится и исследуется при определенных допущениях, гипотезах. Делается это обычно с помощью математических методов.Такой подход называют аналитическим.
При аналитическом подходе не модель «подстраивается» под действительность, а мы пытаемся подобрать существующую аналитическую, чтобы она адекватно отражала реальность.
Информационный подход. Информационный подход к моделированию, ориентирован на использование данных. Его цель - освобождение аналитика от рутинных операций и возможных сложностей в понимании и применении современных математических методов.
При информационном подходе реальный объект рассматривается как «черный ящик», имеющий ряд входов и выходов, между которыми моделируются некоторые связи. Иными словами, известна только структура модели (например, нейронная сеть, линейная регрессия), а сами параметры модели «подстраиваются» под данные, которые описывают поведение объекта.
Таким образом, при информационном подходе отправной точкой являются данные, характеризующие исследуемый объект, и модель «подстраивается» под действительность.
Инструментальной поддержкой процесса построения моделей на основе информационного подхода выступают современные технологии анализа данных KDD и Data Mining, а средством построения прикладных решений в области анализа - аналитические платформы.
Принципы анализа данных
Процесс анализа. В инф. подходе к анализу данных, помимо модели, присутствуют еще три важные составляющие: эксперт, гипотеза и аналитик.
Эксперт - специалист в предметной области, который за годы обучения и практической деятельности научился эффективно решать задачи, относящиеся к конкретной предметной области. Эксперт выдвигает гипотезы (предположения) и для проверки их достоверности либо просматривает некие выборки различными способами, либо строит те или иные модели.
Аналитик - специалист в области анализа и моделирования. Аналитик на достаточном уровне владеет какими-либо инструментальными и программными средствами анализа данных. Кроме того, в обязанности аналитика входят функции систематизации данных, опроса мнений экспертов, координации действий всех участников проекта по анализу данных. Он играет роль «мостика» между экспертами, то есть является связующим звеном между специалистами разных уровней и областей.
Можно выделить две основные группы методов:
- извлечение и визуализация данных;
- построение и использование моделей.
Извлечение и визуализация данных.В этом случае аналитик некоторым образом формулирует запрос к системе, извлекает нужную информацию из различных источников и просматривает полученные результаты. На их основе он делает выводы, которые и являются результатом анализа. Существует множество способов визуализации данных:OLAP (кросс-таблицы и кросс-диаграммы);таблицы;диаграммы, гистограммы;карты, проекции, срезы и т. п.
Несомненными достоинствами визуализации являются относительная простота создания и введения в эксплуатацию подобных систем и возможность их применения практически в любой сфере деятельности.
Построение и использование моделей.Это универсальный способ изучения окружающего мира, позволяющий обнаруживать зависимости, прогнозировать, разбивать на группы и решать множество других важных задач. Но самое главное: полученные таким образом знания можно тиражировать.
Процесс построения моделей состоит из нескольких шагов:
- Формулирование цели моделирования.
- Подготовка и сбор данных.
- Поиск модели.
Моделирование позволяет получать новые знания, которые невозможно извлечь каким-либо другим способом. Кроме того, полученные результаты представляют собой формализованное описание некоего процесса, вследствие чего поддаются автоматической обработке.