
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Введение.
- •Методы решения задач Data Mining в Microsoft sql Server.
- •Метод дерева принятия решений.
- •Упрощенный Метод Байеса
- •Метод временных рядов.
- •Метод кластеризации
- •Метод линейной регрессии.
- •Метод поиска взаимосвязей
- •Метод кластеризации последовательностей
- •Метод нейронной сети
- •Области использования рассмотренных алгоритмов.
- •Доступ к средствам sql Server Data Mining из Microsoft Office.
- •Средства анализа таблиц Excel. Инструмент Table Analysis (Анализировать).
- •Инструмент «Анализ ключевых факторов влияния».
- •Инструмент «Поиск категорий».
- •Инструмент Заполнение по примеру (Fill From Example).
- •Инструмент прогнозирования Прогноз
- •Инструмент Выделение исключений
- •Инструмент Анализ сценария.
- •Поиск решения.
- •Анализ гипотетических вариантов
- •Клиент интеллектуального анализа данных для Excel
- •Подготовка данных
- •Просмотр данных.
- •Инструмент Очистить данные
- •Секционирование данных.
- •Панель инструментов Моделирование данных. Классификация.
- •Инструмент «Оценка»
- •Инструмент «Кластеризация»
- •Инструмент Связать.
- •Инструмент Прогноз.
- •Инструмент Дополнительно.
- •Панель Точность и правильность
- •Диаграмма точности.
- •Матрица классификации
- •Литература и источники.
- •Оглавление
- •101990 Москва, Малый Златоустинский пер. 7
- •Введение.
- •Хранилище данных Концепция хранилища данных.
- •Архитектура хранилища данных.
- •Проблемы создания хранилищ данных.
- •Требования к субд и используемые данные.
- •Data Mining или добыча знаний
- •Типы выявляемых закономерностей и этапы решения
- •Обзор используемых методов и алгоритмов
- •Классификация.
- •Кластеризации.
- •Задача ассоциации
- •Визуализация
- •Системы, реализующие Data Mining
- •Система PolyAnalyst
- •Работа с системой PolyAnalyst
- •Задание для самостоятельного выполнения.
- •Нейронные сети. Область применения нейронных сетей.
- •Теоретические аспекты нейронных сетей.
- •Последовательность этапов решения практических задач с использованием нейронных сетей и рекомендации по их проведению.
- •Программные системы для нейросетевого моделирования.
- •Программный пакет BrainMaker Professional.
- •Последовательность работы с пакетом BrainMaker Professional
- •Задания для самостоятельного выполнения:
- •Литература и источники.
- •Кондрашов Юрий Николаевич, Современные технологии интеллектуальной обработки информации.
- •101990 Москва, Малый Златоустинский пер. 7 Язык dmx Концепции языка dmx
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Детализация структуры
- •Детализация модели
- •Запрос значений столбца
- •Запрос содержимого модели
- •1. Витрины данных, как обособленная (специализированная) часть хд
- •2. Витрины данных (вид хд) , как промежуточная часть хд.
- •2. Кубы данных – оперативная аналиическая обработка (olap)
Метод временных рядов.
Алгоритм временных рядов представляет собой алгоритм регрессии и может использоваться для прогнозирования непрерывных данных. Прогнозирование основывается только на тенденциях, извлекаемых алгоритмом из исходного набора данных во время создания модели. На рисунке 7 показана типичная модель прогнозирования.
Рисунок 7
Модель, изображенная на рисунке, состоит из двух частей: данные предыстории и спрогнозированные значения.
Важной особенностью рассматриваемого алгоритма временных рядов является его способность выполнять перекрестный прогноз. То есть при обучении алгоритма двумя отдельными, но связанными друг с другом рядами можно использовать итоговую модель для прогнозирования исхода одного ряда на основе поведения другого ряда. Например, наблюдаемые продажи одного продукта могут оказать влияние на прогнозируемые продажи другого продукта.
Для работы алгоритма временных рядов требуется, чтобы прогнозируемый столбец или столбцы содержали непрерывные данные.
В таблице перечислены конкретные типы содержимого входных и прогнозируемых столбцов, поддерживаемые алгоритмом временных рядов.
Типы содержимого входных столбцов |
Непрерывные, Ключевые, Идентификатор времени и табличные |
Типы содержимого прогнозируемых столбцов |
Непрерывные и табличные |
Алгоритм временных рядов поддерживает несколько параметров, которые влияют на производительность и точность итоговой модели. В частности, минимальное количество необходимых временных срезов, метод, используемый для заполнения пропусков в исторических данных, подсказки для алгоритма определения периодичности данных и др.
Метод кластеризации
Алгоритм использует итерационные методы для группировки объектов в кластеры []. Результаты кластеризации можно также использовать для просмотра данных, выявления в них аномалий и создания прогнозов.
Модели кластеризации определяют связи в наборе данных, который невозможно логически получить с помощью простого анализа.
Алгоритм кластеризации не требует назначать целевой столбец, необходимый для создания модели класcификации. Алгоритм кластеризации обучает модель строго на основе связей, существующих в данных и на основе кластеров, идентифицированных алгоритмом.
Работа алгоритма построена на следующих принципах. Алгоритм кластеризации сначала определяет связи в наборе данных и формирует ряд кластеров на основе этих связей. Точечная диаграмма хорошо показывает (см. рисунок 8), как алгоритм группирует данные и представляет все варианты в наборе данных (каждый вариант является точкой на диаграмме).
Рисунок 8
После первого определения кластеров алгоритм вычисляет, как кластеры представляют группирование точек, а затем пытается повторно определить группирования, чтобы создать кластеры, которые лучше представляют данные. Алгоритм последовательно выполняет этот процесс до тех пор, пока улучшить результаты, определяя кластеры, будет невозможно.
Важным различающим элементом алгоритма кластеризации является способ, которым алгоритм принимает решение о разбиении на кластеры. Алгоритм кластеризации использует два метода для вычисления, насколько хорошо точки соответствуют кластерам: максимизация ожиданий (EM) и K-среднее. Для кластеризации EM алгоритм использует вероятностный метод для определения того, что точки данных существуют в кластере. Для метода K-среднее алгоритм использует меру расстояния для назначения точки данных ближайшему кластеру.
Метод K-средних присваивает членство в кластере по расстоянию. Объект принадлежит тому кластеру, к центру которого он ближе всего (измеряется принадлежность по эвклидову расстоянию). После того как все объекты будут распределены по кластерам, центр кластера перемещается к среднему всех присвоенных объектов. Этот способ считается «жесткой кластеризацией», поскольку каждый объект присваивается одному и только одному кластеру. Кластеры не пересекаются.
Метод ЕМ использует вероятностный показатель, а не строгое измерение расстояния. Вместо выбора точки для каждого измерения и вычисления расстояния, метод ЕМ рассматривает для каждого измерения кривую нормального распределения (со средним значением и стандартным отклонением). Когда точка попадает в кривую, она присваивается кластеру с определенной вероятностью. Так как кривые для различных кластеров могут перекрываться, то любая точка может принадлежать к нескольким кластерам с присвоенной вероятностью для каждого. Такой метод считается «мягкой кластеризацией», поскольку кластеры не имеют четкой границы и пересекаются. Этот метод позволяет находить невыделенные кластеры или плотные области.
Используемый алгоритм кластеризации может работать и с дискретными переменными (можно присвоить случайные распределения для каждого дискретного атрибута). Более подходит метод ЕМ.
Исходные данные должны содержать ключевой столбец и входные столбцы. Входные столбцы также можно определить как прогнозируемые.
Прогнозируемые столбцы для создания кластеров не используются. Их распределения в кластерах вычисляются после построения кластеров.
Алгоритм поддерживает следующие типы данных.
Типы содержимого входных столбцов |
Непрерывные, циклические, дискретные, дискретизированные, ключевые, табличные и упорядоченные |
Типы содержимого прогнозируемых столбцов |
Непрерывные, циклические, дискретные, дискретизированные, табличные и упорядоченные |
Рассматриваемый алгоритм кластеризации поддерживает несколько параметров, влияющих на производительность и точность результирующей модели. В частности, метод кластеризации, используемый алгоритмом (масштабируемая и немасштабируемая EM, масштабируемые или немасштабируемые K-средние), начальное число, используемое для случайного формирования кластеров в начальной стадии построения модели, примерное количество кластеров, строящихся данным алгоритмом (если это примерное количество кластеров не может быть построено на исходных данных, то алгоритм строит столько кластеров, сколько возможно) и др.
Масштабируемая кластеризации используется для решения проблемы нехватки памяти - чтобы хранить весь набор вариантов в памяти.