
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Введение.
- •Методы решения задач Data Mining в Microsoft sql Server.
- •Метод дерева принятия решений.
- •Упрощенный Метод Байеса
- •Метод временных рядов.
- •Метод кластеризации
- •Метод линейной регрессии.
- •Метод поиска взаимосвязей
- •Метод кластеризации последовательностей
- •Метод нейронной сети
- •Области использования рассмотренных алгоритмов.
- •Доступ к средствам sql Server Data Mining из Microsoft Office.
- •Средства анализа таблиц Excel. Инструмент Table Analysis (Анализировать).
- •Инструмент «Анализ ключевых факторов влияния».
- •Инструмент «Поиск категорий».
- •Инструмент Заполнение по примеру (Fill From Example).
- •Инструмент прогнозирования Прогноз
- •Инструмент Выделение исключений
- •Инструмент Анализ сценария.
- •Поиск решения.
- •Анализ гипотетических вариантов
- •Клиент интеллектуального анализа данных для Excel
- •Подготовка данных
- •Просмотр данных.
- •Инструмент Очистить данные
- •Секционирование данных.
- •Панель инструментов Моделирование данных. Классификация.
- •Инструмент «Оценка»
- •Инструмент «Кластеризация»
- •Инструмент Связать.
- •Инструмент Прогноз.
- •Инструмент Дополнительно.
- •Панель Точность и правильность
- •Диаграмма точности.
- •Матрица классификации
- •Литература и источники.
- •Оглавление
- •101990 Москва, Малый Златоустинский пер. 7
- •Введение.
- •Хранилище данных Концепция хранилища данных.
- •Архитектура хранилища данных.
- •Проблемы создания хранилищ данных.
- •Требования к субд и используемые данные.
- •Data Mining или добыча знаний
- •Типы выявляемых закономерностей и этапы решения
- •Обзор используемых методов и алгоритмов
- •Классификация.
- •Кластеризации.
- •Задача ассоциации
- •Визуализация
- •Системы, реализующие Data Mining
- •Система PolyAnalyst
- •Работа с системой PolyAnalyst
- •Задание для самостоятельного выполнения.
- •Нейронные сети. Область применения нейронных сетей.
- •Теоретические аспекты нейронных сетей.
- •Последовательность этапов решения практических задач с использованием нейронных сетей и рекомендации по их проведению.
- •Программные системы для нейросетевого моделирования.
- •Программный пакет BrainMaker Professional.
- •Последовательность работы с пакетом BrainMaker Professional
- •Задания для самостоятельного выполнения:
- •Литература и источники.
- •Кондрашов Юрий Николаевич, Современные технологии интеллектуальной обработки информации.
- •101990 Москва, Малый Златоустинский пер. 7 Язык dmx Концепции языка dmx
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Детализация структуры
- •Детализация модели
- •Запрос значений столбца
- •Запрос содержимого модели
- •1. Витрины данных, как обособленная (специализированная) часть хд
- •2. Витрины данных (вид хд) , как промежуточная часть хд.
- •2. Кубы данных – оперативная аналиическая обработка (olap)
Метод линейной регрессии.
Формально задачу регрессии можно определить следующим образом. Имеется множество объектов
I={i1,i2, …ik,….in}, где ik – исследуемый объект.
Каждый объект характеризуется набором переменных
Ik = {x1,x2,…xh,…xm,y}, где xh – независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной y, которая принимает значение на множестве действительных чисел.
Задача построения функции регрессии можно описать как задачу выбора функции с минимальной ошибкой
,
-
множество всех возможных функций, с –
функция потерь, yi –
известное значение.
Если функция f линейная, то нахождение такой функции называется линейной регрессией.
Пример линейной регрессии:
mpg = 23,436-0,188*(power-104,469)-0,610*(accel-15,541)
В данном примере показана полученная алгоритмом зависимость экономичности автомобиля (пробег в милях на одном галлоне топлива в зависимости от параметров мощности - power и времени ускорения до 100 миль - accel)
Метод поиска взаимосвязей
Метод поиска взаимосвязей позволяет создать модель анализа данных, используя алгоритм ассоциативных правил. Алгоритм ассоциативных правил обнаруживает взаимосвязи между элементами, присутствующими вместе в нескольких транзакциях. Его можно использовать для поиска закономерностей, предсказывающих присутствие набора элементов, исходя из наличия существующих элементов.
Такие модели также полезны для выработки рекомендаций. Можно вырабатывать рекомендации продукта (продуктов) клиентам на основе тех продуктов, которые они уже купили.
Алгоритм построения правил взаимосвязей широко используется также при анализе потребительской корзины, позволяя предсказывать товары, которые, скорее всего, будут приобретены вместе.
Модели взаимосвязей строятся на наборах данных, содержащих идентификаторы для отдельных вариантов и входящих в них элементов. Группа элементов в варианте называется набор элементов.
Частый набор — это такой набор, который достаточно часто встречается в наборе данных.
Поддержка - порог частоты встреч для набора элементов и используется для измерения популярности набора элементов. Поддержка набора элементов {А, В} состоит из общего количества транзакций, которые содержат как А, так и В.
Минимальная поддержка — это пороговый параметр, который можно задать перед запуском алгоритма. Он означает, что будут отбираться только те наборы элементов и правила, которые имеют хотя бы минимальную поддержку в наборе данных.
Параметр Минимальная поддержка используется для ограничения наборов элементов, но не правил.
Параметр Минимальная поддержка представляет количество вариантов для частотного порога набора элементов. Часто удобнее задавать этот параметр в процентах. Значение Минимальная поддержка=0,03 обозначает, что порог поддержки 3 процента.
Вероятность (достоверность) - это свойство правила взаимосвязей. Вероятность правила А->B (из А следует В) вычисляется по поддержке набора вариантов {А,B}, разделенной на поддержку {А }.
Минимальная достоверность - это пороговый параметр, который можно указать перед запуском алгоритма (означает, что интересуют только те правила, которые имеют высокую вероятность, превышающую минимальную). Параметр Минимальная достоверность не влияет на наборы элементов, но влияет на правила.
Важность (показатель интереса) используeтся для измерения наборов элементов и правил и определяется при помощи следующей формулы:
Важность ({А,В}) = Вероятность (А,В) / (Вероятность (A) * Вероятность (В) )
Если Важность =1, то А и В — независимые элементы. Это означает, что покупка продукта А и покупка продукта В — это два независимых события.
Если Важность < 1, то А и В имеют отрицательную корреляцию, т.е. означает, что при покупке А, вряд ли будет куплен также и В.
Если Важность > 1, то А и В имеют положительную корреляцию, т.е. означает, что при покупке А, очень вероятно, что будет куплен и В.
Для правил Важность вычисляется по следующей формуле:
Важность (А->B) = log(p(B|A)/p(B|not A))
Для правил Важность равная 0 означает, что между А и В нет взаимосвязи. Положительная важность означает, что вероятность в повышается тогда, когда справедливо А. Отрицательная вероятность означает, что вероятность в понижается тогда, когда справедливо А.
Алгоритм создает правила, которые используются для прогнозирования новых элементов на основе тех, которые алгоритм рассматривает как важные. Например, правило может гласить: «если пользователь приобрел книгу автора 1 и книгу автора 2, то он, вероятнее всего, также приобретет книгу автора 3». Прогнозам присваиваются вероятности появления на основе прочности взаимосвязей.
Полученная модель взаимосвязей состоит из рядов наборов элементов и правил, описывающих, как эти элементы группируются в вариантах. Правила, определяемые алгоритмом, могут использоваться для прогнозирования вероятных будущих наборов элементов на основе элементов, уже имеющихся в наборах. На рисунке 9 представлен ряд правил в наборе элементов.
Рисунок 9
Алгоритм поиска взаимосвязей потенциально может находить в наборе данных много правил. Для описания набора элементов и формируемых ими правил алгоритм использует два параметра: поддержка и вероятность. Например, если X и Y представляют два элемента, которые могут находиться в наборе, то параметр поддержки представляет собой количество вариантов в наборе данных, содержащих комбинацию элементов X и Y. Используя параметр поддержки в комбинации с пользовательскими параметрами минимальной и максимальной поддержки, алгоритм контролирует количество сформированных элементов. Параметр вероятности, называемый достоверность, представляет часть вариантов в наборе данных, содержащих X и Y. Используя параметр вероятности в комбинации с параметром минимальной вероятности, алгоритм контролирует количество сформированных правил.
Принцип работы алгоритма состоит в следующем. Алгоритм исследует набор данных для поиска элементов, которые находятся в варианте совместно. Затем алгоритм группирует в наборы элементов любые связанные элементы, найденные, как минимум, в количестве вариантов, определенных параметром минимальной поддержки.
Затем алгоритм формирует правила из наборов элементов. Правила используются для прогнозирования наличия элемента в наборе на основе наличия других определенных элементов, которые алгоритм определяет как значимые. Например, возможно правило "если Туристический 1000 = существующий и Контейнер для Фляги с водой = существующий, то Фляга с водой = существующий" с вероятностью 0,812. В этом примере алгоритм определяет, что если в покупательской корзине имеется туристическая шина 1000 и контейнер для фляги, то, вероятно (0,812) там может быть и фляга с водой.
Исходные данные могут быть организованы в виде таблицы транзакций и должны содержать один столбец с идентификаторами транзакций. Этот столбец определяет каждую группу элементов (имена или идентификаторы отдельных элементов в группе). Т.е. исходные данные должны содержать ключевой столбец, входные столбцы и один прогнозируемый столбец. Входные столбцы должны быть дискретными.
Источник данных должен быть отсортирован по столбцу идентификатора транзакций.
Алгоритм поддерживает следующие типы данных.
Типы содержимого входных столбцов |
Циклические, дискретные, дискретизированные, ключевые, табличные и упорядоченные |
Типы содержимого прогнозируемых столбцов |
Циклические, дискретные, дискретизированные, табличные и упорядоченные |