Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кондрашов ВСЕ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
11.52 Mб
Скачать

Метод линейной регрессии.

Формально задачу регрессии можно определить следующим образом. Имеется множество объектов

I={i1,i2, …ik,….in}, где ik – исследуемый объект.

Каждый объект характеризуется набором переменных

Ik = {x1,x2,…xh,…xm,y}, где xh – независимые переменные, значения которых известны и на основании которых определяется значение зависимой переменной y, которая принимает значение на множестве действительных чисел.

Задача построения функции регрессии можно описать как задачу выбора функции с минимальной ошибкой

, - множество всех возможных функций, с – функция потерь, yi – известное значение.

Если функция f линейная, то нахождение такой функции называется линейной регрессией.

Пример линейной регрессии:

mpg = 23,436-0,188*(power-104,469)-0,610*(accel-15,541)

В данном примере показана полученная алгоритмом зависимость экономичности автомобиля (пробег в милях на одном галлоне топлива в зависимости от параметров мощности - power и времени ускорения до 100 миль - accel)

Метод поиска взаимосвязей

Метод поиска взаимосвязей позволяет создать модель анализа данных, используя алгоритм ассоциативных правил. Алгоритм ассоциативных правил обнаруживает взаимосвязи между элементами, присутствующими вместе в нескольких транзакциях. Его можно использовать для поиска закономерностей, предсказывающих присутствие набора элементов, исходя из наличия существующих элементов.

Такие модели также полезны для выработки рекомендаций. Можно вырабатывать рекомендации продукта (продуктов) клиентам на основе тех продуктов, которые они уже купили.

Алгоритм построения правил взаимосвязей широко используется также при анализе потребительской корзины, позволяя предсказывать товары, которые, скорее всего, будут приобретены вместе.

Модели взаимосвязей строятся на наборах данных, содержащих идентификаторы для отдельных вариантов и входящих в них элементов. Группа элементов в варианте называется набор элементов.

Частый набор — это такой набор, который достаточно часто встречается в наборе данных.

Поддержка - порог частоты встреч для набора элементов и используется для измерения популярности набора элементов. Поддержка набора элементов {А, В} состоит из общего количества тран­закций, которые содержат как А, так и В.

Минимальная поддержка — это пороговый параметр, который можно задать перед запуском алгоритма. Он означает, что будут отбираться только те наборы элементов и правила, которые имеют хотя бы минимальную поддержку в наборе данных.

Параметр Минимальная поддержка используется для ограничения наборов элементов, но не правил.

Параметр Минимальная поддержка представляет количество вариантов для частотного порога набора элементов. Часто удобнее задавать этот параметр в процентах. Значение Минимальная поддержка=0,03 обозначает, что порог поддержки 3 процента.

Вероятность (достоверность) - это свойство правила взаимосвязей. Вероятность правила А->B (из А следует В) вычисляется по поддержке набора вариантов {А,B}, разделенной на поддержку {А }.

Минимальная достоверность - это пороговый параметр, который можно указать перед запуском алгоритма (означает, что интересуют только те правила, которые имеют высокую вероятность, превышающую минимальную). Параметр Минимальная достоверность не влияет на наборы элементов, но влияет на правила.

Важность (показатель интереса) используeтся для измерения наборов элементов и правил и определяется при помощи следующей формулы:

Важность ({А,В}) = Вероятность (А,В) / (Вероятность (A) * Вероятность (В) )

Если Важность =1, то А и В — независимые элементы. Это означает, что покупка продукта А и покупка продукта В — это два независимых события.

Если Важность < 1, то А и В имеют отрицательную корреляцию, т.е. означа­ет, что при покупке А, вряд ли будет куплен также и В.

Если Важность > 1, то А и В имеют положительную корреляцию, т.е. означа­ет, что при покупке А, очень вероятно, что будет куплен и В.

Для правил Важность вычисляется по следующей формуле:

Важность (А->B) = log(p(B|A)/p(B|not A))

Для правил Важность равная 0 означает, что между А и В нет взаимосвязи. Положительная важность означает, что вероятность в повышается тогда, когда справедливо А. Отрицательная вероятность означает, что вероятность в понижается тогда, когда справедливо А.

Алгоритм создает правила, которые используются для прогнозирования новых элементов на основе тех, которые алгоритм рассматривает как важные. Например, правило может гласить: «если пользователь приобрел книгу автора 1 и книгу автора 2, то он, вероятнее всего, также приобретет книгу автора 3». Прогнозам присваиваются вероятности появления на основе прочности взаимосвязей.

Полученная модель взаимосвязей состоит из рядов наборов элементов и правил, описывающих, как эти элементы группируются в вариантах. Правила, определяемые алгоритмом, могут использоваться для прогнозирования вероятных будущих наборов элементов на основе элементов, уже имеющихся в наборах. На рисунке 9 представлен ряд правил в наборе элементов.

Рисунок 9

Алгоритм поиска взаимосвязей потенциально может находить в наборе данных много правил. Для описания набора элементов и формируемых ими правил алгоритм использует два параметра: поддержка и вероятность. Например, если X и Y представляют два элемента, которые могут находиться в наборе, то параметр поддержки представляет собой количество вариантов в наборе данных, содержащих комбинацию элементов X и Y. Используя параметр поддержки в комбинации с пользовательскими параметрами минимальной и максимальной поддержки, алгоритм контролирует количество сформированных элементов. Параметр вероятности, называемый достоверность, представляет часть вариантов в наборе данных, содержащих X и Y. Используя параметр вероятности в комбинации с параметром минимальной вероятности, алгоритм контролирует количество сформированных правил.

Принцип работы алгоритма состоит в следующем. Алгоритм исследует набор данных для поиска элементов, которые находятся в варианте совместно. Затем алгоритм группирует в наборы элементов любые связанные элементы, найденные, как минимум, в количестве вариантов, определенных параметром минимальной поддержки.

Затем алгоритм формирует правила из наборов элементов. Правила используются для прогнозирования наличия элемента в наборе на основе наличия других определенных элементов, которые алгоритм определяет как значимые. Например, возможно правило "если Туристический 1000 = существующий и Контейнер для Фляги с водой = существующий, то Фляга с водой = существующий" с вероятностью 0,812. В этом примере алгоритм определяет, что если в покупательской корзине имеется туристическая шина 1000 и контейнер для фляги, то, вероятно (0,812) там может быть и фляга с водой.

Исходные данные могут быть организованы в виде таблицы транзакций и должны содержать один столбец с идентификаторами транзакций. Этот столбец определяет каждую группу элементов (имена или идентификаторы отдельных элементов в группе). Т.е. исходные данные должны содержать ключевой столбец, входные столбцы и один прогнозируемый столбец. Входные столбцы должны быть дискретными.

Источник данных должен быть отсортирован по столбцу идентификатора транзакций.

Алгоритм поддерживает следующие типы данных.

Типы содержимого входных столбцов

Циклические, дискретные, дискретизированные, ключевые, табличные и упорядоченные

Типы содержимого прогнозируемых столбцов

Циклические, дискретные, дискретизированные, табличные и упорядоченные