Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2117

.pdf
Скачиваний:
2
Добавлен:
15.11.2022
Размер:
1.18 Mб
Скачать

анализируемых данных, так и для предсказания появления событий;

задача кластеризации – поиск независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных; решение этой задачи помогает лучше понять данные и, кроме того, группировка однородных объектов позволяет сократить их число, а следовательно, и облегчить анализ.

Перечисленные задачи по назначению делятся на описательные и предсказательные.

Описательные задачи уделяют внимание улучшению понимания анализируемых данных. Ключевой момент в таких моделях — легкость и прозрачность результатов для восприятия человеком. Возможно, обнаруженные закономерности будут специфической чертой именно конкретных исследуемых данных и больше нигде не встретятся, но это все равно может быть полезно и потому должно быть известно. К такому виду задач относятся кластеризация и поиск ассоциативных правил.

Решение предсказательных задач разбивается на два этапа. На первом этапе на основании набора данных с известными результатами строится модель. На втором этапе она используется для предсказания результатов на основании новых наборов данных. При этом, естественно, требуется, чтобы построенные модели работали максимально точно. К данному виду задач относят задачи классификации и регрессии. Сюда можно отнести и задачу поиска ассоциативных правил, если результаты ее решения могут быть использованы для предсказания появления некоторых событий.

На практике технологии Data Mining применяются в следующих областях:

интернет–технологии – построение рекомендательных систем интернет–магазинов и персонализация посетителей web–сайтов, анализ и последующая фильтрация спама;

торговля – анализ рыночных корзин, сиквенциальный анализ (нахождение временных закономерностей между

71

покупками) – помогает принимать решения о создании товарных запасов, выделение групп потребителей со схожими стереотипами поведения;

телекоммуникации – анализ записей о подробных характеристика вызовов с целью выделения групп потребителей со схожими стереотипами поведения и разработки для них привлекательных наборов цен и услуг;

медицина – построение экспертных систем для постановки диагнозов на основе правил, описывающих сочетания различных симптомов отдельных заболеваний;

банковское дело – оценка кредитоспособности клиентов на основе анализа кредитной истории и установление параметров кредита (лимит, проценты, срок возврата), выявление случаев мошенничества со счетами и банковскими каратами на основе анализа большого числа операций;

страховой бизнес – определение типичных групп клиентов для предложения услуг страхования с наименьшим для компаний риском, выявление случаев мошенничества.

4.4. Методы Data Mining

4.4.1. Классификация методов Data Mining

К базовым методам Data Mining относятся:

алгоритмы, основанные на переборе – являются достаточно простыми как для понимания, так и для реализации, однако требуют выполнения большого числа операций, что сильно затрудняет их использование для анализа данных большого объема; для уменьшения вычислительной сложности таких алгоритмов, как правило, применяются различные эвристические правила, приводящие к сокращению операций перебора;

методы, использующие элементы теории статистики (корреляционный, регрессионный и другие методы статистического анализа), главным недостатком которых

является усреднение значений, что приводит к потере

72

информативности данных и уменьшению числа добываемых знаний.

Кроме базовых, Data Mining активно использует алгоритмы нечеткой логики, генетический алгоритм и нейронные сети.

4.4.2. Поиск ассоциативных правил

Одной из наиболее распространенных задач анализа данных является определение взаимосвязей между двумя или более событиями. Такие зависимости формулируются в виде ассоциативных правил, используемых как для количественного описания связей между объектами, так и для предсказания появления событий.

Например, поиск ассоциативных правил используется для анализа рыночных корзин – выявления наборов часто покупаемых вместе продуктов, определения профиля клиентов с целью предложения нужных именно им товаров и т.д.

Ассоциативное правило формулируется в виде «если условие, то следствие» и обозначается X Y (если X, то Y).

Основным достоинством правил является их легкое восприятие человеком, однако они не всегда полезны. Выделяют три вида правил:

полезные правила – содержат информацию, которая ранее была неизвестна, но имеет логичное объяснение; такие правила могут быть использованы для принятия решений, приносящих выгоду;

тривиальные правила – содержат легко объясняемую информацию, которая уже известна; такие правила не могут принести какой–либо пользы, т.к. отражают или известные законы предметной области или результаты прошлой деятельности;

непонятные правила – содержат информацию, которая не может быть объяснена; такие правила могут быть получены или на основе аномальных значений, или глубоко скрытых

73

знаний, их использование для принятия решений может привести к непредсказуемым результатам.

Для оценки ассоциативных правил вводится понятие транзакция – некоторое множество событий, происходящих совместно. Типичный пример транзакции – покупка клиентом товаров (одного или нескольких одновременно).

Каждое ассоциативное правило численно характеризуется следующими показателями:

поддержка – отношение числа транзакций, содержащих как условие правила, так и его следствие, к общему количеству транзакций;

достоверность – отношение числа транзакций, содержащих и условие, и следствие, к количеству транзакций, содержащих только условие.

Если поддержка и достоверность правила достаточно высоки, то можно с большой вероятностью предсказать, что любая транзакция, включающая условие, также будет содержать и следствие правила.

При поиске ассоциативных правил специалист–аналитик задает минимальные значения поддержки и достоверности. Правила, для которых данные характеристики превышают минимально допустимые, называются сильными.

Простейший алгоритм поиска ассоциативных правил просматривает все возможные комбинации условий и следствий, оценивает их поддержку и достоверность, а затем исключает правила, не удовлетворяющие заданным ограничениям. Однако при работе с реальной базой данных, содержащей огромное число транзакций, каждая из которых может включать от одного до тысяч объектов, такой поиск будет малоэффективным из–за больших вычислительных затрат.

Поэтому в процессе генерации ассоциативных правил широко используются методики, позволяющие уменьшить число ассоциаций, которые требуется проанализировать. Одной из наиболее распространенных является методика, основанная на обнаружении так называемых частых наборов,

74

когда анализируются только те ассоциации, которые встречаются достаточно часто. На этой концепции основан известный алгоритм Apriori.

Основными шагами данного алгоритма являются следующие:

1. Поиск частых наборов, т.е. наборов, встречающихся чаще, чем в заданном количестве транзакций.

Чтобы сократить пространство поиска ассоциативных правил, алгоритм Apriori использует свойство антимонотонности, утверждающее, что если набор не является частым, то добавление к нему некоторого нового предмета не делает его более частым.

Поиск частых наборов проходит в несколько этапов, при этом на каждом i–м этапе определяются часто встречающиеся i–элементные наборы. Так, на первом этапе формируется список L1 из всех 1–элементных наборов, из которого

отбрасываются наборы, чья поддержка и достоверность меньше определенного пользователем минимума. На втором этапе формируется список L2 из 2–элементных наборов, при этом по свойству антимонотонности рассматриваются только комбинации элементов из списка L1 . Полученный список L2

также сокращается по условию минимальной поддержки и достоверности и т.д.

2. Генерирование на основе таких наборов ассоциативных правил, удовлетворяющих условиям минимальной поддержки и достоверности.

4.4.3. Деревья решений

При решении задач описания и классификации данных успешно используются деревья решений – модели представления правил в иерархической последовательной структуре, в которой каждому узлу соответствует проверка определенного атрибута исследуемого объекта. По результатам проверки формируются два или более дочерних узла, для

75

которых значения атрибута удовлетворяют или не удовлетворяют правилу в родительском узле.

Деревья решений строятся на основе обучающей выборки, в которой известна принадлежность объектов к конкретным классам, и в дальнейшем используются для классификации новых объектов.

Классический алгоритм построения дерева решений заключается в следующем. В корневом узле происходит разделение объектов обучающей выборки на два или более подмножества на основе значений атрибута, выбранного в соответствии с критерием разделения. Для каждого из полученных подмножеств создается дочерний узел. Затем процесс ветвления повторяется для каждого дочернего узла до тех пор, пока не будет выполнено одно из условий остановки алгоритма.

В настоящее время разработано большое количество алгоритмов построения деревьев решений. Они отличаются способом отбора атрибутов для разбиения в каждом узле, условиями остановки и методикой упрощения построенного дерева.

Упрощение дерева (отсечение ветвей) заключается в том, что после его построения удаляются те узлы, правила в которых имеют низкую ценность, поскольку относятся к небольшому числу примеров.

4.4.4. Искусственные нейронные сети

Такие инструменты Data Mining, как регрессионный анализ и деревья решений, довольно успешно применяются для решения задач классификации и прогнозирования. Однако они не являются универсальными и не всегда позволяют разделить исходное множество элементов на классы с приемлемой точностью, особенно, если зависимости между признаками нелинейные. В таком случае применяются более сложные модели – нейронные сети.

76

Нейронные сети, или искусственные нейронные сети, представляют собой модели, которые в процессе функционирования имитируют работу головного мозга. Нейронная сеть состоит из простейших вычислительных элементов – искусственных нейронов, связанных между собой. Каждый нейрон имеет несколько входных и одну выходную связь. Каждая входная связь обладает весом, на который умножается сигнал, поступающий по ней с выхода другого нейрона. Каждый нейрон выполняет простейшее преобразование взвешенное суммирование своих входов (рис.

16).

x

1

w 1

 

S

 

 

y

 

 

 

y

f (S)

x

2

 

 

 

 

 

x n

w

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 16. Искусственный нейрон

В нейронных сетях нейроны объединяются в слои, при этом выходы нейронов предыдущего слоя являются входами нейронов следующего слоя. В каждом слое нейроны выполняют параллельную обработку данных. Пример нейронной сети представлен на рис. 17.

x1

y1

x

2

y 2

 

 

Рис. 17. Пример простейшей нейронной сети

Первый слой называется входным, его нейроны обеспечивают ввод в сеть входного вектора X {x1, x 2 } и

77

распределяют его по нейронам следующего слоя. Нейроны последнего слоя, обеспечивающие вывод результатов, называются выходными и образуют выходной слой. Между входным и выходным нейронами расположены один или несколько промежуточных слоев, называемых скрытыми. Именно в скрытых слоях производится основная обработка данных.

В процессе работы нейронной сети значения входных переменных x i передаются по межнейронным связям и

умножаются на весовые коэффициенты w i , полученные

значения суммируются в нейроне. Также в каждом нейроне выполняется простое преобразование с помощью активационной функции f (S) , обычно нелинейной.

В результате преобразования значений входного вектора всеми нейронами сети на ее выходе формируется вектор результата (выходной вектор) Y {y1, y2} .

4.4.5. Нечеткая логика

Математическая теория нечеткой логики появилась в результате наличия нечетких и приближенных рассуждений при описании человеком процессов, систем и объектов.

В основе нечеткой логики лежит возможность работы с нечеткими множествами, с помощью которых можно формально определить неточные и многозначные понятия («средний возраст», «высокий доход», «неблагонадежный заемщик» и т.д.).

Нечеткое множество – множество упорядоченных пар вида X {x, (x)} , где (x) – функция принадлежности,

обозначающая степень принадлежности элемента x к нечеткому множеству X. Функция принадлежности может принимать значения в интервале [0, 1] , при этом (x) 0 означает отсутствие принадлежности элемента x множеству, а

(x) 1 означает полную принадлежность.

78

Совокупность нечетких множеств, относящихся к одному объекту, образует лингвистическую переменную.

Например, лингвистическая переменная Доход может принимать значения {Низкий, Средний, Высокий}. Пусть функции принадлежности для каждого нечеткого множества заданы четверкой чисел: Низкий = {0, 0, 20, 30}, Средний =

{20, 30, 60, 70}, Высокий = {50, 70, 100, 100}. Графическая иллюстрация лингвистической переменной Доход приведена на рис. 18.

(x)

Низкий

Средний

Высокий

1

0

20

40

60

80

100 X

Рис. 18. Графическая иллюстрация лингвистической переменной

Математический аппарат нечеткой логики успешно включается в состав практически всех алrоритмов Data Mining; так появились нечеткие нейронные сети, нечеткие деревья решений, нечеткие ассоциативные правила. Объединение технологии баз данных и нечетких запросов позволяет аналитикам получать нечеткие срезы и т.д.

79

p(xi )

4.4.6. Генетический алгоритм

Генетический алгоритм является методом случайного управляемого поиска оптимального решения с использованием набора эвристических правил, основанных на процессах эволюционного развития биологических популяций – естественного отбора, скрещивания, замещении и мутации. Потенциальные решения в генетическом алгоритме представляются в виде популяции хромосом, каждая из которых имеет в своем составе набор генов.

Основными этапами генетического алгоритма являются:

выбор наиболее перспективных на данный момент решений (хромосом);

скрещивание (кроссовер) выбранных хромосом;

включение полученных в результате скрещивания хромосом в популяцию с замещением наихудших хромосом;

мутация хромосом.

К настоящему времени разработано несколько способов

представления решений в виде хромосом.

 

Самым

распространенным

является

бинарное

кодирование, когда каждая хромосома представляется в виде последовательности 0 и 1. Такой способ, как правило, используется при решении целочисленных задач оптимизации. Однако для отдельных типов задач удобней использовать хромосомы, в которых каждый ген кодируется численным значением или некой константой (строковой или числовой).

Пусть

популяция

состоит

из

множества

хромосом X

x1,...xn , где n – размер популяции. В качестве

методов селекции родительских хромосом из множества X используются следующие наиболее часто используется метод рулетки, согласно которому вероятность выбора i–й хромосомы ( i 1,..., n ) пропорциональна удельному весу

соответствующего ей значения целевой функции F(xi ) в суммарной функциональной оценке всей популяции, т.е.

80

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]