- •1. Методы анализа структурированных данных с использованием
- •1.1. Анализ временных рядов
- •1.2. Граничные методы
- •Метод опорных векторов
- •1.3. Деревья решений
- •1.4. Иерархические методы кластерного анализа
- •1.5. Неиерархические методы кластерного анализа
- •Алгоритм k-средних
- •1.6. Методы рассуждений на основе аналогичных случаев
- •1.7. Линейная регрессия
- •1.9. Наивная байесовская классификация
- •1.10. Нейронные сети
- •1.11. Поиск ассоциативных правил
- •2. Алгоритмы нахождения деревьев решений
- •2.1. Описание дерева решений
- •Подход к построению дерева решений
- •2.2. Анализ возможностей и ограничений метода деревьев решений
- •Области эффективного применения метода деревьев решений
- •3. Алгоритмы нахождения ассоциативных правил
- •3.1. Понятие ассоциативного правила.
- •Список литературы
1.2. Граничные методы
Граничные методы определяют классы, используя границы областей [14]. В некоторых простейших случаях классы можно разделить прямой линией. Каждый объект в данном случае характеризуется двумя измерениями. Набирающий популярность метод опорных векторов (Support Vector Machine — SVM) ищет образцы, расположенные на границах между двумя классами.
Метод опорных векторов
Метод опорных векторов (МОВ или SVM - Support Vector Machine) относится к группе граничных методов. Она определяет классы при помощи границ областей.
В общем виде задача классификации при использовании МОВ формулируется следующим образом. Имеется: пространство векторов X , m-мерное евклидово пространство Rm векторов-признаков изображения.
Пространство
ответов Y={1,-1} , где
означает,
что вектор
соответствует объекту одного класса,
а
,
что
соответствует объекту другого класса.
Пространство F
функций f: X -> Y, или пространство
функций-классификаторов. Требуется по
некоторому обучающему набору
найти
функцию f, так чтобы достигался
минимум среднеквадратической ошибки
.
Метод опорных
векторов основан на том, что ищется
линейное разделение классов. В этом
случае функция решения
,
и производится поиск параметров
и
b. Видно, что
-
уравнение разделяющей классы
гиперплоскости.
Все граничные методы на выходе не дают знаний в виде правил вида «если-то». Они дают только собственно функций разделяющих поверхностей. Следовательно, этот метод не удовлетворяет выбранному критерию вида представляемой зависимости.
1.3. Деревья решений
Метод деревьев решений является одним из наиболее популярных методов решения задач классификации [13, 22]. Иногда этот метод Data Mining также называют деревьями решающих правил, деревьями классификации.
Рассмотрим следующий пример. База данных, на основе которой должно осуществляться прогнозирование, содержит следующие структурированные данные о клиентах банка, являющиеся ее атрибутами: возраст, наличие недвижимости, образование, среднемесячный доход, вернул ли клиент вовремя кредит. Задача состоит в том, чтобы на основании перечисленных выше данных (кроме последнего атрибута) определить, стоит ли выдавать кредит новому клиенту.
Такая задача решается в два этапа:
- построение классификационной модели и ее использование. На этом этапе строится дерево классификации или создается набор неких правил вида «если - то».
- использование модели (построенного дерева) для получения ответа на поставленный вопрос «Выдавать ли кредит?»
Правилом является логическая конструкция, представленная в виде «если - то».
На рисунке приведен пример дерева классификации
Рис. 1.1. Дерево решений «Выдавать ли кредит?»
На рис. 1.1. изображено одно из возможных деревьев решений для рассматриваемой базы данных. Например, критерий расщепления «Какое образование?», мог бы иметь два предиката расщепления и выглядеть иначе: образование «высшее» и «не высшее». Тогда дерево решений имело бы другой вид.
Таким образом, для данной задачи (как и для любой другой) может быть построено множество деревьев решений различного качества, с различной прогнозирующей точностью.
Качество построенного дерева решения весьма зависит от правильного выбора критерия расщепления. Над разработкой и усовершенствованием критериев работают многие исследователи. Метод деревьев решений часто называют «наивным» подходом. Но благодаря целому ряду преимуществ, данный метод является одним из наиболее популярных для решения задач классификации.
