Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СППР_Часть2_New.doc
Скачиваний:
50
Добавлен:
24.11.2019
Размер:
1.49 Mб
Скачать

75

МІНІСТЕРСТВО ОСВІТИ ТА НАУКИ УКРАЇНИ

Запорізький національний технічний університет

Системи підтримки прийняття рішень методичні вказівки

і завдання до лабораторних робіт

для студентів денної форми навчання

спеціальності 4.03603 – Системний аналіз

Частина 2

2012

Системи підтримки прийняття рішень. Методичні вказівки і завдання до лабораторних робіт для студентів денної форми навчання спеціальності 4.03603 – Системний аналіз. Частина 2. / Укл.: Біла Н.І.,– Запоріжжя: ЗНТУ, 2012. – с. 70.

Містить теоретичні відомості, індивідуальні завдання до лабораторних робіт та приклади із курсу «Системи підтримки прийняття рішень»

Укладачі: Біла Н.І. доцент,

Рецензенти: Пінчук В.П., доцент

Вишневська В.Г., доцент.

Відповідальний за випуск Корніч Г.В., зав.кафедрою, професор

Затверджено на засіданні кафедри

обчислювальної математики,

протокол № 1 від 15.10.2012

Зміст

1 Задача классификации и оценка качества ее решения 4

1.1 Постановка задачи 4

1.2 Методы, применяемые для решения задач классификации

1.3 Геометрическая интерпретация задачи классификации 6

1.4 Оценка качества модели классификации 7

1.5 Контрольные вопросы 14

2 Методи вирішення задач класифікації 15

2.1 Дискримінантний аналіз 15

2.2 Логістична регресія 31

2.3 Дерева рішень 34

2.4 Метод k-найближчих сусідів 48

2.5 Наївний байєсовський класифікатор 54

2.5 Метод опорних векторів 55

2.6 Завдання до лабораторної роботи 61

2.7 Контрольні запитання 65

3 Предобработка данных 66

3.1 Понятие предобработки данных

3.2 Масштабирование

3.3 Сокращение размерности

3.4 Задания к лабораторной работе

3.5 Контрольные вопросы

4 Рекомендована література 75

1 Задача классификации и оценка качества ее решения

1.1 Постановка задачи

Задача классификации – это задача разбиения множества объектов или наблюдений на априорно заданные группы, называемые классами, внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. При этом решение получается на основе анализа значений атрибутов (признаков).

Классификация является одной из важнейших задач Data Mining. Она применяется в маркетинге при оценке кредитоспособности заемщиков, определении лояльности клиентов, распознавании образов, медицинской диагностике и многих других приложениях. Если аналитику известны свойства объектов каждого класса, то когда новое наблюдение относится к определенному классу, данные свойства автоматически распространяются и на него.

Если число классов ограничено двумя, то имеет место бинарная классификация, к которой могут быть сведены многие более сложные задачи. Например, вместо определения таких степеней кредитного риска, как «Высокий», «Средний» или «Низкий», можно использовать всего две - «Выдать» или «Отказать».

Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием чаще всего выступает база данных. Каждая запись базы данных несет информацию о некотором свойстве объекта.

Набор исходных данных (выборку данных) разбивают на два множества: обучающая (training set) и тестовая (test set).

В обучающую выборку входят объекты, для которых известны значения как независимых, так и зависимых переменных. На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации. Для получения максимально точной функции к обучающей выборке предъявляются такие основные требования:

  • количество объектов, которые входят в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на их основе функция классификации будет точнее;

  • в выборку должны входить объекты, которые представляют все возможные классы;

  • для каждого класса выборка должна иметь достаточное количество объектов.

Тестовое (test set) множество также содержит входные и выходные значения параметров. Здесь выходные значения используются для проверки работоспособности модели.

Процесс классификации состоит из двух этапов: конструирование модели и ее использование.

a) Конструирование модели: описание множества определенных классов.

  1. Каждый пример набора данных относится к одному из определенных классов.

  2. На этом этапе используется обучающее множество, на нем происходит конструирование модели.

  3. Полученная модель представлена классификационными правилами, деревом решений или математической формулой.

б) Использование модели: классификация новых или неизвестных значений.

  1. Оценка правильности (точности) модели. Известные значения из тестового набора сравниваются с результатами использования полученной модели. За уровень точности принимается процент правильно классифицированных примеров в тестовом множестве.

  2. Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.

Основные проблемы, с которыми сталкиваются при решении задач классификации, - это неудовлетворительное качество входных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, разные типы атрибутов - числовые и категориальные, разная значимость атрибутов, а также так называемые проблемы overfitting и underfltting. Суть первой с них состоит в том, что классификационная функция при построению "слишком хорошо" адаптируется к данным, и ошибки, которые встречаются в них, и аномальные значения старается интерпретировать как часть внутренней структуры данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет немного другим. Сроком underfltting обозначают ситуацию, когда наблюдается слишком большое количество ошибок при проверке классификатора на учебном множестве. Это означает, что особых закономерностей в данных не было выявлено и или их нет вообще, или необходимо выбрать другой метод их выявления.