- •Системи підтримки прийняття рішень методичні вказівки
- •Частина 2
- •1 Задача классификации и оценка качества ее решения 4
- •2 Методи вирішення задач класифікації 15
- •3 Предобработка данных 66
- •4 Рекомендована література 75
- •1 Задача классификации и оценка качества ее решения
- •1.1 Постановка задачи
- •1.2 Методы, применяемые для решения задач классификации:
- •1.3 Геометрична інтерпретація задачі класифікації
- •1.4 Оцінка якості моделі класифікації
- •1.5 Контрольные вопросы
- •2 Лабораторная работа № 4
- •2.1 Дискриминантный анализ
- •2.2 Логистическая регрессия
- •Пример на модельных данных % Перед началом работы алгоритма задаются начальные % значения параметров.
- •2.3 Классификация на основе дерева решений
- •1. Создание дерева решений
- •2. Прогнозирование с использованием полученного дерева решений.
- •3. Сокращение дерева.
- •4. Тестирование качества классификации
- •2.4 Метод k-ближайших соседей
- •Алгоритм knn
- •Простое невзвешенное голосование
- •Взвешенное голосование
- •Пример работы алгоритма knn
- •Области применения алгоритма knn
- •2.5 Наивный байесовский классификатор
- •2.6 Метод опорных векторов
- •2.7 Задания к лабораторной работе
- •2.8 Контрольные вопросы
- •3 Лабораторная работа №5 Предобработка данных
- •3.1 Понятие предобработки данных
- •3.2 Масштабирование
- •3.3 Сокращение размерности
- •3.3.2 Какие именно признаки брать – общий подход
- •3.3 Пример задачи прогнозирования с предварительной
- •3.4 Задания к лабораторной работе
- •3.5 Контрольные вопросы
- •4 Литература
МІНІСТЕРСТВО ОСВІТИ ТА НАУКИ УКРАЇНИ
Запорізький національний технічний університет
Системи підтримки прийняття рішень методичні вказівки
і завдання до лабораторних робіт
для студентів денної форми навчання
спеціальності 4.03603 – Системний аналіз
Частина 2
2012
Системи підтримки прийняття рішень. Методичні вказівки і завдання до лабораторних робіт для студентів денної форми навчання спеціальності 4.03603 – Системний аналіз. Частина 2. / Укл.: Біла Н.І.,– Запоріжжя: ЗНТУ, 2012. – с. 70.
Містить теоретичні відомості, індивідуальні завдання до лабораторних робіт та приклади із курсу «Системи підтримки прийняття рішень»
Укладачі: Біла Н.І. доцент,
Рецензенти: Пінчук В.П., доцент
Вишневська В.Г., доцент.
Відповідальний за випуск Корніч Г.В., зав.кафедрою, професор
Затверджено на засіданні кафедри
обчислювальної математики,
протокол № 1 від 15.10.2012
Зміст
1 Задача классификации и оценка качества ее решения 4
1.1 Постановка задачи 4
1.2 Методы, применяемые для решения задач классификации
1.3 Геометрическая интерпретация задачи классификации 6
1.4 Оценка качества модели классификации 7
1.5 Контрольные вопросы 14
2 Методи вирішення задач класифікації 15
2.1 Дискримінантний аналіз 15
2.2 Логістична регресія 31
2.3 Дерева рішень 34
2.4 Метод k-найближчих сусідів 48
2.5 Наївний байєсовський класифікатор 54
2.5 Метод опорних векторів 55
2.6 Завдання до лабораторної роботи 61
2.7 Контрольні запитання 65
3 Предобработка данных 66
3.1 Понятие предобработки данных
3.2 Масштабирование
3.3 Сокращение размерности
3.4 Задания к лабораторной работе
3.5 Контрольные вопросы
4 Рекомендована література 75
1 Задача классификации и оценка качества ее решения
1.1 Постановка задачи
Задача классификации – это задача разбиения множества объектов или наблюдений на априорно заданные группы, называемые классами, внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. При этом решение получается на основе анализа значений атрибутов (признаков).
Классификация является одной из важнейших задач Data Mining. Она применяется в маркетинге при оценке кредитоспособности заемщиков, определении лояльности клиентов, распознавании образов, медицинской диагностике и многих других приложениях. Если аналитику известны свойства объектов каждого класса, то когда новое наблюдение относится к определенному классу, данные свойства автоматически распространяются и на него.
Если число классов ограничено двумя, то имеет место бинарная классификация, к которой могут быть сведены многие более сложные задачи. Например, вместо определения таких степеней кредитного риска, как «Высокий», «Средний» или «Низкий», можно использовать всего две - «Выдать» или «Отказать».
Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием чаще всего выступает база данных. Каждая запись базы данных несет информацию о некотором свойстве объекта.
Набор исходных данных (выборку данных) разбивают на два множества: обучающая (training set) и тестовая (test set).
В обучающую выборку входят объекты, для которых известны значения как независимых, так и зависимых переменных. На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации. Для получения максимально точной функции к обучающей выборке предъявляются такие основные требования:
количество объектов, которые входят в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на их основе функция классификации будет точнее;
в выборку должны входить объекты, которые представляют все возможные классы;
для каждого класса выборка должна иметь достаточное количество объектов.
Тестовое (test set) множество также содержит входные и выходные значения параметров. Здесь выходные значения используются для проверки работоспособности модели.
Процесс классификации состоит из двух этапов: конструирование модели и ее использование.
a) Конструирование модели: описание множества определенных классов.
Каждый пример набора данных относится к одному из определенных классов.
На этом этапе используется обучающее множество, на нем происходит конструирование модели.
Полученная модель представлена классификационными правилами, деревом решений или математической формулой.
б) Использование модели: классификация новых или неизвестных значений.
Оценка правильности (точности) модели. Известные значения из тестового набора сравниваются с результатами использования полученной модели. За уровень точности принимается процент правильно классифицированных примеров в тестовом множестве.
Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.
Основные проблемы, с которыми сталкиваются при решении задач классификации, - это неудовлетворительное качество входных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, разные типы атрибутов - числовые и категориальные, разная значимость атрибутов, а также так называемые проблемы overfitting и underfltting. Суть первой с них состоит в том, что классификационная функция при построению "слишком хорошо" адаптируется к данным, и ошибки, которые встречаются в них, и аномальные значения старается интерпретировать как часть внутренней структуры данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет немного другим. Сроком underfltting обозначают ситуацию, когда наблюдается слишком большое количество ошибок при проверке классификатора на учебном множестве. Это означает, что особых закономерностей в данных не было выявлено и или их нет вообще, или необходимо выбрать другой метод их выявления.