Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Запорожский национальный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

СППР_Часть2_New.doc

Скачиваний:

Добавлен:

24.11.2019

Размер:

1.49 Mб

Скачать

☆

1 / 141 2 3 4 5 6 7 8 9 10 11 12 13 14 > Следующая >>>

МІНІСТЕРСТВО ОСВІТИ ТА НАУКИ УКРАЇНИ

Запорізький національний технічний університет

Системи підтримки прийняття рішень методичні вказівки

і завдання до лабораторних робіт

для студентів денної форми навчання

спеціальності 4.03603 – Системний аналіз

Частина 2

2012

Системи підтримки прийняття рішень. Методичні вказівки і завдання до лабораторних робіт для студентів денної форми навчання спеціальності 4.03603 – Системний аналіз. Частина 2. / Укл.: Біла Н.І.,– Запоріжжя: ЗНТУ, 2012. – с. 70.

Містить теоретичні відомості, індивідуальні завдання до лабораторних робіт та приклади із курсу «Системи підтримки прийняття рішень»

Укладачі: Біла Н.І. доцент,

Рецензенти: Пінчук В.П., доцент

Вишневська В.Г., доцент.

Відповідальний за випуск Корніч Г.В., зав.кафедрою, професор

Затверджено на засіданні кафедри

обчислювальної математики,

протокол № 1 від 15.10.2012

Зміст

1 Задача классификации и оценка качества ее решения 4

1.1 Постановка задачи 4

1.2 Методы, применяемые для решения задач классификации

1.3 Геометрическая интерпретация задачи классификации 6

1.4 Оценка качества модели классификации 7

1.5 Контрольные вопросы 14

2 Методи вирішення задач класифікації 15

2.1 Дискримінантний аналіз 15

2.2 Логістична регресія 31

2.3 Дерева рішень 34

2.4 Метод k-найближчих сусідів 48

2.5 Наївний байєсовський класифікатор 54

2.5 Метод опорних векторів 55

2.6 Завдання до лабораторної роботи 61

2.7 Контрольні запитання 65

3 Предобработка данных 66

3.1 Понятие предобработки данных

3.2 Масштабирование

3.3 Сокращение размерности

3.4 Задания к лабораторной работе

3.5 Контрольные вопросы

4 Рекомендована література 75

1 Задача классификации и оценка качества ее решения

1.1 Постановка задачи

Задача классификации – это задача разбиения множества объектов или наблюдений на априорно заданные группы, называемые классами, внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. При этом решение получается на основе анализа значений атрибутов (признаков).

Классификация является одной из важнейших задач Data Mining. Она применяется в маркетинге при оценке кредитоспособности заемщиков, определении лояльности клиентов, распознавании образов, медицинской диагностике и многих других приложениях. Если аналитику известны свойства объектов каждого класса, то когда новое наблюдение относится к определенному классу, данные свойства автоматически распространяются и на него.

Если число классов ограничено двумя, то имеет место бинарная классификация, к которой могут быть сведены многие более сложные задачи. Например, вместо определения таких степеней кредитного риска, как «Высокий», «Средний» или «Низкий», можно использовать всего две - «Выдать» или «Отказать».

Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием чаще всего выступает база данных. Каждая запись базы данных несет информацию о некотором свойстве объекта.

Набор исходных данных (выборку данных) разбивают на два множества: обучающая (training set) и тестовая (test set).

В обучающую выборку входят объекты, для которых известны значения как независимых, так и зависимых переменных. На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации. Для получения максимально точной функции к обучающей выборке предъявляются такие основные требования:

количество объектов, которые входят в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на их основе функция классификации будет точнее;
в выборку должны входить объекты, которые представляют все возможные классы;
для каждого класса выборка должна иметь достаточное количество объектов.

Тестовое (test set) множество также содержит входные и выходные значения параметров. Здесь выходные значения используются для проверки работоспособности модели.

Процесс классификации состоит из двух этапов: конструирование модели и ее использование.

a) Конструирование модели: описание множества определенных классов.

Каждый пример набора данных относится к одному из определенных классов.
На этом этапе используется обучающее множество, на нем происходит конструирование модели.
Полученная модель представлена классификационными правилами, деревом решений или математической формулой.

б) Использование модели: классификация новых или неизвестных значений.

Оценка правильности (точности) модели. Известные значения из тестового набора сравниваются с результатами использования полученной модели. За уровень точности принимается процент правильно классифицированных примеров в тестовом множестве.
Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.

Основные проблемы, с которыми сталкиваются при решении задач классификации, - это неудовлетворительное качество входных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, разные типы атрибутов - числовые и категориальные, разная значимость атрибутов, а также так называемые проблемы overfitting и underfltting. Суть первой с них состоит в том, что классификационная функция при построению "слишком хорошо" адаптируется к данным, и ошибки, которые встречаются в них, и аномальные значения старается интерпретировать как часть внутренней структуры данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет немного другим. Сроком underfltting обозначают ситуацию, когда наблюдается слишком большое количество ошибок при проверке классификатора на учебном множестве. Это означает, что особых закономерностей в данных не было выявлено и или их нет вообще, или необходимо выбрать другой метод их выявления.

1 / 141 2 3 4 5 6 7 8 9 10 11 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.11.2019541.18 Кб0Спеціаліст диплом Гудзь.doc
#
07.02.20165.55 Mб3специалист организация паша списки.pdf
#
07.07.2019252.42 Кб3СПиОС.doc
#
08.05.2019225.28 Кб16Спортивная Биохимия коротко.doc
#
11.11.20192.14 Mб85СППР_Часть1.doc
#
24.11.20191.49 Mб50СППР_Часть2_New.doc
#
18.08.20193.47 Mб2СР.СИГН..doc
#
09.11.2019347.65 Кб6СРС(2013).doc
#
22.09.2019434.18 Кб3СТАНДАРТ ПІДПРИЄМСТВА.doc
#
07.02.2016658.94 Кб52Статистика РОБОЧИЙ ЗОШИТ3.doc
#
07.02.2016661.47 Кб223Статистика. Конспект лекций.pdf