- •Системи підтримки прийняття рішень методичні вказівки
- •Частина 2
- •1 Задача классификации и оценка качества ее решения 4
- •2 Методи вирішення задач класифікації 15
- •3 Предобработка данных 66
- •4 Рекомендована література 75
- •1 Задача классификации и оценка качества ее решения
- •1.1 Постановка задачи
- •1.2 Методы, применяемые для решения задач классификации:
- •1.3 Геометрична інтерпретація задачі класифікації
- •1.4 Оцінка якості моделі класифікації
- •1.5 Контрольные вопросы
- •2 Лабораторная работа № 4
- •2.1 Дискриминантный анализ
- •2.2 Логистическая регрессия
- •Пример на модельных данных % Перед началом работы алгоритма задаются начальные % значения параметров.
- •2.3 Классификация на основе дерева решений
- •1. Создание дерева решений
- •2. Прогнозирование с использованием полученного дерева решений.
- •3. Сокращение дерева.
- •4. Тестирование качества классификации
- •2.4 Метод k-ближайших соседей
- •Алгоритм knn
- •Простое невзвешенное голосование
- •Взвешенное голосование
- •Пример работы алгоритма knn
- •Области применения алгоритма knn
- •2.5 Наивный байесовский классификатор
- •2.6 Метод опорных векторов
- •2.7 Задания к лабораторной работе
- •2.8 Контрольные вопросы
- •3 Лабораторная работа №5 Предобработка данных
- •3.1 Понятие предобработки данных
- •3.2 Масштабирование
- •3.3 Сокращение размерности
- •3.3.2 Какие именно признаки брать – общий подход
- •3.3 Пример задачи прогнозирования с предварительной
- •3.4 Задания к лабораторной работе
- •3.5 Контрольные вопросы
- •4 Литература
2.8 Контрольные вопросы
В чем состоит задача классификации?
Какие данные нужно иметь для построения модели классификации?
Какие методы классификации вам известны и каковы особенности их использования?
Как оценивают качество полученной модели классификации?
Запишите модель логистической регрессии и опишите алгоритм оценки параметров логистической регрессии.
Как кодируют категориальные переменные при решении задачи классификации?
В чем состоит метод опорных векторов?
Опишите алгоритм построения дискриминантной функции.
На основании каких критериев выбирают переменную для ветвления при построении деревьев решений?
Какие методы сокращения дерева решений и остановки построения дерева вы знаете?
3 Лабораторная работа №5 Предобработка данных
3.1 Понятие предобработки данных
На практике именно предобработка данных может стать наиболее трудоемким элементом нейросетевого анализа. Причем, знание основных принципов и приемов предобработки данных не менее, а может быть даже более важно, чем знание собственно нейросетевых алгоритмов. Последние как правило, уже "зашиты" в различных нейроэмуляторах, доступных на рынке. Сам же процесс решения прикладных задач, в том числе и подготовка данных, целиком ложится на плечи пользователя.
Предобработка данных является важным шагом при применении обучаемых с учителем нейросетей и определяет скорость обучения, величины ошибок обучения и обобщения и иные свойства сети.
Главная задача при предобработке данных - снижение избыточности, что приведет к повышению информативности примеров и, тем самым, повысит качество нейропредсказаний. Эффективным методом отбора наиболее информативных входов является алгоритм box-counting. Эффективными являются также вейвлет-преобразование входных данных, фильтры Кальмана, спектральная обработка.
Рассмотрим предобработку количественных признаков.
3.2 Масштабирование
Для предобработки количественных величин чаще всего применяют линейный сдвиг интервала значения признака, например, в интервал [-1,1]. Формула пересчета значения признака x для i-го примера выборки в интервал [a,b] такова:
(3.1)
где хmax, хmin- минимальное и максимальное выборочные значения признака.
При отсутствии жестких ограничений на диапазон значений предобработанного признака может быть выполнено масштабирование, дающее нулевое среднее и единичную дисперсию предобработанной величине, по формуле:
(3.2)
где
исходное выборочное среднее и среднее
квадратичное отклонение.
Получение нулевых средних для входных сигналов сети ускоряет градиентное обучение, поскольку снижает отношение максимального и минимального ненулевого собственных чисел матрицы вторых производных целевой функции по параметрам сети.
Имеются
и другие методы препроцессирования
данных – линейная нормализация на
(-1,+1) и нелинейное преобразование
биполярным сигмоидом – гиперболическим
тангенсом
.
Иногда проводят и предварительную (перед линейным масштабированием) нелинейную предобработку например, логарифмирование. При одновременном же рассмотрении всего набора независимых признаков можно убрать линейные корреляции между признаками, что также положительно влияет на скорость обучения.
