Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СППР_Часть2_New.doc
Скачиваний:
68
Добавлен:
24.11.2019
Размер:
1.49 Mб
Скачать

2.8 Контрольные вопросы

  1. В чем состоит задача классификации?

  2. Какие данные нужно иметь для построения модели классификации?

  3. Какие методы классификации вам известны и каковы особенности их использования?

  4. Как оценивают качество полученной модели классификации?

  5. Запишите модель логистической регрессии и опишите алгоритм оценки параметров логистической регрессии.

  6. Как кодируют категориальные переменные при решении задачи классификации?

  7. В чем состоит метод опорных векторов?

  8. Опишите алгоритм построения дискриминантной функции.

  9. На основании каких критериев выбирают переменную для ветвления при построении деревьев решений?

  10. Какие методы сокращения дерева решений и остановки построения дерева вы знаете?

3 Лабораторная работа №5 Предобработка данных

3.1 Понятие предобработки данных

На практике именно предобработка данных может стать наиболее трудоемким элементом нейросетевого анализа. Причем, знание основных принципов и приемов предобработки данных не менее, а может быть даже более важно, чем знание собственно нейросетевых алгоритмов. Последние как правило, уже "зашиты" в различных нейроэмуляторах, доступных на рынке. Сам же процесс решения прикладных задач, в том числе и подготовка данных, целиком ложится на плечи пользователя.

Предобработка данных является важным шагом при применении обучаемых с учителем нейросетей и определяет скорость обучения, величины ошибок обучения и обобщения и иные свойства сети.

Главная задача при предобработке данных - снижение избыточ­ности, что приведет к повышению информативности примеров и, тем самым, повысит качество нейропредсказаний. Эффективным методом отбора наиболее информативных входов является алгоритм box-counting. Эффективными являются также вейвлет-преобразование входных данных, фильтры Кальмана, спектральная обработка.

Рассмотрим предобработку количественных признаков.

3.2 Масштабирование

Для предобработки количественных величин чаще всего применяют линейный сдвиг интервала значения признака, например, в интервал [-1,1]. Формула пересчета значения признака x для i-го примера выборки в интервал [a,b] такова:

(3.1)

где хmax, хmin–- минимальное и максимальное выборочные значения признака.

При отсутствии жестких ограничений на диапазон значений предобработанного признака может быть выполнено масштабирование, дающее нулевое среднее и единичную дисперсию предобработанной величине, по формуле:

(3.2)

где – исходное выборочное среднее и среднее квадратичное отклонение.

Получение нулевых средних для входных сигналов сети ускоряет градиентное обучение, поскольку снижает отношение максимального и минимального ненулевого собственных чисел матрицы вторых производных целевой функции по параметрам сети.

Имеются и другие методы препроцессирования данных – линейная нормализация на (-1,+1) и нелинейное преобразование биполярным сигмоидом – гиперболическим тангенсом .

Иногда проводят и предварительную (перед линейным масштабированием) нелинейную предобработку например, логарифмирование. При одновременном же рассмотрении всего набора независимых признаков можно убрать линейные корреляции между признаками, что также положительно влияет на скорость обучения.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]