2.8 Контрольные вопросы

В чем состоит задача классификации?
Какие данные нужно иметь для построения модели классификации?
Какие методы классификации вам известны и каковы особенности их использования?
Как оценивают качество полученной модели классификации?
Запишите модель логистической регрессии и опишите алгоритм оценки параметров логистической регрессии.
Как кодируют категориальные переменные при решении задачи классификации?
В чем состоит метод опорных векторов?
Опишите алгоритм построения дискриминантной функции.
На основании каких критериев выбирают переменную для ветвления при построении деревьев решений?
Какие методы сокращения дерева решений и остановки построения дерева вы знаете?

3 Лабораторная работа №5 Предобработка данных

3.1 Понятие предобработки данных

На практике именно предобработка данных может стать наиболее трудоемким элементом нейросетевого анализа. Причем, знание основных принципов и приемов предобработки данных не менее, а может быть даже более важно, чем знание собственно нейросетевых алгоритмов. Последние как правило, уже "зашиты" в различных нейроэмуляторах, доступных на рынке. Сам же процесс решения прикладных задач, в том числе и подготовка данных, целиком ложится на плечи пользователя.

Предобработка данных является важным шагом при применении обучаемых с учителем нейросетей и определяет скорость обучения, величины ошибок обучения и обобщения и иные свойства сети.

Главная задача при предобработке данных - снижение избыточности, что приведет к повышению информативности примеров и, тем самым, повысит качество нейропредсказаний. Эффективным методом отбора наиболее информативных входов является алгоритм box-counting. Эффективными являются также вейвлет-преобразование входных данных, фильтры Кальмана, спектральная обработка.

Рассмотрим предобработку количественных признаков.

3.2 Масштабирование

Для предобработки количественных величин чаще всего применяют линейный сдвиг интервала значения признака, например, в интервал [-1,1]. Формула пересчета значения признака x для i-го примера выборки в интервал [a,b] такова:

(3.1)

где х_max, х_min- минимальное и максимальное выборочные значения признака.

При отсутствии жестких ограничений на диапазон значений предобработанного признака может быть выполнено масштабирование, дающее нулевое среднее и единичную дисперсию предобработанной величине, по формуле:

(3.2)

где исходное выборочное среднее и среднее квадратичное отклонение.

Получение нулевых средних для входных сигналов сети ускоряет градиентное обучение, поскольку снижает отношение максимального и минимального ненулевого собственных чисел матрицы вторых производных целевой функции по параметрам сети.

Имеются и другие методы препроцессирования данных – линейная нормализация на (-1,+1) и нелинейное преобразование биполярным сигмоидом – гиперболическим тангенсом .

Иногда проводят и предварительную (перед линейным масштабированием) нелинейную предобработку например, логарифмирование. При одновременном же рассмотрении всего набора независимых признаков можно убрать линейные корреляции между признаками, что также положительно влияет на скорость обучения.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1411 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.11.2019541.18 Кб1Спеціаліст диплом Гудзь.doc
#
07.02.20165.55 Mб5специалист организация паша списки.pdf
#
07.07.2019252.42 Кб3СПиОС.doc
#
08.05.2019225.28 Кб17Спортивная Биохимия коротко.doc
#
11.11.20192.14 Mб127СППР_Часть1.doc
#
24.11.20191.49 Mб68СППР_Часть2_New.doc
#
01.04.202539.95 Кб0СР №1.docx
#
18.08.20193.47 Mб4СР.СИГН..doc
#
01.03.2025188.42 Кб0СРC_Ф_БондОВ.doc
#
09.11.2019347.65 Кб9СРС(2013).doc
#
01.07.2025121.19 Кб0СРС-1.docx