Пропущенные значения

При работе с данными, в которых есть пропущенные значения атрибутов для некоторых экземпляров, существуют следующие стратегии поведения:

1. Отбросить экземпляры с пропущенными значения. Такой подход применяется прежде всего для данных, у которых пропущено значении целевого атрибута (для задач классификации).

2. Заполнить пропущенные значения вручную.

3. Применить глобальную константу (например, “Unknown”).

4. Использовать некоторое статистически рассчитанное значение (среднее арифметическое, медиану, моду) по всей выборке.

5. Использовать статистическое значение, рассчитанное для экземпляров, относящихся к такому же классу, как и рассматриваемый экземпляр.

6. Использовать наиболее вероятное значение для атрибута. Это значение может быть рассчитано при помощи регрессии, дерева решений либо других математических подходов.

Нормализация данных

Единицы измерения, которые используются в некотором атрибуте, могут повлиять на результаты анализа. Так, например, преобразование единиц измерения из метров в дюймы для атрибута «высота» или преобразование из килограммов в фунты для атрибута «вес» могут привести к различным результатам. В общем случае, выражение некоторого атрибута в более мелких единицах измерения приведут к более широкому диапазону значений для этого атрибута, что может привести к большей значимости или же весу данного атрибута.

Чтобы избежать зависимости от выбора единиц измерения данные должны быть нормализованы или нормированы. Нормализация подразумевает преобразование данных таким образом, чтобы диапазон значений, принимаемых атрибутом, уменьшился либо стал равным общепринятым [-1;1] или [0;1].

При помощи нормализации данных делается попытка придать всем атрибута одинаковый вес. Нормализация наиболее полезна в задачах с применением нейронных сетей, задачах классификации или кластеризации, алгоритмы которых основаны на вычислении расстояний.

Существует множество методов нормализации данных. Рассмотрим некоторые из них.

Пусть у нас есть числовой атрибут А с измеренными значениями a₁, a₂, …, a_n.

Минимаксная нормализация. Пусть min_a – минимальное значение данного атрибута, max_a – максимальное значение атрибута. Новый диапазон для атрибута [new_min_a; new_max_a]. Тогда:

Нормализация с нулевым средним. Значения атрибута нормализуются при помощи математического ожидания и стандартного отклонения атрибута:

Нормализация при помощи десятичной шкалы.

где j – наименьшее целое число, такое что max(|a_i|)<1.

Дискретизация числовых атрибутов

Дискретизация числовых атрибутов является обязательной и необходимой в случае применения алгоритмов интеллектуального анализа, работающих только с категориальными атрибутами. Кроме того, алгоритмы, работающие с числовыми атрибутами часто дают лучшие результаты либо же работают быстрее, если значения атрибутов предварительно приведены к дискретной формы.

Методы дискретизации могут быть классифицированы по двум параметрам:

используется ли в них информация о классах: дискретизация с учителем или дискретизация без учителя;
в каком направлении происходит дискретизация:
- сверху вниз (дискретизация начинается с одной или нескольких точек разделения, а далее полученные интервалы рекурсивно разбиваются; метод разбиения);
- снизу вверх (изначально все значения атрибута рассматриваются как потенциальные точки разделения, после чего соседние значения рекурсивно объединяются, образуя интервалы; объединение).

<<< < Предыдущая 1 2 34 / 214 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025493.99 Кб0Lektsii_Ocnovy_Ekonomicheskoy_Teorii_1-8_R_O (1).docx
#
13.03.20151.52 Mб308lektsii_po_metod_issled_i_kontr_mater.doc
#
01.07.20253.05 Mб13Lektsionny_material.doc
#
01.07.202530.99 Кб0lektsiya 4.docx
#
13.03.2015107.01 Кб30lessons_darbuka.doc
#
01.07.2025606.78 Кб0LR_IAD_rus_2016.docx
#
01.07.2025104.69 Кб0Lukach_Struktura_oborotnikh_koshtiv_turistichno...docx
#
13.03.20153.42 Mб14M-u_KhOiVMS_rus.doc
#
01.05.20251.15 Mб0Macromedia Flash .docx
#
13.03.2015410.14 Кб77Mad bounce II.pdf
#
01.05.2025206.85 Кб0Malik Dastin.doc