СистемыКомпьютернойМатематики
.pdf
Абсолютная МАКС-нормализация (MaxAbsScaler) – метод нормализации масштабируется таким образом, что обучающие данные лежат в пределах диапазона [-1,1]. Метод применим для данных, для которых важен знак +/- (например, прибыль/убытки, температура лето/зима и другие) или для разряженных данных (в которых много 0), метод сход с мин-макс нормализацией, но
=
- сначала для всего столбца Х находятся абсолютные значения, а потом находится максимальное значение.
Например, для вектора x в numpy python: x_max_abs = np.abs(X).max
Для абсолютной МАКС-нормализации нулевые значения сохраняются; только положительные значения столбца приводятся к диапазону от 0 до 1; только отрицательные значения приводятся к диапазону от −1 до 0; положительные и отрицательные значения - к диапазону от −1 до 1.
Робастная нормализация (RobustScaler) – метод, который не очень чувствителен к выбросам, т.к. усреднение происходит по разнице между третьим и первым квартилями, то есть робастными статистическими показателями.
Z-преобразование (StandardScaler) – это метод стандартизации данных, который нормализует данные на основе среднего значения (μ) и стандартного отклонения (σ) набора данных. Формула z-преобразования выглядит следующим образом:
= −σμ
где x – исходное значение, – нормализованное значение, μ – среднее значение набора данных, σ – стандартное отклонение набора данных.
Нормализация к единичной норме (Normalizer) – метод нормализации, который приводит данные к единичной норме (длине вектора, равной единице). Метод применяется к данным по строкам – к объектам наблюдения.
11
Под нормой понимается такая функция, которая ставит в соответствие вектору в n-мерном пространстве некоторое число.
Наиболее распространено Евклидово расстояние или L2-норма для вектора x с координатами 1, 2, …, .
Если каждый компонент вектора разделить на L2 норму, то его длина или расстояние по прямой от начала координат до конца вектора было бы равно единице.
Нормализация с библиотекой scikit-learn
В библиотеке имеется модуль preprocessing для предобработки данных. from sklearn import preprocessing
функции модуля: |
|
MinMaxScaler |
|
MaxAbsScaler |
|
RobustScaler |
|
StandardScaler |
|
Normalizer
Функции MinMaxScaler, MaxAbsScaler, StandardScaler, RobustScaler имеют атрибуты: ft – вычисление основных статистик метода
transform – нормализация на основе ft ft_transform – совмещение двух методов
параметры ft
для MinMaxScaler, MaxAbsScaler
.min_,
.max_
для StandardScaler
.mean_ - среднее по столбцам
.scaler_ - стандартное отклонение по столбцам
12
для RobustScaler
.center_ центр
.scale_ межквартильный размах
13
