Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ShPOR_obschie.doc
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
14.33 Mб
Скачать

Вопрос 29. Робастное статистическое оценивание

При статистическом исследовании часто встречаются данные, которые по своим значениям сильно отклоняются от основного массива. Они, как правило, называются выбросами, засорением или грубыми ошибками.

Пример засорения временного ряда:

Подобные выбросы искажают структуру статистической совокупности и вносят смещения в интегральные параметра (среднее, дисперсия).

Основные причины выбросов:

1. Статистическая особенность распределения, например нормальное распределение с минимальное вероятностью допускает сколь угодно больших значений (т.е. величина на самом деле не является ошибкой).

2. Неправильное причисление данных к исследуемой совокупности (ошибки группировки, типологической классификации). Например, приведенное ниже распределение наблюдений в двумерном пространстве для автомобилей среднего ценового сегмента. Три крайних наблюдения сильно отличаются от типичных, поскольку представляют скорее всего информацию по дорогим автомобилям, и были включены в рассмотрение ошибочно.

3. Ошибка при регистрации и обработке исходной информации (ошибка оператора). Является одной из самых распространенных причин появления выбросов.

Решением проблем нахождения, устранения выбросов и получения адекватных оценок статистических показателей занимается специальный раздел статистики – робастное (устойчивое) оценивание.

Первый шаг робастного оценивания – это выявление грубых ошибок.

Методы выявления ошибок:

1. Т-критерий Смирнова-Граббса (для нормально распределенных случайных величин).

Для нетипичного значения рассчитывают:

– выборочное среднее

– выборочное среднеквадратичное отклонение

– нетипичное значение

Полученное значение сравнивается с критическим значением метода Смирнова-Граббса на уровне значимости . В исходах сравнения выделяют следующие случаи:

- наблюдение не нарушает однородности выборки;

- наблюдение грубо нарушает однородность выборки и является нетипичным;

- требуются дополнительные аргументы для классификации наблюдения.

2. Дисперсионный критерий Граббса (дисперсионный, т.к. сравнивает исходную и усеченную дисперсии). Как и предыдущий критерий, проверяет на аномомальность отдельное значение.

Совокупность выстраивается в вариационный ряд . Соответственно возможные грубые ошибки концентрируются на хвостах ряда.

Для проверки аномальности минимального значения по ряду X вычисляются следующие показатели:

  • выборочное среднее

  • усеченное выборочное среднее

  • статистика критерия Граббса

Для проверки аномальности максимального значения по ряду X вычисляются следующие показатели:

  • выборочное среднее

  • усеченное выборочное среднее

  • статистика критерия Граббса

Значение статистик и варьируются в интервале от 0 до 1. Чем ближе значение к 1, тем меньше отличие между усеченной и исходной выборками.

Полученное значение сравнивается с критическим значением на уровне значимости . В исходах сравнения выделяют следующие случаи (аналогично предыдущему критерию, но с обратными знаками):

- наблюдение не нарушает однородности выборки;

- наблюдение грубо нарушает однородность выборки и является нетипичным;

- требуются дополнительные аргументы для классификации наблюдения.

В случае, когда в совокупности несколько выбросов и их значения плотно группируются, критерий Граббса не работает.

3. L-критерий Титьена-Мура. Предназначен для выявления групп из k>1 выбросов.

Для проверки аномальности нескольких минимальных значений по ряду X вычисляются следующие показатели:

  • выборочное среднее

  • усеченное выборочное среднее

  • статистика критерия

Для проверки аномальности нескольких максимальных значений по ряду X вычисляются следующие показатели:

  • выборочное среднее

  • усеченное выборочное среднее

  • статистика критерия Граббса

Полученные значения сравниваются с критическими значениями аналогично критерию Граббса.

4. Обобщенный E-критерий Титьена-Мура. Применяется при предположении, что выбросы распределены симметрично в нижней и верхней частях вариационного ряда . Алгоритм:

  • расчет среднего для всей выборки

  • расчет отклонений

  • ряд упорядочиваем по значению . Полученный ряд обозначим , ,

  • расчет среднего усеченного по k нетипичным значениям

  • расчет статистики критерия

Полученное значение сравнивается с критическим значением аналогично критерию Граббса.

Устойчивое оценивание

Если предварительный анализ указывает на наличие грубых ошибок в выборке, то далее возможны два подхода: исключить объекты с грубыми ошибками или модифицировать их.

В многомерном случае устранение объекта из исследуемой совокупности зачастую неприемлемо. При этом может возникнуть необходимость определить устойчивые усеченные интегральные характеристики (мат. ожидания и т.д.). Для этого используют следующие методы:

1. Метод Пуанкаре расчета устойчивого среднего (режет распределение с двух сторон, т.к. 2k). Это пример наиболее простого варианта устойчивого оценивания статистических характеристик, путем оценки по усеченной совокупности данных, в которой устранены грубые выбросы.

,

где k - число грубых ошибок, равное целой части от (т.е. k=[ ;

n - объем совокупности;

- специальный параметр, зависящий от теоретической частоты e ошибочных данных. Например, если по предыдущему опыту известно, что 1% данных ненадежны, то е принимается равным 1%. Значение при выбранном уровне е можно определить по таблице.

2. Метод Винзора модификации данных. Получаем не усеченное, а новое математическое ожидание. Применяется к симметричным распределениям. По сути метод Винзора в одномерном случае заключается в замене первых k значений вариационного ряд на , последних – на .

Устойчивое среднее значение по Винзору определяется по следующей формуле:

где k вычисляется таким же образом как в методе Пуанкаре.

В случае многомерного засорения данных, когда выбросами являются не отдельные значения признаков, а векторы можно использовать критерий Хоттелинга для проверки значения вектора x на нетипичность:

где n – количество объектов;

m – количество признаков;

x – нетипичный вектор;

S – ковариационно-дисперсионная матрица.

, где F – квантиль F-распределения

Если Т>Tтабл, то вектор признается аномальным.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]