Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 5-Регрессия.doc
Скачиваний:
8
Добавлен:
08.09.2019
Размер:
611.33 Кб
Скачать

5.4.6.2. Построения графика остатков на нормальной вероятностной бумаге

. Другой способ сравнения эмпирического распределения остатков с распределением, ожидаемым при выполнении условия нормальности, состоит в выводе двух этих распределений (теоретическим и экспериментальным) на нормальную вероятностную бумагу. Если распределения идентичны, они лягут на одну прямую линию. Наблюдая разброс точек вокруг прямой, соответствующей теоретическому нормальному закону, вы можете сравнить эти распределения (рис.5-25).

5.4.7. Выявление выбросов

Нетипичными данными, появляющиеся по причине ошибок измерения или другим могут быть значения результирующей (зависимой) переменной У или независимой переменной Х.

5.4.7.1. Проверка на выбросы зависимой переменной

В первом случае обычно проверяют эти подозрительные точки по критерию3σ. На графиках остатков легко выявлять выбросы, так как им соответствуют очень большие положительные или отрицательные остатки. Как правило, нормированные остатки, превосходящие 3σ по абсолютной величине, рассматриваются как выбросы. Эти подозрительные точки необходимо исключить из модели.

5.4.7.2. Проверка на выбросы независимой переменной

В тех случаях, когда существуют наблюдения, в которых "нетипичными" являются значения независимой переменной, то это также приводит к ухудшению качества уравнения. Для определения таких наблюдений полезно рассчитать "расстояние Махаланобиса". Расстояние Махаланобиса служит для того, чтобы выделить такие случаи, когда уровень независимой переменной слишком сильно отклоняется от собственного среднего значения, в результате чего отклоняется и регрессия в целом. Значения наблюдений с наибольшими расстояниями Махаланобиса также должны анализироваться индивидуально.

5.4.8. Выявление существенных наблюдений

Некоторые наблюдения оказывают очень большое влияние на линию регрессии, вне зависимости от того, как соотносятся зависимая и независимая переменная с их средними. Это происходит тогда, когда какое-либо наблюдение, хотя и находится близко к линии регрессии, очень далеко отстоит от общего массива точек, используемых для оценки параметров регрессии.

Обычно для выявления таких наблюдений применяют один из двух способов:

5.4.8.1. Включение и исключение подозрительного наблюдения

Один из способов выделить такие наблюдения - сравнить остатки для уравнения регрессии когда "подозрительное" наблюдение включено в расчет и исключено из него. Тогда можно рассчитать и изменение значения функции в зависимости от включения или исключения из множества наблюдений конкретного наблюдения с номером i. Точно также можно рассчитать и исключенные остатки путем вычитания остатков с исключенным наблюдением из остатков, которые получаются без этого исключения. Можно сравнивать такие остатки и решать, какие наблюдения лучше было бы исключить из расчета параметров регрессии.

О существенности таких наблюдений судят по таким признакам:

  • линия регрессии при отбрасывании этих данных значительно меняется,

  • в то же время, когда она включена в модель, остаток для этого наблюдения не велик.

5.4.8.2. Вычисление расстояния Кука

Существует также общая мера, которая позволяет судить, как изменятся все расчетные значения зависимой переменной при исключении одного наблюдения. Эта мера называется расстоянием Кука ( Cook's distance) и рассчитывается как нормированная сумма исключенных остатков:

,

где в числителе суммируются квадраты стандартизованных исключенных остатков, если исключено наблюдение i , а в знаменателе число степеней свободы умножается на стандартную ошибку уравнения.