- •Тема 8 предсказание и оценивание Задача оценивания y по X (или X по υ)
- •Стандартная ошибка оценки
- •Связи b0 и b1 с другими описательными статистиками
- •Измерение нелинейных связей между переменными, корреляционное отношение η2
- •Метод наименьших квадратов
- •Доверительные интервалы для коэффициентов a и b при заданной доверительной вероятности определяются по формулам:
- •Заметим, что если прямая проходит через начало координат, то
- •Доверительный интервал для коэффициента k при заданной доверительной вероятности определяется по формуле:
Стандартная ошибка оценки
Очевидно, величины ошибок, полученных в процессе оценки Y по X, характеризуют точность оценивания. Для рассматриваемых данных, то есть n пар значений X и Y, разности между фактическими значениями Y и предсказанными значениями являются мерами ошибок, которые появились бы при использовании X для оценки Y. Эти ошибки называются ошибками оценки. Формула для ошибки i-гo объекта есть:
. (8.4)
Один
из нескольких возможных способов
измерения точности предсказания Y
по X
– применение дисперсии n
ошибок оценки ei.
Она не будет зависеть от среднего
значения, всегда равного нулю, и от
количества остатков, потому что
используется операция деления на n – 1.
Дисперсия n
оценок
называется дисперсией
ошибки оценки
и обозначается символом
.
. (8.5)
В конечном счете
. (8.6)
Уравнение (8.6) дает дисперсию ошибки оценки в терминах дисперсии Y и rху.
Положительное значение квадратного корня из дисперсии ошибки оценки называется стандартной ошибкой оценки:
. (8.7)
Стандартную
ошибку оценки можно применить для
определения пределов в окрестности
предсказанного значения
,
в которые, вероятно, попадает фактическое
значение для объекта. Если можно
предположить, что объекты взяты из
совокупности, приблизительно описываемой
двумерным нормальным распределением
(см. § 6.7),
то можно сформулировать следующие
утверждения. В большой группе объектов,
для которых используется уравнение
предсказания:
1. Около
69% объектов будут иметь фактические
значения, лежащие в пределах одной se
от их предсказанного значения
.
2. Около 95% будут иметь фактические значения, лежащие в пределах двух se от их .
3. Примерно 99,7% будут иметь фактические значения, лежащие в пределах трех se от .
Эти утверждения обоснованны, так как если справедливо допущение о двумерной нормальности, то распределение фактических значений Y нормальное относительно среднего b0 + b1X со стандартным отклонением se для любого X. (Обратите внимание, что, хотя среднее нормального распределения Y меняется от одного значения X к другому, стандартное отклонение sе не зависит от X). Эти соотношения показаны на рис. 8.3.
Рис. 8.3 – Пример стандартной ошибки оценки, sе, на четырех уровнях X, когда можно предположить двумерное нормальное распределение X и Υ
Связи b0 и b1 с другими описательными статистиками
Как задачи подбора «наилучшей» линии предсказания, так и измерения корреляции двух переменных касаются пары переменных для группы объектов. В обоих случаях данные можно представить на диаграмме рассеивания.
Есть несколько интересных соотношений между rxy, sx, sy и коэффициентами b0 и b1 для прямой метода наименьших квадратов.
,
(8.8)
то
есть b1
равен ковариации
X и Y,
деленной на дисперсию X.
Ковариация X
и Υ
для данных табл. 8.1 составляет 27,211, а
= 38,408.
Отношение sxy/
= 0,708,
значению b1,
найденному из уравнения (8.2).
Вспомните,
что
.
Таким образом, если мы просто умножим
это уравнение на
,
то получим b1:
.
(8.9)
.
(8.10)
Дисперсия
предсказываемых значений,
то есть значений
,
равна квадрату коэффициента корреляции
X
и Y,
умноженному на дисперсию Y.
Например, rxy
для данных табл. 8.1 равен 0,861;
= 25,958.
Поэтому дисперсия 20 предсказанных
значений Y
равна:
.
