
- •1. Введение в статистику связей случайных величин
- •1.1. Краткие сведения об используемых понятиях и терминах
- •1.1.1. Эмпирические данные
- •1.1.2. Стохастическая эмпирическая зависимость случайных величин
- •1.1.3. Математическая модель эмпирической зависимости и ее остатки
- •1.1.4. Зависимая и независимая переменные эмпирической зависимости
- •1.2. Основные методы построения стохастической зависимости
- •1.2.1. Корреляционный анализ
- •1.2.2. Регрессионный анализ
- •1.2.3. Меры расхождений и методы приближений
- •1.3. Задача аппроксимации и принципы оптимального решения
- •1.3.1. Постановка задачи аппроксимации эмпирической зависимости
- •1.3.2. Неопределенность и неоднозначность задачи аппроксимации
- •1.3.3. Оптимальное приближение эмпирической зависимости
- •2. Основы линейного приближения стохастической зависимости
- •2.1. Задача линейного приближения при парной связи
- •2.1.1. Виды математических моделей парной линейной зависимости
- •2.1.2. Неопределенность задачи построения линейной модели
- •2.1.3. Правила оптимального решения задачи линейной аппроксимации
- •2.2. Оценка реальности парной линейной связи и ее тесноты
- •2.2.1. Случайное рассеяние и неопределенность парной линейной связи
- •2.2.2. Корреляционное отношение – показатель тесноты связи
- •2.2.3. Ковариация – признак линейной стохастической связи
- •2.2.4. Коэффициент корреляции – показатель силы линейной связи
- •2.2.5. Коэффициент детерминации – показатель определенности связи
- •2.2.6. Интерпретация линейной корреляции
- •2.3. Методы определения параметров линейной модели
- •2.3.1. Суть и эффективность методов определения параметров модели
- •2.3.2. Максимально правдоподобные меры расхождения
- •2.4. Качество линейной модели эмпирической зависимости
- •2.4.1. Значимость и доверительные интервалы параметров регрессии
- •2.4.2. Доверительные интервалы линейной эмпирической зависимости
- •2.4.3. Дисперсия и доверительная область прогнозных оценок
- •2.4.4. Оценка адекватности линейной модели
- •3. Компьютерный практикум
- •3.1. Исходные данные для построения парной зависимости
- •3.1.1 Регулярная составляющая аукционных цен
- •3.1.1. Случайная составляющая аукционных цен
- •3.1.3. Линейное приближение зависимости и его приложения
- •3.2. Линейное приближение парной зависимости в Excel
- •3.2.1. Ввод данных
- •3.2.2. Оценка тесноты линейной связи
- •3.2.3 Построение регрессии процедурой вывода тренда на график
- •3.2.4. Вывод параметров линейной регрессии встроенными функциями
- •3.2.5. Оценки качества линейной модели
- •3.2.6. Оценка регрессии и ее качества встроенной функцией линейн
- •3.2.7. Применение процедуры Регрессия для линейной модели
- •3.6. Вопросы для самопроверки
3.2.7. Применение процедуры Регрессия для линейной модели
Процедура Регрессия в пакете Анализа данных выполняет методом наименьших квадратов множественную, в частности, парную линейную регрессию.
Предварительно исходные данные (массивы 1 и 2) необходимо представить в виде 2-х столбцов (столбцы В и С на рис. 3.2).
Для вызова процедуры в меню Сервис открывается пакет Анализ данных. Если в меню Сервис нет названия пакета, то возможны две причины:
1) пакет Анализ данных установлен, но не как постоянно используемый, и тогда достаточно в меню Сервис обратиться к команде Надстройки (не путать с командой Настройки!) и в ее диалоговом окне поднять флажок Анализ данных;
2) пакет Excel установлен не полностью, например, по умолчанию, и тогда потребуется переустановка пакета.
После инициализации пакета Анализ данных в его списке выбирается процедура Регрессия, выводящая диалоговое окно, где заполняются поля:
Входной интервал Y, куда вводится адрес диапазона значений зависимой переменной со строкой обозначений.
Входной интервал X, куда вводится адрес диапазона независимой переменной со строкой обозначений.
Метки, где устанавливается флажок, если первые строки входных интервалов содержат заголовки. Если флажок снят, то названия для данных создаются автоматически.
Уровень надежности, где устанавливается флажок, чтобы указать уровень надежности (по умолчанию он полагается равным 95%).
Константа – ноль, где устанавливается флажок, чтобы линия регрессии прошла через начало координат, если это априорно известно.
Выходной диапазон, куда вводится ссылка на левую верхнюю ячейку выходного диапазона – он автоматически расширяется вправо на 20 столбцов и вниз на 50 – 60 строк.
Новый лист, где устанавливается переключатель, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки A1.
Новая книга, где устанавливается переключатель, чтобы открыть новую книгу и вставить результаты анализа в ячейку A1 на первом листе в этой книге.
Остатки, где устанавливается флажок для вывода остатков.
Стандартизированные остатки, где устанавливается флажок, чтобы включить стандартизированные остатки в выходной диапазон.
График остатков, где устанавливается флажок для вывода диаграммы остатков.
График подбора, где устанавливается флажок, чтобы вывести диаграмму наблюдаемых и предсказанных значений зависимой переменной, отвечающих линии регрессии.
График нормальной вероятности, где устанавливается флажок, чтобы вывести диаграмму процентелей, то есть значений случайной величины (на оси ординат), как функций накопленных эмпирических вероятностей (на оси абсцисс), что поясняется далее рис. 3.5 и комментариями к нему.
Результаты корреляционного и регрессионного анализов выводятся в таблицах с шапками и боковиками, отражающими содержание данных.
Таблица Regression Statistics представлена ниже (таблица 3.2).
Таблица 3.2
Статистики регрессии
Regression Statistics |
|
Multiple R |
0,9613595 |
R Square |
0,9242121 |
Adjusted R Square |
0,9178964 |
Standard Error |
3,7989243 |
Observations |
14 |
В таблице 3.2 выведены (сверху вниз):
– Multiple R – коэффициент множественной корреляции (в случае парной линейной связи – просто коэффициент корреляции);
– R Square – квадрат коэффициента корреляции;
– Adjusted R Square – это Adjusted R2 (2.38), (2.39);
– Standard Error – стандарт рассеяния зависимой переменной y относительно регрессии (S2);
– Observations – объем выборки (n).
Таблица ANOVA (сокращение Analysis of Variance – дисперсионного анализа) представлена ниже (таблица 3.3).
В строке Regression (рассеяние отклонений зависимой переменной в модели) указаны слева направо:
– df – число степеней свободы (для рассеяния в модели 1 степень модели);
– SS – сумма квадратов отклонений значений модели от среднего;
– MS – дисперсия отклонений значений модели от среднего (поскольку df = 1, совпадает с SS) – рассматривалась как D1 (2.33);
– F – отношение дисперсий, которое входит в выражение (3.3);
– Significance F – доверительная вероятность ошибки того, что F 1, то есть отклонения нулевой гипотезы, практически равна нулю.
Таблица 3.3
Анализ дисперсий
ANOVA |
|
|
|
|
|
|
df |
SS |
MS |
F |
Significance F |
Regression |
1 |
2111,903977 |
2111,904 |
146,336577 |
4,42093E-08 |
Residual |
12 |
173,1819084 |
14,43183 |
|
|
Total |
13 |
2285,085886 |
|
|
|
В строке Residual (рассеяние остатков) указаны слева направо:
– df – число степеней свободы (при линейной связи n – 2);
– SS – сумма квадратов остатков;
– MS – дисперсия остатков, которая рассматривалась, как D2 (2.35).
В строке Total (общее рассеяние зависимой перемеренной относительно среднего):
– df – число степеней свободы – с учетом одной связи (среднего) n – 1;
– SS – сумма квадратов отклонений зависимой перемеренной относительно среднего (складывается из рассеяния зависимой перемеренной в модели и относительно модели).
Таблица с коэффициентами регрессии и их доверительными интервалами выводится без названия ниже таблицы ANOVA, имея содержание, показанное в таблице 3.4.
Таблица 3.4
Статистики коэффициентов регрессии
|
Coefficients |
Standard Error |
t Stat |
P-value |
Lower 95% |
Upper 95% |
Intercept |
-8,20314 |
2,143046 |
-3,8278 |
0,002405 |
-12,87244 |
-3,533847 |
X Variable 1 |
0,62918 |
0,052011 |
12,09697 |
4,42E-08 |
0,515858 |
0,742504 |
В строке Intercept – данные о свободном члене уравнения (3.2).
Строка X Variable 1 содержит оценки коэффициента при независимой переменной (для парной линейной связи она единственная и первая).
В столбце Coefficients – указаны значения параметров линейной связи (свободного члена и коэффициента при независимой переменной), которые, естественно, совпадают с вычисляемыми другими средствами.
В столбце Standard Error приведены среднеквадратичные погрешности оценок параметров линейной связи, которые также совпадают с полученными другими средствами.
В столбце t Stat находятся нормированные значения параметров – частные от деления оценок Coefficients на оценки Standard Error.
Смысл t Stat состоит в оценке значимости t-отклонений параметров от нуля с помощью распределения Стьюдента: чем больше t-отклонение, тем меньше вероятность ошибки отклонения нулевой гипотезы о равенстве параметра нулю.
В столбце P-value – вероятности ошибки отклонения нулевой гипотезы о равенстве параметра нулю (они намного меньше обычной критической величины 0,05).
В столбцах Lower 95% и Upper 95% – наименьшие и наибольшие допустимые границы колебаний оценок параметров с вероятностью до 95%. Граничное значение подсчитывается следующим образом:
– встроенная функция =СТЬЮДРАСПОБР(0,05;12) = 2,1788 возвращает критическое значение t-отклонения с вероятностью не менее 5% при 12 степенях свободы;
– для перехода к натуральному (ненормализованному) критическому значению параметра, найденное t-отклонение умножается на стандарт оценки параметра в столбце Standard Error, в частности, для параметра Intercept получается 2,1788 2,1430 = 4,6693;
– граничные значения подсчитываются с учетом величины параметра в столбце Coefficients: -8,2031 – 4,6693 = -12,8724 и -8,2031 + 4,6693 = -3,5338.
Таблица RESIDUAL OUTPUT (вывод остатков) состоит из 4 столбцов (табл. 3.5).
Таблица 3.5
Остатки регрессии
RESIDUAL OUTPUT |
|
|
|
Observation |
Predicted y |
Residuals |
Standard Residuals |
1 |
43,3897087 |
6,610291345 |
1,811094104 |
2 |
37,0978974 |
-2,197897386 |
-0,602182081 |
3 |
24,5142749 |
0,48572515 |
0,133079453 |
4 |
17,5932825 |
-5,593282455 |
-1,532453011 |
5 |
15,7057391 |
-0,705739075 |
-0,193359084 |
6 |
15,0765579 |
-2,076557948 |
-0,568937383 |
7 |
11,9306523 |
-4,950652314 |
-1,356384575 |
8 |
11,3014712 |
-1,301471187 |
-0,356578352 |
9 |
9,41392781 |
-3,423927806 |
-0,938091098 |
10 |
6,8972033 |
2,082796701 |
0,570646682 |
11 |
5,63884105 |
1,341158955 |
0,367452045 |
12 |
4,38047879 |
0,609521208 |
0,166997218 |
13 |
2,49293541 |
3,487064589 |
0,955389375 |
14 |
-0,6529702 |
5,632970223 |
1,543326705 |
В столбце Observation – номера по порядку исходных данных.
В столбце Predicted y – прогнозируемые (вычисленные по уравнению линейной регрессии) значения зависимой переменной y.
В столбце Residuals – остатки (разности фактических и прогнозируемых значений зависимой переменной y).
В столбце Standard Residuals – нормализованные значения остатков (значения столбца Residuals, поделенные на стандарт остатков). Он определяется из дисперсии (таблица 3.3), вычисленной с n – 2 степенями свободы, но стандарт подсчитан неверно с числом степеней свободы n – 1, вместо n – 2, и значения столбца Standard Residuals несколько завышены.
Таблица PROBABILITY OUTPUT (вывод вероятностей) состоит из процентилей исходных значений зависимой переменной y, как показано в таблице 3.6.
Таблица 3.6
Процентили значений зависимой переменной y
PROBABILITY OUTPUT |
|
Percentile |
y |
3,571428571 |
4,98 |
10,71428571 |
4,99 |
17,85714286 |
5,98 |
25 |
5,99 |
32,14285714 |
6,98 |
39,28571429 |
6,98 |
46,42857143 |
8,98 |
53,57142857 |
10 |
60,71428571 |
12 |
67,85714286 |
13 |
75 |
15 |
82,14285714 |
25 |
89,28571429 |
34,9 |
96,42857143 |
50 |
Процентили – это случайные величины, отвечающие данным вероятностям в %.
Иначе, процентили – это абсциссы интегральной кривой (рис. 3.5). Если вероятность выражена в долях единицы, то абсциссы интегральной кривой называются квантилями.
Рис. 3.5. Интегральная кривая (1) и процентили с уровнями вероятностей: 40% (2), 60% (3) и 80% (4)
В столбце Percentile (таблица 3.6) приведены не процентили и не квантили, а вероятности в %, то есть не абсциссы, а ординаты (рис.3.5), вместо интегральных, взяты накопительные вероятности зависимой переменной y. Все значения y упорядочивались по возрастанию и оценивались их процентные доли, исходя из следующего:
– между 14 значениями y имеется 13 интервалов, к которым добавляется еще две половины интервала (к первому и последнему значениям) – всего 14;
– на шкале вероятностей (от 0 до 100%) на 1 интервал приходится 100% / 14 = 7,14%;
– на шкале вероятностей положению первого значения y (4,98) отвечает конец полуинтервала, то есть 7,14% / 2 = 3,57%;
– положение на шкале вероятностей 2-го значения y (4,99) определяется добавлением интервала 3,57%+7,14% = 10,71%, вероятность 3-го значения 10,71% + 7,14% = 17,85% и т.д.;
– последнее значение y (50) не достигает конца (100% ) – находится в полуинтервале от конца 100% – 3,57% =96,43%.