Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ЭММиМ_5.doc

Скачиваний:

Добавлен:

14.08.2019

Размер:

1.01 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 2322 23 > Следующая >>>

3.2.7. Применение процедуры Регрессия для линейной модели

Процедура Регрессия в пакете Анализа данных выполняет методом наименьших квадратов множественную, в частности, парную линейную регрессию.

Предварительно исходные данные (массивы 1 и 2) необходимо представить в виде 2-х столбцов (столбцы В и С на рис. 3.2).

Для вызова процедуры в меню Сервис открывается пакет Анализ данных. Если в меню Сервис нет названия пакета, то возможны две причины:

1) пакет Анализ данных установлен, но не как постоянно используемый, и тогда достаточно в меню Сервис обратиться к команде Надстройки (не путать с командой Настройки!) и в ее диалоговом окне поднять флажок Анализ данных;

2) пакет Excel установлен не полностью, например, по умолчанию, и тогда потребуется переустановка пакета.

После инициализации пакета Анализ данных в его списке выбирается процедура Регрессия, выводящая диалоговое окно, где заполняются поля:

Входной интервал Y, куда вводится адрес диапазона значений зависимой переменнойсо строкой обозначений.

Входной интервал X, куда вводится адрес диапазона независимой переменной со строкой обозначений.

Метки, где устанавливается флажок, если первые строки входных интервалов содержат заголовки. Если флажок снят, то названия для данных создаются автоматически.

Уровень надежности, где устанавливается флажок, чтобы указать уровень надежности (по умолчанию он полагается равным 95%).

Константа – ноль, где устанавливается флажок, чтобы линия регрессии прошла через начало координат, если это априорно известно.

Выходной диапазон, куда вводится ссылка на левую верхнюю ячейку выходного диапазона – он автоматически расширяется вправо на 20 столбцов и вниз на 50 – 60 строк.

Новый лист, где устанавливается переключатель, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки A1.

Новая книга, где устанавливается переключатель, чтобы открыть новую книгу и вставить результаты анализа в ячейку A1 на первом листе в этой книге.

Остатки, где устанавливается флажок для вывода остатков.

Стандартизированные остатки, где устанавливается флажок, чтобы включить стандартизированные остатки в выходной диапазон.

График остатков, где устанавливается флажок для вывода диаграммы остатков.

График подбора, где устанавливается флажок, чтобы вывести диаграмму наблюдаемых и предсказанных значений зависимой переменной, отвечающих линии регрессии.

График нормальной вероятности, где устанавливается флажок, чтобы вывести диаграмму процентелей, то есть значений случайной величины (на оси ординат), как функций накопленных эмпирических вероятностей (на оси абсцисс), что поясняется далее рис. 3.5 и комментариями к нему.

Результаты корреляционного и регрессионного анализов выводятся в таблицах с шапками и боковиками, отражающими содержание данных.

Таблица Regression Statistics представлена ниже (таблица 3.2).

Таблица 3.2

Статистики регрессии

Regression Statistics
Multiple R	0,9613595
R Square	0,9242121
Adjusted R Square	0,9178964
Standard Error	3,7989243
Observations	14

В таблице 3.2 выведены (сверху вниз):

– Multiple R – коэффициент множественной корреляции (в случае парной линейной связи – просто коэффициент корреляции);

– R Square – квадрат коэффициента корреляции;

– Adjusted R Square – это Adjusted R² (2.38), (2.39);

– Standard Error – стандарт рассеяния зависимой переменной y относительно регрессии (S₂);

– Observations – объем выборки (n).

Таблица ANOVA (сокращение Analysis of Variance – дисперсионного анализа) представлена ниже (таблица 3.3).

В строке Regression (рассеяние отклонений зависимой переменной в модели) указаны слева направо:

– df – число степеней свободы (для рассеяния в модели 1 степень модели);

– SS – сумма квадратов отклонений значений модели от среднего;

– MS – дисперсия отклонений значений модели от среднего (поскольку df = 1, совпадает с SS) – рассматривалась как D₁(2.33);

– F – отношение дисперсий, которое входит в выражение (3.3);

– Significance F – доверительная вероятность ошибки того, что F  1, то есть отклонения нулевой гипотезы, практически равна нулю.

Таблица 3.3

Анализ дисперсий

ANOVA
	df	SS	MS	F	Significance F
Regression	1	2111,903977	2111,904	146,336577	4,42093E-08
Residual	12	173,1819084	14,43183
Total	13	2285,085886

В строке Residual (рассеяние остатков) указаны слева направо:

– df – число степеней свободы (при линейной связи n – 2);

– SS – сумма квадратов остатков;

– MS – дисперсия остатков, которая рассматривалась, как D₂ (2.35).

В строке Total (общее рассеяние зависимой перемеренной относительно среднего):

– df – число степеней свободы – с учетом одной связи (среднего) n – 1;

– SS – сумма квадратов отклонений зависимой перемеренной относительно среднего (складывается из рассеяния зависимой перемеренной в модели и относительно модели).

Таблица с коэффициентами регрессии и их доверительными интервалами выводится без названия ниже таблицы ANOVA, имея содержание, показанное в таблице 3.4.

Таблица 3.4

Статистики коэффициентов регрессии

	Coefficients	Standard Error	t Stat	P-value	Lower 95%	Upper 95%
Intercept	-8,20314	2,143046	-3,8278	0,002405	-12,87244	-3,533847
X Variable 1	0,62918	0,052011	12,09697	4,42E-08	0,515858	0,742504

В строке Intercept – данные о свободном члене уравнения (3.2).

Строка X Variable 1 содержит оценки коэффициента при независимой переменной (для парной линейной связи она единственная и первая).

В столбце Coefficients – указаны значения параметров линейной связи (свободного члена и коэффициента при независимой переменной), которые, естественно, совпадают с вычисляемыми другими средствами.

В столбце Standard Error приведены среднеквадратичные погрешности оценок параметров линейной связи, которые также совпадают с полученными другими средствами.

В столбце t Stat находятся нормированные значения параметров – частные от деления оценок Coefficients на оценки Standard Error.

Смысл t Stat состоит в оценке значимости t-отклонений параметров от нуля с помощью распределения Стьюдента: чем больше t-отклонение, тем меньше вероятность ошибки отклонения нулевой гипотезы о равенстве параметра нулю.

В столбце P-value – вероятности ошибки отклонения нулевой гипотезы о равенстве параметра нулю (они намного меньше обычной критической величины 0,05).

В столбцах Lower 95% и Upper 95% – наименьшие и наибольшие допустимые границы колебаний оценок параметров с вероятностью до 95%. Граничное значение подсчитывается следующим образом:

– встроенная функция =СТЬЮДРАСПОБР(0,05;12) = 2,1788 возвращает критическое значение t-отклонения с вероятностью не менее 5% при 12 степенях свободы;

– для перехода к натуральному (ненормализованному) критическому значению параметра, найденное t-отклонение умножается на стандарт оценки параметра в столбце Standard Error, в частности, для параметра Intercept получается 2,1788  2,1430 = 4,6693;

– граничные значения подсчитываются с учетом величины параметра в столбце Coefficients: -8,2031 – 4,6693 = -12,8724 и -8,2031 + 4,6693 = -3,5338.

Таблица RESIDUAL OUTPUT (вывод остатков) состоит из 4 столбцов (табл. 3.5).

Таблица 3.5

Остатки регрессии

RESIDUAL OUTPUT
Observation	Predicted y	Residuals	Standard Residuals
1	43,3897087	6,610291345	1,811094104
2	37,0978974	-2,197897386	-0,602182081
3	24,5142749	0,48572515	0,133079453
4	17,5932825	-5,593282455	-1,532453011
5	15,7057391	-0,705739075	-0,193359084
6	15,0765579	-2,076557948	-0,568937383
7	11,9306523	-4,950652314	-1,356384575
8	11,3014712	-1,301471187	-0,356578352
9	9,41392781	-3,423927806	-0,938091098
10	6,8972033	2,082796701	0,570646682
11	5,63884105	1,341158955	0,367452045
12	4,38047879	0,609521208	0,166997218
13	2,49293541	3,487064589	0,955389375
14	-0,6529702	5,632970223	1,543326705

В столбце Observation – номера по порядку исходных данных.

В столбце Predicted y – прогнозируемые (вычисленные по уравнению линейной регрессии) значения зависимой переменной y.

В столбце Residuals – остатки (разности фактических и прогнозируемых значений зависимой переменной y).

В столбце Standard Residuals – нормализованные значения остатков (значения столбца Residuals, поделенные на стандарт остатков). Он определяется из дисперсии (таблица 3.3), вычисленной с n – 2 степенями свободы, но стандарт подсчитан неверно с числом степеней свободы n – 1, вместо n – 2, и значения столбца Standard Residuals несколько завышены.

Таблица PROBABILITY OUTPUT (вывод вероятностей) состоит из процентилей исходных значений зависимой переменной y, как показано в таблице 3.6.

Таблица 3.6

Процентили значений зависимой переменной y

PROBABILITY OUTPUT
Percentile	y
3,571428571	4,98
10,71428571	4,99
17,85714286	5,98
25	5,99
32,14285714	6,98
39,28571429	6,98
46,42857143	8,98
53,57142857	10
60,71428571	12
67,85714286	13
75	15
82,14285714	25
89,28571429	34,9
96,42857143	50

Процентили – это случайные величины, отвечающие данным вероятностям в %.

Иначе, процентили – это абсциссы интегральной кривой (рис. 3.5). Если вероятность выражена в долях единицы, то абсциссы интегральной кривой называются квантилями.

Рис. 3.5. Интегральная кривая (1) и процентили с уровнями вероятностей: 40% (2), 60% (3) и 80% (4)

В столбце Percentile (таблица 3.6) приведены не процентили и не квантили, а вероятности в %, то есть не абсциссы, а ординаты (рис.3.5), вместо интегральных, взяты накопительные вероятности зависимой переменной y. Все значения y упорядочивались по возрастанию и оценивались их процентные доли, исходя из следующего:

– между 14 значениями y имеется 13 интервалов, к которым добавляется еще две половины интервала (к первому и последнему значениям) – всего 14;

– на шкале вероятностей (от 0 до 100%) на 1 интервал приходится 100% / 14 = 7,14%;

– на шкале вероятностей положению первого значения y (4,98) отвечает конец полуинтервала, то есть 7,14% / 2 = 3,57%;

– положение на шкале вероятностей 2-го значения y (4,99) определяется добавлением интервала 3,57%+7,14% = 10,71%, вероятность 3-го значения 10,71% + 7,14% = 17,85% и т.д.;

– последнее значение y (50) не достигает конца (100% ) – находится в полуинтервале от конца 100% – 3,57% =96,43%.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2122 / 2322 23 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025120.66 Кб0Эльмира дипломдык жумыс.docx
#
01.05.2025357.89 Кб0Эм-маг индукция 2013.doc
#
23.08.2019131.58 Кб0ЭМ5.doc
#
01.03.2025198.14 Кб0Эмбриология.doc
#
22.04.2019605.93 Кб1Эмиль Дюркгейм - Самоубийство.docx
#
14.08.20191.01 Mб11ЭММиМ_5.doc
#
01.05.202549.75 Кб1Эмоции и художественное творчество.docx
#
01.07.2025637.48 Кб0эмоциональный интеллект.docx
#
01.05.2025141.82 Кб0Эмоция и экзистенция.doc
#
14.09.2019238.63 Кб2эмпедокл.docx
#
01.05.2025767.38 Кб0эмс решения.docx