Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ПСОД студенты / Корреляционный анализ

.pdf
Скачиваний:
34
Добавлен:
24.02.2016
Размер:
742.69 Кб
Скачать

подготовки отчета о проделанной работе. Вы можете отредактировать этот отчет либо в STATISTICA, либо загрузив его в какой-либо текстовой редактор, например, MS Word for Windows. Для сохранения Окна Текста/Вывода необходимо использовать команду Save из меню File.

В рамке Supplementary Info (Вспомогательная информация) можно установить стиль и полноту информации, которая направляется на тот или иной канал вывода. Вы можете выбрать следующие стили вывода информации:

Brief (Краткий). Выберите эту установку, если необходимо выводить лишь содержание выбранных электронных таблиц. При этом не будет выводиться никакая дополнительная информация;

Short (Короткий). Этот стиль вывода, кроме содержания электронных таблиц, включает в себя вывод заголовка страницы (название модуля, дату, время, номер страницы), имя файла, условия выбора случаев и другую вспомогательную информацию;

Medium (Средний). По сравнению с коротким стилем дополнительно включает длинные метки для переменных;

Long (Подробный). Стиль, который обеспечивает наиболее подробный вывод информации о данных: всю информацию о двойной записи переменных и др.

Output Header (Заголовок вывода). Заголовок, который будет выведен при печати каждой новой страницы. По умолчанию он форматируется по левому краю листа. Имеет смысл включить в него название статистического исследования.

Date and Time (Дата и Время). Установить вывод даты и времени на каждой странице.

Center Titles (Центрировать заголовки). Располагает заголовки вывода по центру листа.

В следующей группе установок имеется возможность определить установки автоматической подготовки отчетов. Рамка, задающая параметры процесса автоматического создания отчета – Auto-report (Автоматический отчет) включает в себя следующие опции:

Auto-Retrieve the Text/Output Window Contents (Автоматически дополнять содержание Окна текста/вывода). При выборе этой опции в Окне текста/вывода автоматически открывается самый последний сохраненный текстовой файл или файл формата RTF, и вывод осуществляется в конец этого файла;

Auto-Exit from Scrollsheets and Graphs (Автоматический выход из графиков и таблиц Scrolsheets);

Automatically

Print All

Scrollsheets

(Auto –

Report)

(Автоматическая печать всех таблиц Scrollsheets (Автоотчет));

 

Automatically

Print/Eject

Pages

after

Each

Printout

(Автоматическая печать/выдача страницы после каждой операции вывода);

Automatically Eject Each Filled Page (Автоматическая выдача каждой заполненной страницы).

Вывод графической информации

Перед выводом графиков необходимо прежде всего определить канал вывода. Возможны следующие варианты вывода, которые могут быть выбраны в рамке Output (Вывод).

Off (Отключить вывод). Выбор этой опции, отключает вывод информации на принтер или в файл.

Printer (Принтер). При помощи этой опции указывается, что вся информация из электронных таблиц посылается на принтер.

Window (Окно Текста/Вывода). При выборе этой опции вся информация направляется в Окно Текста/Вывода. Для сохранения Окна Текста/Вывода необходимо использовать команду Save из меню File.

Рамка, задающая параметры процесса автоматического создания отчета– Auto-report (Автоматический отчет), включает в себя следующие опции:

Auto-Retrieve the Text/Output Window Contents (Автоматически дополнять содержание Окна Текста/Вывода). При выборе этой опции в

Окне Текста/Вывода автоматически открывается самый последний сохраненный текстовой файл или файл формата RTF, и вывод осуществляется в конец этого файла. Если эта опция не выбрана, то открывается чистое окно;

Auto-Exit from Scrollsheets and Graphs (Автоматический выход из графиков и электронных таблиц Scrollsheets). В результате анализа обычно генерируется очередь графиков и таблиц. При этом на последнем графике или таблице в очереди появляется кнопка Continue. Вы должны нажать на нее для продолжения вывода (при этом по умолчанию будет закрыто самое старое окно с графиком или таблицей). Однако если вы выберете опцию Автоматический выход, из графиков и электронных таблиц Scrollsheets и опцию Автоматической печати таблиц в отчет, то анализ прерываться не будет и все графики и (или) таблицы будут выведены

вОкно Текста/Вывода;

Automatically Print All Graphs (Auto-Report) (Автоматическая печать всех графиков (Автоотчет)). При выборе этой опции автоматически все графики, появляющиеся на экране, будут направляться на определенный канал вывода.

2. РЕГРЕССИОННЫЙ АНАЛИЗ

2.1. ОБЩИЕ СВЕДЕНИЯ. ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Функция регрессии

Понятия регрессии и корреляции непосредственно связаны между собой, но при этом существует различие между ними. В корреляционном анализе оценивается сила стохастической связи, а в регрессионном анализе исследуются формы.

В регрессионном анализе изучается связь и определяется количественная зависимость между зависимой переменной и одной или

несколькими

независимыми

переменными,

рассматриваемые

как

неслучайные величины. Пусть переменная Y зависит от одной переменной

x . При этом

предполагается,

что переменная x

принимает заданные

фиксированные значения, а зависимая переменна Y имеет случайный разброс из-за ошибок измерения, влияния неучтенных факторов и т.д. Каждому значению x соответствует некоторый закон распределения вероятностей случайной величины Y. Предположим, что Y в "среднем" линейно зависит от значений переменной x . Это означает, что условное математическое ожидание случайной величины Y при заданном значении x имеет вид

M (Y / x) = a0 +a1x .

Данная функция называется линейной теоретической функцией

регрессии Y на x , а параметры a0 и a1 параметрами линейной регрессии (коэффициенты регрессии). На практике параметры регрессии определяются по результатам наблюдений переменных Y и x , связь между которыми можно записать

Y = a0 +a1х+ε ,

где ε – случайная ошибка наблюдений.

2.2.ПОСЛЕДОВАТЕЛЬНОСТЬ РЕГРЕССИОННОГО АНАЛИЗА

Формулировка задачи.

Идентификация переменных (определение входных и выходных переменных).

Сбор статистических данных.

Спецификация функции регрессии (определение вида модели).

Оценивание параметров функции регрессии.

Оценка точности регрессионного анализа:

1) Проверка адекватности всей модели, т.е. согласуются ли предсказанные значения выходной величины с наблюдаемыми данными;

2) Проверка значимости параметров модели, т.е. значимо ли они отличаются от нуля или нет.

Интерполяция результатов, анализ, оптимизация и прогнозирование.

Предпосылки к проведению регрессионного анализа

Случайные ошибки наблюдений имеют нормальный закон распределения

ε N (0,σ) , M (ε) = 0, D(ε) =σ2 = const.

Отсутствие автокорреляции между ошибками наблюдений, т.е. последовательные значения εi не зависят друг от друга.

Метод наименьших квадратов

Для нахождения оценок параметров модели по результатам наблюдений используется метод наименьших квадратов (МНК). Пусть проведено n независимых наблюдений случайной величины Y при соответствующих значениях x , совместный закон распределения которых неизвестен. Следовательно, теоретическую функцию регрессии мы не сможем найти. Наша задача оценить эмпирическую функцию регрессии

~y = a~0 +a~1x.

Согласно МНК, параметры подбираются таким образом, чтобы минимизировать сумму квадратов отклонений наблюдаемых значений от расчетных по модели значений

F =

n

 

2

n

 

y

)

2

n

 

~

~ x )

2

min,

e

=∑(y

=∑(y

 

 

 

 

 

~

 

 

 

a0

a1 i

 

 

i=1

i

 

i=1

i

i

 

 

i=1

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где yi

 

 

наблюдаемые

значения выходной

переменной; ~yi

значения выходной переменной, рассчитанные по модели. Из необходимых условий минимума

 

F =−2 ( y ~

~ x ) =0,

 

 

 

 

 

n

i a0 a1 i

 

 

 

 

 

 

 

 

 

~

i=1

 

 

 

a0

 

 

 

 

 

 

F =−2 ( y ~

~ x )

 

=0

 

 

 

 

 

 

 

n

i a0 a1 i

xi

 

 

 

 

 

 

a~1

i=1

 

находим оценки

параметров

a0 и a1

(здесь

и далее, если это не

мешает пониманию, знак ~ над параметрами будет опускаться). Они будут определяться из решения системы двух линейных уравнений

na0 +a1xi =∑yi ,a0xi +a1xi2 =∑yi xi .

Здесь и далее, если это не оговорено особо, суммирование происходит от i=1,n,(1). Оценки параметров, получаемые по методу МНК, при условии выполнения предпосылок относительно случайных ошибок наблюдений, будут обладать следующими свойствами:

несмещенность;

состоятельность;

эффективность.

Проверка адекватности модели

Для проверки гипотезы адекватности модели необходимо сравнить две суммы квадратов:

1) Остаточную сумму квадратов, характеризующую отклонение от регрессии

Qe

n

2

n

~

2

 

 

=∑ei

=∑(yi yi) .

 

i=1

 

i=1

 

 

2) Сумму квадратов, обусловленную регрессией

n

=∑(~ 2 ,

QR i=1 yi y)

где y =1 n yi .

n i=1

Тогда выборочное значение F, имеющее распределение Фишера

F =

QR /k

,

Q /(nk 1)

 

e

 

может служить проверкой адекватности для заданного уровня значимости λ (обычно для экономических задач λ=0,05) и степеней свободы

f1= k ; f2= n k 1,

где

k

число оцениваемых

параметров, исключая

свободный коэффициент.

 

 

 

 

Если F

F λ;

f1;

f2

– модель адекватна

(прил.1). Остаточную

дисперсию ошибки

 

 

 

 

 

S2 =Qe /(n k 1)

можно использовать в качестве оценки дисперсии σ2 – дисперсии

случайной величины. Результаты проверки адекватности удобно представить в виде (табл. 2.1).

Полезной характеристикой линейной регрессии является коэффициент детерминации, вычисляемый по формуле

 

 

 

 

R2 =

 

 

QR

 

 

 

 

=1

Qe

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

QR +Qe

 

QR +Qe

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 2.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Источник

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Число

 

Оценка

 

 

изменения

 

 

Сумма квадратов

 

степеней

 

дисперсии

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

свободы

 

 

 

 

 

 

 

QR =∑(yi

y)

 

k

 

S R = Q R / k

 

Модель

 

 

 

n

 

~

 

 

 

2

 

 

 

2

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q

n

2

 

 

 

n

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

= ∑

 

=∑(y

y)

n k 1

 

S =Qe/(nk1)

 

Ошибка

 

e

ei

 

 

 

 

i

 

 

 

 

i

 

 

 

 

 

 

 

 

 

i=1

 

 

~

 

 

 

2

 

 

 

 

 

i =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Qe +QR =∑(yi

 

)2

 

n 1

 

 

 

 

Сумма

 

y

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициент детерминации равен той доле результатов наблюдений

 

 

прямой y =

 

,

 

относительно

горизонтальной

y

которая объясняется

уравнением

регрессии. Величина

R = + R2

является оценкой

множественного коэффициента корреляции между результатами наблюдений

и вычисленными значениями ~yi . Если R2=0.75 это значит, что модель работает на 75%, а 25% приходится на ошибку или неучтенные в модели факторы (для практических целей целесообразно, чтобы R2 0,75). Для небольших значений n<30 необходимо использовать скорректированный коэффициент детерминации

R*2 =1 n n k 11 (1 R2).

Проверка значимости параметров модели

В результате проверки устанавливается статистическая значимость или незначимость отличия от нуля оценок параметров регрессии. Это проверка осуществляется отдельно для каждого параметра модели. Для оценки значимости коэффициентов регрессии можно воспользоваться следующим правилом, если абсолютная величина коэффициента регрессии больше доверительного интервала, то гипотеза о незначимости коэффициента отвергается

 

~

t f , λ / 2

Sai

<

ai

<

~

+

t f , λ / 2

Sai ,

 

 

ai

 

 

 

ai

 

 

 

 

 

 

a~i

 

t f , λ/ 2 Sai ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где

 

– значение Стьюдента, определяемое по числу степеней

 

 

 

 

sai

 

 

свободы f= n k 1

и λ=0,05 (прил.2);

средние

квадратические

отклонения (с.к.о.) ошибок коэффициентов регрессии, для простой линейной регрессии y = a0 +a1x они могут быть вычислены соответственно

Sa0 =

22

,

Sa 1 =

n

S

2

.

S x

 

 

 

nx2 (x)2

 

 

nx2 (x)2

 

Можно проверять значимость коэффициентов по t-критерию. Воспользуемся формулой

~

t = a i .

S a i

Вычисленное значение сравнивается с табличным и если t t f; λ/2, то коэффициент значим. В противном случае соответствующую переменную можно исключить из модели и все расчеты, включая решение системы линейных уравнений, повторить снова.

2.3. МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Множественная линейная регрессия представляет собой выражение

~y =a0 +a1x1 +a2 x2 +...+ak xk .

Для случая k =2 по результатам наблюдений система нормальных уравнений, полученная МНК, будет иметь вид

a0n+a1x1i +a2x2i =∑yi ,

a0x1i +a1x1i2 +a2x1i x2i =∑yi x1i ,a0x2i +a1x1i x2i +a2x2i2 =∑yi x2i .

Дальнейшие рассуждения удобно вести, используя следующие матричные обозначения:

y

 

 

a0

 

 

 

1

 

 

 

 

 

y2

 

 

a1

 

 

Y = .

 

 

- векторнаблюдений,

a = .

 

- векторпараметров,

 

 

 

 

 

 

 

.

 

 

 

.

 

 

 

 

 

 

 

 

 

yk

 

 

ak

 

 

1

x11

x21...

xk1

 

 

1

x12

x22... xk2

 

- регрессионнаяматрица(n k +1)

A = ..

..

..

..

 

 

 

 

 

 

.

1 x1n

x2n

xkn

 

 

Система нормальных уравнений имеет вид

(AT A)a = ATY . При

условии, что AT A

– невырожденная матрица, решение системы можно

записать в виде

 

 

 

 

 

 

a =(AT A)1 ATY.

Ковариационная матрица оценок параметров регрессионной модели будет равна

Kaiaj =S2(AT A)1.

Дисперсии параметров модели определяются соотношением

S2ai = Kaiai .

Во множественной линейной регрессии предпосылки регрессионного анализа и его проведение полностью совпадают с простой линейной регрессией. Особенностью множественной регрессии является корреляция независимых переменных. Желательно избегать включения в модель линейно зависимых переменных.

2.4. НЕКОТОРЫЕ НЕЛИНЕЙНЫЕ МОДЕЛИ, СВОДЯЩИЕСЯ К ЛИНЕЙНЫМ

Существуют два вида нелинейности регрессионных моделей:

Нелинейные относительно независимых переменных.

Например,

~y = a0 +a1 x1 +a2 x22 +a3 x1 x2 .

В этом случае необходимо просто сделать замену переменных:

x22 =z1 ,

x1x2 =z2 ,

~

=a0 +a1x1

+a2 z1+a3z 2.

y

Нелинейные относительно параметров регрессии.

Например,

~

1

 

y

=

a0 +a1 x

.

Выполним функциональное преобразование:

пусть

z =

1

 

,

тогда

z = a

 

+ a x.

~

0

 

 

 

 

 

1

 

 

y

 

 

 

 

 

К сожалению, не всегда можно функциональными преобразованиями от нелинейных моделей перейти к линейным. Кроме того, нужно иметь в виду, что при вычислении параметров по методу МНК минимизируется сумма квадратов отклонений преобразованных, а не исходных данных.

2.5. ПРОВЕРКА ПРЕДПОСЫЛОК РЕГРЕССИОННОГО АНАЛИЗА

Проверка нормальности закона распределения ошибок

Анализ ошибок проводится по следующей схеме. Предполагаем, что εi ~ N(0,σ) , тогда εi ~ N (0,1) . Тогда, если модель правильна, то

дисперсия остатков, характеризующая качество аппроксимации результатов наблюдений

 

 

 

 

n

 

n

 

S2 =

Qe

 

=

(ei

e)2

=

ei2

,

 

i=1

i=1

nk 1

nk 1

 

 

 

 

nk 1

служит оценкой величины σ2 – дисперсии ошибок наблюдений, где

e среднее значение отклонений. Случайная величина ei / S представляет

собой единичные нормальные отклонения. Если эти отклонения будут находиться в интервале [-2; 2] , то, следовательно, наше предположение о

том, что εi ~ N(0,σ) не ошибочно.