Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ермолаев О.Ю. Математическая статистика.doc
Скачиваний:
369
Добавлен:
13.08.2019
Размер:
23.04 Mб
Скачать

Глава 12

РЕГРЕССИОННЫЙ АНАЛИЗ

12.1. Линейная регрессия

Взаимосвязь между переменными величинами может быть описана разными способами. Например, как было показано в предыдущем разделе, эту связь можно описать с помощью раз­личных коэффициентов корреляции (линейных, частных, кор­реляционного отношения и т.п.). В то же время эту связь можно выразить по-другому: как зависимость между аргументом (вели­чиной) X и функцией Y. В этом случае задача будет состоять в на­хождении зависимости вида Y = F(X) или, напротив, в нахож­дении зависимости вида Х= F(Y). При этом изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией.

Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии выражает наилучшее пред­сказание зависимой переменной (Y) по независимым перемен­ным (X), Эти независимые переменные, а их может быть много, носят название предикторов.

Регрессию выражают с помощью двух уравнений регрессии, которые в самом простом случае выглядят, как уравнения пря­мой, а именно так:

(12.1)

(12.2)

256

В уравнении 12.1 Yзависимая переменная, а X — незави­симая переменная, а0 свободный член, а а1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

В уравнении 12.2 Xзависимая переменная, а Yнезави­симая переменная, b0 свободный член, а b1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.

Рис. 4. Линии регрессии Y по Х и X по Y в системе прямоугольных координат

Линии регрессии пересекаются в точке О (х, у), с координа­тами, соответствующими средним арифметическим значениям корреляционно связанных между собой переменных X и Y. Линия АВ, проходящая через точку О, соответствует линейной функци­ональной зависимости между переменными величинами X и Y, когда коэффициент корреляции между X и Y равен rxy. = 1. При

257

этом наблюдается такая закономерность: чем сильнее связь меж­ду X и Y, тем ближе обе линии регрессии к прямой АВ, и, на­оборот, чем слабее связь между этими величинами, тем больше линии регресии отклоняются от прямой АВ. При отсутствии свя­зи между X и Y линии регрессии оказываются под прямым углом по отношению друг к другу и в этом случае rxy = 0,

Количественное представление связи (зависимости) между X и Y (между Y и X) называется регрессионным анализом. Главная задача регрессионного анализа заключается, соб­ственно говоря, в нахождении коэффициентов a0, b0, а1 и b1 и определении уровня значимости полученных аналитических выражений (12.1) и (12.2), связывающих между собой пере­менные X и Y.

При этом коэффициенты регрессии а1 и b1 показывают, на­сколько в среднем величина одной переменной изменяется при изменении на единицу меры другой. Коэффициент регрессии а1 в уравнении (12.1) можно подсчитать по формуле:

(12.3) а коэффициент b1 в уравнении (12.2) по формуле (12.4)

(12.4)

где rxy - коэффициент корреляции между переменными X и Y;

Sx - среднеквадратическое отклонение, подсчитанное для

переменной Х; Sy - среднеквадратическое отклонение, подсчитанное для

переменной Y.

Коэффициенты регрессии можно вычислить также без под­счета среднеквадратических отклонений по следующим фор­мулам:

(12.5)

258

(12.6)

В том случае, если неизвестен коэффициент корреляции, коэф­фициенты регрессии можно вычислить по следующим формулам:

(12.7)

(12.8)

Сравнивая формулы (11.1) (вычисление rхy), (12.7) и (12.8), видим, что в числителе этих формул стоит одна и та же величи­на: ∑(xi - x)-(уi -у). Последнее говорит о том, что величины al, b1и rху взаимосвязаны. Более того, зная две из них — всегда мож­но получить третью. Например, зная величины a1 и b1 можно легко получить г..:

(12.9)

Формула (12.9) достаточно очевидна, поскольку, умножив a1, вычисленный по формуле (12.3) на b1, вычисленный по формуле (12.24), получим:

Формула (12.9) очень важна, поскольку она позволяет по из­вестным значениям коэффициентов регрессии al и b1 опреде­лить коэффициент корреляции, и, кроме того, сравнивая вы­числения по формулам (11.1) и (12.9), можно проверить пра­вильность расчета коэффициента корреляции. Как и коэффици­ент корреляции, коэффициенты регрессии характеризуют толь­ко линейную связь и при положительной связи имеют знак плюс, при отрицательной — знак минус.

В свою очередь свободные члены a0 и b0 в уравнениях регрес­сии придется вычислять по следующим формулам. Для подсчета свободного члена a0 уравнения регрессии (12.1) используется формула:

259

(12.10)

Для подсчета свободного члена b0 уравнения регрессии (12.2) используется формула:

(12.11)

Вычисления по формулам (12.7), (12.8), (12.10) и (12.11) дос­таточно сложны, поэтому при расчетах коэффициентов регрессии используют, как правило, более простой метод. Он заключается в решении двух систем уравнений. При решении одной системы на­ходятся величины a0 и al, и при решении другой — b0 и b1.

Общий вид системы уравнений для нахождения величин a0 и а1 таков:

(12.12)

Общий вид системы уравнений для нахождения величин -b0 и b1таков:

(12.13)

В системах уравнений (12.12) и (12.13) используются следу­ющие обозначения:xi yi

N число элементов в переменной X или в переменной Y,

xi - сумма всех элементов переменной X,

yi - сумма всех элементов переменной Y,

∑ (yi . yi ) - произведение всех элементов переменной Y друг на друга, ∑(xi . хi ) произведение всех элементов переменной Х друг на друга,

260

попарное произведение всех элементов перемен-ной X на. соответствующие элементы переменной К. Приведем несколько примеров линейной регрессии. Пример 1. В исследовании Ф. Гальтона (который и ввел в науку понятие регрессии) был измерен рост 205 родителей и 930 их взрослых детей (см. таблицу 3.3). При этом, если за Y взять рост ребенка, а за X рост родителя, уравнение регрессии, связывающее рост ребенка с ро­стом родителей, имеет вид:

(12.14) где X и У средние по всей выборке испытуемых.

Таким образом, зная величины средних по всей выборке и рост одного из родителей — Xi , из уравнения 12.14 можно под­считать величину Y, т.е. рост ребенка.

Пример 2. Психологи выявили взаимосвязь между успешностью обучения математике Y и показателем невербального интеллекта X. Было получено следующее уравнение регрессии:

Y= 1 +0,025 • X (12.15)

Предположим, что показатель невербального интеллекта уча­щегося равен 132, тогда согласно уравнению регрессии (12.15) можно предсказать его показатель средней успеваемости по ма­тематике:

Y= 1 + 0,025 • 132 = 4,3

У другого учащегося показатель невербального интеллекта оказался равен 82, тогда его средняя успеваемость по математи­ке составит:

Y= 1 + 0,025 • 82 = 3,05

Для закрепления основных понятий регрессионного анализа решим следующую задачу.

Задача 12.1. У 8 подростков психолог сравнивает баллы по третьему субтесту теста Векслера (переменная X) и оценки по алгебре (переменная Y) (см. за-

261

дачу 11.9). Теперь его интересует вопрос: на сколько баллов повысится успешность решения третьего субтеста Векслера, если оценки по ал­гебре повысятся на 1 балл? Кроме того, его ин­тересует вопрос, будет ли повышение успешно­сти решения третьего субтеста Векслера на 1 балл влиять на повышение оценок по алгебре?

Решение. Ответы на эти вопросы психолог получит с по­мощью использования метода регрессии. Распо­ложим исходные данные в виде таблицы, в ко­торой произведем предварительные необходи­мые вычисления.

Таблица 12,1

№ испы­туемых п/п

xi

yi

xiyi

xixi

yiyi

1

8

2

16

64

4

2

8

3

24

64

9

3

10

4

40

100

16

4

10

5

50

100

25

5

14

5

70

196

25

6

16

4

64

256

16

7

18

3

54

324

9

8

18

4

72

324

16

Суммы

102

30

390

1428

120

С помощью решения системы уравнений (12.12) необходимо найти уравнение регрессии Yна X, т.е. определить коэффициен­ты a0 и а1, и таким образом ответить на вопрос — на сколько баллов повысится успешность решения третьего субтеста Вексле­ра, если оценки по алгебре повысятся в среднем на 1 балл.

В системе уравнений (12.12) благодаря вычислениям, приве­денным в таблице 12.1, нам известны все необходимые величи­ны сумм и число N = 8, поскольку в эксперименте участвовало 8 человек. Итак, находим a0 и а1. Для этого перепишем систему уравнений (12.12), учитывая данные таблицы 12.1:

262

(12.16)

Решая эту систему уравнений, находим а0 = 3 и а1 = 0,06. Следовательно, искомое уравнение регрессии Y на X будет иметь вид:

(12.17)

Теперь найдем уравнение регрессии X на Y. Для этого необхо­димо решить систему уравнений (12.13), чтобы определить вели­чины b0 и b1. Подставляем в систему уравнений (12.13) данные из таблицы 12.1 получаем:

(12.18)

Решая эту систему уравнений, находим b0 — 9 и b1 = 1. Тогда искомое уравнение регрессии X на Y будет иметь вид:

(12.19)

У нас получено два уравнения регрессии (12.17) и (12.19). Коэффициенты а1 и b1 в уравнениях регрессии показывают, на­сколько в среднем величина одного признака, например Y, из­меняется при изменении другого признака на единицу меры, например X.

Иными словами, мы уже можем ответить на оба вопроса на­шей задачи. Так, согласно уравнению (12.17), увеличение на 1 балл успешности решения третьего субтеста теста Векслера влечет за собой увеличение оценок по алгебре на 0,06 или на 6%. В то же время, согласно уравнению регрессии (12.19), — увеличение на 1 балл оценки по алгебре влечет за собой увеличение оценок по третьему субтесту Векслера также на 1 балл.

Читателю предлагается сравнить выводы, полученные при ре­шении задач 11.9 и 12.1 и провести аналогию между результатами.

Регрессионные уравнения (12.17) и (12.19) можно получить также и другим способом: на основе коэффициента корреляции Пирсона между признаками X и Y (он был вычислен в задаче 11.9 и оказался равным 0,243) и дисперсиями переменных X и Y.

263

Подсчитаем дисперсии Sx и Sy по формуле (4.7). Они равны соответственно 4,27 и 1,04.

Тогда коэффициент а1 для уравнения регрессии (12.17) под­считывается согласно формуле (12.3) следующим образом:

Аналогично коэффициент b1 для уравнения регрессии (12.19) подсчитывается по формуле (12.4) следующим образом:

Выше было показано, что если известны два коэффициента регрессии для обеих линий регрессий (т.е. Y no Х и Х по Y), то на их основе можно получить коэффициент линейной корреляции между X и Y пo формуле (12.9). Проделаем эти вычисления:

Для применения метода линейного регрессионного анализа не­обходимо соблюдать следующие условия:

1. Сравниваемые переменные X и К должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что переменные X и Y имеют нормальный за-

кон распределения.

3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.