Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Мат методы в психологии.doc
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
1.37 Mб
Скачать

1. Математико-статистические идеи метода регрессионного анализа

Взаимосвязь между переменными величинами может быть описана разными способами. Например, как было показано в предыдущей теме эту связь можно описать с помощью раз­личных коэффициентов корреляции (линейных, частных, кор­реляционного отношения и т.п.). В то же время эту связь можно выразить по-другому: как зависимость между аргументом (вели­чиной) Х и функцией Y. В этом случае задача будет состоять в на­хождении зависимости вида Y = F(X) (или YX = F(X)) или, напротив, в нахож­дении зависимости вида Х= F(Y) (или Xy = F(Y)). При этом изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией. Понятие регрессии ввел в науку Ф. Гальтон.

Регрессионный анализ (лат. regressio — движение назад) - область ста­тистического анализа, изучающая зависи­мость изменений значений переменных от одной или нескольких независимых пере­менных (факторов). Регрессионный анализ применим только по отношению к количественно выраженным переменным, измеряемым в интервальных шкалах. Различные способы регрессионного анализа широко при­меняются в эмпирических психодиагностических исследованиях для выявления влияния отдельных факторов на результи­рующие показатели теста, анализа на­дежности, внутренней и внешней валидности методики и др.

Итак, регрессионная модель описывает зависимость случайно величины от независимой величины в генеральной совокупности. Но поскольку вся генеральная совокупность недоступна для наблюдений, то истинное уравнение регрессии неизвестно, и люба регрессионная модель будет лишь приближением к действительности.

Как выбрать наилучшую регрессионную модель? Математическая статистика по этому поводу говорит, что выбор модели – искусство и правильность выбора целиком зависит от опыта исследователя. Обычно при выборе модели исходят из предметного анализа явления (какую форму связи можно ожидать?), и если имеющейся информации недостаточно, то, как правило, помогает графическое представление экспериментальных данных в виде диаграммы рассеяния (корреляционного поля) (рис. 1).

Если удается «на глазок» провести прямую линию, так, что все значения случайное величины будет достаточно близки к ней, то можно ожидать, что модель простой линейной регрессии окажется в данном случае адекватной экспериментальным данным.

Основными процедурами регрессионного анализа являются построение линий регрессии и нахождение уравнений регрес­сии.

Под линией регрессии понимается линия, соединяющая точки средних зна­чений сгруппированных признаков-факто­ров (т. е. тех признаков, влияние которых на переменную изучается). Построенные таким образом линии в общем виде определяют взаимодействие изучаемого показателя и одного (или группы) из объясня­ющих факторов, позволяют дать предва­рительную наглядную оценку воздей­ствия фактора на результирующий при­знак (рис. 1).

Оценка по тесту

yx

Возраст испытуемых (годы)

Рис. 1. Эмпирическая и выровненная линии регрессии средних оценок по тесту при лонгитюдном обследовании группы испытуемых.

Уравнение регрессии (упрощенно уравнение парной регрессии, описываю­щее воздействие одного фактора на ре­зультирующий признак) строится следую­щим образом. Линейная зависимость при­знака описывается уравнением

y = а + bх (1),

где a — свободный член уравнения,

bкоэффициент регрессии.

С точки зрения аналити­ческой геометрии b угловой коэффици­ент, определяющий наклон линии ре­грессии по отношению к осям X, Y.

В ас­пекте регрессионного анализа этот параметр показывает, на­сколько в среднем величина признака Y изменяется при соответствующем изме­нении на единицу меры признака X. На­глядное представление об этом парамет­ре и о положении линий регрессии Y по Х и Х по Y в системе прямоугольных коор­динат дает рис. 2.

Показано, что линии регрессии пересекаются в точке 0 (х, у ), соответствующей средним арифметичес­ким корреляционно связанных друг с дру­гом признаков Y и X. Линия АВ, проходя­щая через эту точку, изображает полную функциональную зависимость между пе­ременными Y и Х (коэффициент корреля­ции r = 1). Чем сильней связь между Y и X, тем ближе линии регрессии к АВ, и наоборот, чем слабее эта связь, тем более удаленными оказываются линии регрес­сии от АВ. При отсутствии связи между признаками (r = 0) линии регрессии ока­зываются под прямым углом по отношению друг к другу.

x/y

Рис. 2. Линии регрессии Х по Y и Y по Х в системе прямоугольных координат

Линия регрессии выражает наилучшее пред­сказание зависимой переменной по независимым перемен­ным. Эти независимые переменные, а их может быть много, носят название предикторов.

Главная задача регрессионного анализа заключается, соб­ственно говоря, в нахождении коэффициентов а и b и определении уровня значимости полученных аналитических выражений.

Для нахождения рассмотренных выше параметров (а, b) решается система урав­нений:

y = an + b ∑x;

∑xy = a ∑x + b ∑ x2,

∑y ∑ x2 - ∑x ∑ xy

отсюда ayx = n∑x2 – (∑x)2 (2);

∑x ∑ y2 - ∑y ∑ xy

axy = n ∑y2 – (∑y)2 (3);

n ∑ xy - ∑x ∑ y

byx = n∑x 2 – (∑x)2 (4) ;

n ∑ xy - ∑x ∑ y

bxy = n∑y2 – (∑y)2 (5) .

В выражениях (2) - (5) используются следу­ющие обозначения:

n - число элементов в переменной X или в переменной Y,

∑x - сумма всех элементов переменной X,

∑y - сумма всех элементов переменной Y,

∑y2 - произведение всех элементов переменной Y друг на друга,

∑x 2 - произведение всех элементов переменной X друг на друга,

∑ xy - попарное произведение всех элементов перемен­ной X на соответствующие элементы переменной Y.

Приведем несколько примеров линейной регрессии.

Пример 1. В исследовании Ф. Гальтона был измерен рост 205 родителей и 930 их взрослых детей (см. таблицу ). При этом, если за Y взять рост ребенка, а за X рост родителя, уравнение регрессии, связывающее рост ребенка с ро­стом родителей, имеет вид:

Yар =Yi + 2/3 ∙ (Xi – Xар) (6)

где Yар , Xар - средние по всей выборке испытуемых.

Таким образом, зная величины средних по всей выборке и рост одного из родителей — Хi из уравнения (6) можно под­считать величину Yi, т.е. рост ребенка.

Таблица 1

Рост роди­телей

Рост детей в дюймах

Всего

60,7

62,7

64,7

66,7

68,7

70,7

72,7

74,7

74

4

4

72

1

4

11

17

20

6

62

70

1

2

21

48

83

66

22

8

251

68

1

15

56

130

148

69

11

430

66

1

15

19

56

41

11

1

144

64

2

7

10

14

4

37

Всего

5

39

107

255

387

163

58

14

928

В таблице представлены классические данные Ф. Гальтона, иллюст­рирующие наличие положительной зависимости между ростом родителей и их детей. Таблица организована таким образом, что позволяет оценить частоту встречаемости в популяции однознач­но фиксируемых соотношений роста родителей и роста ребенка. Например, при низком росте родителей в 66 дюймов (1 дюйм ра­вен 2,54 см) только один из 144 обследованных детей имел рост в 60,7 дюймов, а 56 детей имели рост 66,7 дюйма. В то же время вы­сокий рост детей (74,7 дюйма) был зафиксирован только в тех се­мьях, где родители имели рост не ниже 70 дюймов.

Эта таблица позволяет выявить тенденцию, заключающуюся в том, что у высоких родителей, как правило, дети имеют высокий рост, а у низкорослых родителей чаще бывают дети невысокого роста. Данный пример показывает, что таблицы имеют не только иллюстративное, но и аналитическое значение, позволяя обнару­живать разные аспекты связей между варьирующими признаками.

Пример 2. Психологи выявили взаимосвязь между успешностью обучения математике Y и показателем невербального интеллекта X. Было получено следующее уравнение регрессии:

Y= 1 +0,025  X (7)

Предположим, что показатель невербального интеллекта уча­щегося равен 132, тогда согласно уравнению регрессии (7) можно предсказать его показатель средней успеваемости по ма­тематике:

Y= 1 + 0,025  132 = 4,3

У другого учащегося показатель невербального интеллекта оказался равен 82, тогда его средняя успеваемость по математи­ке составит:

Y= 1 + 0,025  82 = 3,05

Для применения метода линейного регрессионного анализа не­обходимо соблюдать следующие условия:

1. Сравниваемые переменные X и Y должны быть измерены в шкале интервалов или отношений.

2. Предполагается, что переменные X и Y имеют нормальный за­кон распределения.

3. Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.