Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОС по социологии - все части.doc
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
3.64 Mб
Скачать

5.2 Основные идеи регрессионного анализа. Линейная регрессия. Интерпретация коэффициентов уравнения линейной регрессии, их статистическая оценка.

Простейшую модель зависимости можно записать в виде следующей математической зависимости:

y = f (x) + u (4.1)

В этом уравнении y – зависимая переменная, x – независимая переменная, f – функция, описывающая силу и форму влияния x на y, а u – все остальные факторы, влияющие на y. Задачей построения модели (4.1), становится подбор функции f, которая будет наилучшим образом описывать зависимость x и y. По-другому, это уравнение может быть записано так:

y = b0+b1 x + u (4.2)

Оно называется уравнением простой (или парной) линейной регрессии. В этом выражении b0 и b1 – константы, которые и определяют конкретный вид линейного уравнения. b0 + b1х это неслучайная составляющая, а u – это случайные факторы. Именно наличием этой «добавки» объясняются несовпадения положения точек (реальных значений переменных) с некоторой вычисленной функцией.

Характер связи между Х и У линейный – линейная функция, на самом деле, берется, потому что она проще и удобнее. Линейная функция задается указанными параметрами b0 и b1.

Логика вычисления параметров прямой достаточно проста. Прямая должна лежать максимально близко ко всем точкам графика. Иными словами, сумма расстояний от всех точек на графике до искомой прямой должна быть наименьшей. Наиболее широко используемым методом решения задачи вычисления параметров регрессии, при минимизации выражения (S=E12+ E22+…En2) является метод наименьших квадратов (МНК). Оказывается, что S минимальна при следующих значениях b0 и b1 (4.4), (4.5).

В этих выражениях cov (x,y) – ковариация x и y; x и y с чертой наверху – средние значения этих переменных.

Фактически расстояния между положениями точек и регрессионной прямой показывают, насколько велико отличие между моделью зависимости между y и x, описываемой линейным уравнением и реальными данными. Эти отличия объясняются наличием величины u в регрессионном уравнении (4.2). Ясно, что чем больше u, тем хуже описывает линейная функция реальные данные. Степень расхождения реальных данных от линейного уравнения, то есть величины ui, в регрессионном анализе называются остатками.

Большая сумма остатков говорит о том, что данные в массе своей лежат далеко от регрессионной прямой. Следовательно, мы имеем ситуацию отсутствия тесной взаимосвязи между y и x, и, следовательно, коэффициент корреляции Пирсона будет мал. Можно сказать, что коэффициент корреляции Пирсона выступает индикатором того, насколько тесная связь наблюдается между y и x и имеет ли смысл строить модель линейной регрессии.

Интерпретация коэффициентов регрессии. Коэффициент b0 показывает, в какой точке регрессионная прямая пересечет ось y. Коэффициент b1 показывает, на сколько возрастает У при увеличении Х на единицу (увеличение Х на одну единицу (в единицах измерения Х) приведет к увеличению значения У на b1 единиц (в единицах измерения переменной У)). Нестандартизованный коэффициент bi показывает, на сколько единиц изменяется значение y при изменении xi на одну единицу. Коэффициент b1 есть ничто иное, как тангенс угла наклона регрессионной прямой, и, следовательно, именно он демонстрирует силу связи между y и x.

Качество модели линейной регрессии

Регрессионная модель хороша, если большая часть изменений y объясняется изменением закономерной составляющей ŷ (ŷ= b0 + b1х).

Традиционно, показателем, который может выступать как характеристика качества регрессионной модели, является коэффициент детерминации – отношение дисперсии ŷ к дисперсии y. Обозначают этот показатель как R2 (4.7).

R2 всегда положителен и равен 1 в ситуации, кода ŷ полностью описывает y, то есть когда остатки u отсутствуют. R2=r2(y,ŷ).

Статистические оценки коэффициентов регрессии

При переносе результатов регрессионной модели на ГС, регрессионная прямая (т.е. ее параметры) могут измениться. Принципиально важным фактором, влияющим на возможное изменение параметров b0 и b1 при переходе от выборки к генеральной совокупности, является разброс значений u, то есть дисперсия остатков. При этом понятно, что чем больше эта дисперсия, тем сильнее могут измениться b0 и b1 при генерализации. Другим фактором, который влияет на устойчивость параметров регрессии, является дисперсия x. Чем меньше возможные изменения x, тем вероятнее, что изменения y будут происходить из-за влияния u.

Для того, чтобы оценить точность коэффициентов регрессионной прямой при переносе с выборки на ГС вычисляются стандартные ошибки для коэффициентов b0 и b1 (4.8), (4.9).

- с.о. b0 – стандартная ошибка коэффициента b0;

- с.о. b1 – стандартная ошибка коэффициента b1;

- Du – дисперсия остатка;

- Dх – дисперсия x;

- x – среднее значение x;

- n – объем выборки.

Вычисленные стандартные ошибки коэффициентов b0 и b1 дают возможность с определенной, задаваемой нами самими вероятностью определить доверительные интервалы для характеристик регрессионной прямой в генеральной совокупности.

Увеличение объема выборки должно приводить к получению более точных оценок параметров регрессии. Формулы (4.8) и (4.9) показывают, что значения стандартных ошибок обратно пропорциональны корню квадратному из объема выборки. Этот факт достаточно неприятен, поскольку, например, для двукратного увеличения точности оценок параметров регрессии мы должны увеличивать объем выборки в 4 раза.

Проверка статистических гипотез о параметрах регрессии. После вычисления значений параметров и возможных ошибок параметров регрессии возникает проблема определения степени доверия к вычисленным коэффициентам. Для ее решения существует специальный статистический критерий, основанный на t-статистике. Она показывает, во сколько раз вычисленное значение параметра больше его стандартной ошибки (4.12).

Если значение t велико, то, скорее всего, вычисленному значению b можно доверять. t-статистика имеет t-распределение, критические точки которого приведены в статистических таблицах и в учебниках по статистике. Фактически t-статистика служит инструментом проверки статистической гипотезы о равенстве нулю параметра b. Такая гипотеза проверяется, потому что, если b1 равно нулю, то это значит, что регрессионная прямая идет параллельно оси абсцисс и, следовательно, y не зависит от x. Таким образом, если мы не можем с высокой вероятностью отвергнуть статистическую гипотезу о равенстве b1 нулю, значит, мы не можем принять гипотезу о связи y и x.

Для построения математической модели одновременного влияния нескольких факторов (независимых переменных, предикторов) на зависимую переменную используют усложнение модели простой линейной регрессии – модель множественной линейной регрессии.

Общий вид модели множественной линейной регрессии является естественным развитием уравнения (4.2) для простой линейной регрессии (4.15).

y = b0+b1 x1 + b2 x2 + b3 x3+ + bn xn + u (4.15)

В основе модели лежит все тоже предположение о линейной зависимости между зависимой и независимыми переменными. Значения регрессионного уравнения вычисляются также с помощью метода наименьших квадратов. Точность регрессионных коэффициентов оценивается с помощью стандартных ошибок:

- с.о. b1 – стандартная ошибка коэффициента b1;

- Du – дисперсия остатка;

- Dх1 – дисперсия x1;

- n – объем выборки;

- r2x1,x2 – квадрат коэффициента корреляции Пирсона для переменных x1 и x2.

Таким образом, при вычислении стандартной ошибки для регрессионных коэффициентов, наряду с дисперсией остатков и дисперсией независимой переменной, у нас появляется еще один источник ошибки – корреляция между независимыми переменными. Чем больше значение этого коэффициента (то есть, чем теснее связаны независимые переменные между собой), тем больше будет величина стандартной ошибки.Формула для оценки стандартной ошибки b2 будет точно такой же, лишь с заменой индекса x1 на x2.

Точно так же, как и для случая простой регрессии вычисляются значения t-статистики (формула (4.12)), которая, с одной стороны, показывает, во сколько раз значение регрессионного коэффициента больше его стандартной ошибки, с другой стороны служит для оценки вероятности того, что соответствующий регрессионный коэффициент равен нулю.

Для оценки значимости коэффициента детерминации R2 используется F-статистика, которая вычисляется как отношение средних квадратов по формуле (4.18).

где n – число наблюдений; k – число независимых переменных.

Эта формула выводится следующим образом:

Если уравнение регрессии записать так

y = ŷ + u,

то легко показать, что в этом случае дисперсия y может быть представлена в виде суммы:

Dy=Dŷ + Du.

Исходя из определения дисперсии, перепишем последнее выражение в виде (4.15).

Умножив обе части уравнения на n и вспомнив, что ū=0 мы получаем выражение (4.16).

Левая часть уравнения (4.16) представляет собой общую сумму квадратов отклонений y от его средней и обозначается – TSS (Total Sum of Squares). Первое слагаемое в правой части (4.16) является той частью суммы квадратов отклонений от средней, которая объясняется регрессионной моделью и обозначается как ESS (Explained Sum of Squares). Наконец, последний член в уравнении (4.16) есть ничто иное, как просто сумма квадратов остатков RSS (Residuals Sum of Squares). Таким образом, уравнение (4.16) можно переписать в виде (4.17).

TSS=ESS+RSS (4.17)

F-статистика представляет собой отношение объясненной суммы квадратов (в расчете на одну переменную) к необъясненной сумме квадратов (в расчете на одну степень свободы). Данный метод оценки коэффициента детерминации не дает возможности построения доверительного интервала для R2. Следовательно, получив некоторое значение R2 по результатам анализа данных в выборке, мы не сможем оценить значение этого коэффициента в генеральной совокупности

Для решения задачи сопоставления влияния независимых переменных на y используют стандартизованную форму регрессионного уравнения. При этом подходе все переменные в уравнении регрессии стандартизуют, то есть вместо y и всех иксов используют их стандартизованные значения (4.20):

(4.20)

Поскольку в результате преобразования (4.20) не изменятся коэффициенты корреляции между всеми переменными, то показатель качества регрессионной модели R2 не изменится, а коэффициент b0 станет равным нулю.

В результате стандартизованная форма регрессионного уравнения будет выглядеть следующим образом (4.21).

Если нестандартизованные коэффициенты показывают, на сколько меняется y при изменении соответствующего x на единицу, то стандартизованные коэффициенты позволяют сопоставить между собой общую степень воздействия каждого из x на y.

Выбросы в регрессионных моделях: Выбросы – это точки, резко выпадающие из общей тенденции, и, соответственно, далеко отстоящие от регрессионной прямой.

С математической точки зрения выбросы ухудшают нормальность распределения остатков и увеличивают их дисперсию, что сказывается на увеличении стандартных ошибок регрессионных коэффициентов и на уменьшении коэффициента детерминации. С социологической точки возникает подозрение, что наши данные неоднородны. В них есть часть наблюдений, для которых характерен один вид зависимости y от x, и другая часть, у которых эта зависимость существенно иная.

Одной из причин появления выбросов бывают ошибки ввода данных. Таким образом, анализ выбросов может служить эффективным инструментом контроля данных.

Второй причиной появления выбросов при анализе социологических данных является попадание в выборку каких-то специфических совокупностей респондентов, которые по некоторым параметрам резко отличаются от остальной выборки. В такой ситуации следует разделить массив на достаточно однородные группы и построить модели для каждой из них. Таким образом, анализ выбросов может помочь в выделении каких-то специфических групп респондентов из общего массива данных.

Способ борьбы с выбросами – удаление. Модель с удаленными выбросами гораздо адекватнее отражает исследуемые закономерности. Удаление улучшает качество модели регрессии (ув-ся коэффициент детерминации и ум-ся стандартные ошибки регрессионных коэффициентов).

Важный вопрос – определение порогового значения при котором значение переменной можно считать выбросом. Где та граница, которая отделяет выбросы от «нормальных» данных? Однозначного ответа на этот вопрос нет. В каждом конкретном случае этот ответ приходится искать заново исходя, прежде всего, из решаемой социологической задачи. Важным фактором при определении границы выбросов является разброс остатков.

Команда REGRESSION пакета SPSS предлагает в качестве выбросов считать те случаи, у которых значение остатка выходит за границу 3 стандартных отклонений остатков (то есть используется правило 3σ).