Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие Пр Ст030901.65.doc
Скачиваний:
7
Добавлен:
01.07.2025
Размер:
3.26 Mб
Скачать

2. Корреляционный анализ

Между социально-экономическими процессами и явлениями возможны два вида зависимостей:

- функциональная - имеется однозначное соответствие параметров, характеризующих различные процессы и явления (в социальной среде практически не встречаются);

- стохастическая (вероятностная) - конкретному значению зависимой переменной соответствует набор значений объясняющей переменной. Это связано, прежде всего, с тем, что на зависимую переменную оказывает влияние ряд неучтенных факторов. Кроме того, сказываются ошибки измерения переменных – вследствие случайного разброса значений их значения могут быть указаны лишь с определенной вероятностью.

Примерами случайных явлений, имеющими вероятностную природу и встречающимися в социально-экономической сфере, можно указать следующие:

- число совершенных и раскрытых преступлений за фиксированный отрезок времени (это – случайные величины);

- число дорожно-транспортных происшествий в регионе за определенное время (это также случайная величина) и др.

Для изучения стохастических взаимосвязей существуют специальные методы, в частности, корреляционный анализ.

Корреляция – это соотношение, связь между имеющимися явлениями и процессами.

Корреляционный анализ – это использование в определенной последовательности совокупности статистических методов обработки информации, позволяющее исследовать взаимосвязи между различными признаками.

Задачами корреляционного анализа как метода математической статистики для изучаемых случайных признаков являются:

- установление формы связи между изучаемыми случайными признаками;

- установление направления связи между изучаемыми случайными признаками;

- измерение тесноты этой связи между изучаемыми случайными признаками.

В статистике величина линейной зависимости между двумя признаками измеряется посредством простого (выборочного) коэффициента корреляции.

Величина линейной зависимости одной переменной от нескольких других измеряется коэффициентом множественной корреляции.

Возможно вычисление частного коэффициента корреляции, измеряющего линейную зависимость межу двумя признаками после устранения части линейной зависимости, обусловленной связью этих переменных с другими переменными.

По форме корреляционные связи могут быть:

- линейными (прямолинейными);

- нелинейными (криволинейными).

По направлению корреляционные связи могут быть:

- прямыми (положительными);

- обратными (отрицательными).

Коэффициент корреляции может принимать значения:

- при прямой связи – от 0 до +1;

- при обратной связи – от -1 до 0;

- при коэффициентах, близких к нулю, считается, что статистическая линейная связь между признаками отсутствует;

- при абсолютных значениях коэффициентов, меньше 0,3 – связь слабая;

- при значениях 0,3 – 0,5 – связь умеренная;

- при значениях 0,5– 0,7 – связь значительная;

- при значениях 0,7 – 0,9 – связь сильная;

- при значениях коэффициентов больше 0,9 – связь считается сильной;

- при значениях коэффициентов, равных +1 или -1, говорят о наличии функциональной связи (такая ситуация практически не встречается в статистических исследованиях).

Однако такая упрощенная оценка силы связи не всегда корректна, так как степень уверенности в наличии статистической связи зависит от объема исследуемой совокупности.

Чем меньше объем совокупности, тем большим должно быть значение коэффициента корреляции для принятия гипотезы о существовании зависимости между признаками.

С целью количественного измерения степени уверенности в существовании линейной статистической связи между признаками введены понятия:

- уровня значимости коэффициента корреляции;

- пороговое (критическое) значение коэффициента корреляции.

Проверка значимости полученного коэффициента корреляции состоит в сравнении расчетного значения с критическим.

При данном числе измерений и задаваемым уровнем значимости находится критическое значение, которое сравнивается с расчетным.

Если расчетное значение коэффициента корреляции больше критического – связь считается значимой.

Если расчетное значение коэффициента корреляции меньше критического, то связь или отсутствует (такое значение коэффициента корреляции объясняется случайными отклонениями), или выборка мала для ее выявления.

Для определения существования и величины линейной зависимости между двумя переменными X и Y необходимо осуществить две процедуры:

Процедура 1. Графическое отображение точек [(Xi, Yi), i = 1, n на плоскость [XY]. Полученный график называется диаграммой рассеяния, анализ которой позволяет сделать вывод о допустимости предположения о линейной зависимости между перемен­ными. Если такое предположение допустимо, то необходимо выразить в количественном виде величину линейной связи. Для этого исполь­зуется выборочный коэффициент корреляции:

Где n - количество измерений, Xi.Yi - i-е значения, X,Y - сред­ние значения, бх, бу - среднеквадратические отклонения перемен­ных X и Y соответственно.

В теории статистического анализа корреляционная связь определяется как линейная зависимость в условиях нормальности распределения анализируемых переменных. Поэтому для корректного применения корреляционных методов необходимо обосновать близость распределения переменных к нормальному и формы связи к линейной. В противном случае необходимо применять более сложные приемы анализа или другие коэффициенты связи.

Достаточно простой в вычислительном отношении способ про­верки нормальности эмпирического распределения состоит в оценке следующего отношения:

Где С - среднее абсолютное отклонение, б - среднеквадратическое отклонение.

Если указанное неравенство выполняется, то можно говорить о нормальности эмпирических распределений и корректности применения коэффициента корреляции как меры линейной статистической связи между переменными.

Однако даже при наличии сильной статистически значимой cвязи между двумя переменными нельзя быть полностью уверенным в причинно-следственной обусловленности, так как могут существовать другие причины (факторы), определяющие их совместную статистическую взаимосвязь. Статистические выводы должны быть всегда обоснованы надежной теоретической концепцией.

В то же время отсутствие статистически значимой связи не говорит об отсутствии причинно-следственных отношений, а заставляет искать другие пути и средства ее выявления, если содержательная концепция и практический опыт указывают на ее возможное существование.

3. Регрессионный анализ

Понятия корреляции и регрессии непосредственно связаны между собой. В корреляционном и регрессионном анализе много общих вычислительных приемов. Они используются для выявления причинно-следственных соотношений между явлениями и процессами. Однако, если корреляционный анализ позволяет оценить силу и направление стохастической связи, то регрессионный анализ - еще и форму зависимости.

Регрессия может быть:

А) в зависимости от числа явлений (переменных):

  • Простой (регрессия между двумя переменными);

  • Множественной (регрессия между зависимой переменной (у) несколькими объясняющими ее переменными (x1, х2,...,хn);

  • Линейной (отображается линейной функцией, а между изучае­мыми переменными существуют линейные соотношения);

  • Нелинейной (отображается нелинейной функцией, между изучаемыми переменными связь носит нелинейный характер);

В) по характеру связи между включенными в рассмотрение переменными:

  • Положительной (увеличение значения объясняющей переменной приводит к увеличению значения зависимой переменной и наоборот);

  • Отрицательной (с увеличением значения объясняющей пере­менной значение объясняемой переменной уменьшается);

Г) по типу.

  • Непосредственной (в этом случае причина оказывает прямее воздействие на следствие, т.е. Зависимая и объясняющая перемен­ные связаны непосредственно друг с другом);

  • Косвенной (объясняющая переменная оказывает опосредован­ное действие через третью или ряд других переменных на зависимую переменную);

  • Ложной (нонсенс регрессия) - может возникнуть при поверх­ностной и формальном подходе к исследуемым процессам и явлениям. Примером бессмысленных является регрессия,, устанавливающая связь между уменьшением количества потребляемого алкоголя в нашей стране и уменьшением продажи стирального порошка.

При проведении регрессионного анализа решаются следующие основные задачи:

  1. Определение формы зависимости.

  2. Определение функции регрессии. Для этого используют ма­тематическое уравнение того или иного типа, позволяющее, во-пер­вых, установить общую тенденцию изменения зависимой перемен­ной, а, во-вторых, вычислить влияние объясняющей переменной (или нескольких переменных) на зависимую переменную.

  3. Оценка неизвестных значений зависимой переменной. Полу­ченная математическая зависимость (уравнение регрессии) позволя­ет определять значение зависимой переменной как в пределах ин­тервала заданных значений объясняющих переменных, так и за его пределами. В последнем случае регрессионный анализ выступает в качестве полезного инструмента при прогнозировании изменений со­циально-экономических процессов и явлений ( при условии сохране­ния существующих тенденций и взаимосвязей). Обычно длина вре­менного отрезка, на который осуществляется прогнозирование, вы­бирается не более половины интервала времени, на котором прове­дены наблюдения исходных показателей. Можно осуществить как пас­сивный прогноз, решая задачу экстраполяции, так и активный, ведя рассуждения по известной схеме "если .... То" и подставляя раз­личные значения в одну или несколько объясняющих переменных рег­рессии.

Для построения регрессии используется специальный метод, получивший название метода наименьших квадратов. Этот метод име­ет преимущества перед другими методами сглаживания: сравнительно простое математическое определение искомых параметров и хорошее теоретическое обоснование с вероятностной точки зрения.

При выборе модели регрессии одним из существенных требова­ний к ней является обеспечение наибольшей возможной простоты, позволяющей получить решение с достаточной точностью. Поэтому для установления статистических связей вначале, как правило, рассматривают модель из класса линейных функций (как наиболее простейшего ив всех возможных классов функций):

Где bi, b2,...,bj - коэффициенты, определяющие влияние независимых переменных xjj на величину yi; ai - свободный член; σi - слу­чайное отклонение, которое отражает влияние неучтенных факторов на зависимую переменную; n - число независимых переменных; N -число наблюдений, причем должно соблюдаться условие (N > n+1).

Линейная модель может описывать весьма широкий класс раз­личных задач. Однако на практике, в частности в социально-эконо­мических системах, подчас затруднительно применение линейных мо­делей из-за больших ошибок аппроксимации. Поэтому нередко ис­пользуются функции нелинейной множественной регрессии, допускаю­щие линеаризацию. К их числу, например, относится производственная функция (степенная функция Кобба-Дугласа), нашедшая при­менение в различных социально-экономических исследованиях. Она имеет вид :

Где b0 - нормировочный множитель, bi...bj - неизвестные коэффи­циенты, εi - случайное отклонение.

Используя натуральные логарифмы, можно преобразовать это уравнение в линейную форму:

Log у* = log b0 + b1log x1 +...+ bjlog xj+log εi.

Полученная модель позволяет использовать стандартные проце­дуры линейной регрессии, описанные выше. Построив модели двух видов (аддитивные и мультипликативные), можно выбрать наилучшие и провести дальнейшие исследования c меньшими ошибками аппроксимации.

Существует хорошо развитая система подбора аппроксимирующих функций - методика группового учета аргументов (МГУА).

О правильности подобранной модели можно судить по результа­там исследования остатков εi являющихся разностями между наблюдаемыми величинами yi и соответствующими прогнозируемыми с помощью регрессионного уравнения величинами уi*. В этом случае для проверки адекватности модели рассчитывается средняя ошибка ап­проксимации:

Модель считается адекватной, если I находится в пределах не более 15%.

Особо подчеркнем, что применительно к социально-экономичес­ким системам далеко не всегда выполняются основные условия адекватности классической регрессионной модели.

Не останавливаясь на всех причинах возникающей неадекватности, назовем лишь мультиколлинеарность - самую сложную проблему эффективного применения процедур регрессионного анализа при изучении статистических зависимостей. Под мультиколлинеарностью понимается наличие линейной связи между объясняющими переменными. Это явление:

А) искажает смысл коэффициентов регрессии при их содержательной интерпретации;

Б) снижает точность оценивания (возрастает дисперсия оценок);

В) усиливает чувствительность оценок коэффициентов к выборочным данным (увеличение объема выборки может сильно повлиять на значения оценок).

Существуют различные приемы снижения мультикодлинеарноста. Наиболее доступный способ - устранение одной из двух переменных, если коэффициент корреляции между ними превышает значение, равное по абсолютной величине 0,8. Какую из переменных оставить решают, исходя из содержательных соображений. Затем вновь проводится расчет коэффициентов регрессии.

Использование алгоритма пошаговой регрессии позволяет последовательно включать в модель по одной независимой переменной и анализировать значимость коэффициентов регрессии и мультиколлинеарность переменных. Окончательно в исследуемой зависимости остаются только те переменные, которые обеспечивают необходимую значимость коэффициентов регрессии и минимальное влияние мультиколлинеарности.