- •Учреждение образования «высший государственный колледж связи»
- •Конспект лекций
- •Литература
- •Часть первая экономико-математические методы и модели Тема 1. Метод математического моделирования в экономике
- •Тема 2. Модель межотраслевого баланса
- •Тема 3. Задачи многокритериальной оптимизации
- •Тема 4. Элементы теории матричных игр
- •4.1 Парные матричные игры с нулевой суммой
- •4.2 Статистические игры. Критерии для принятия решений
- •Тема 5. Сетевые методы планирования и управления.
- •5.1 Общие понятия моделей спу
- •5.2 Правила построения сетевых графиков
- •Тема 6. Сетевые модели задач динамического программирования. Нахождение кратчайшего маршрута.
- •6.1 Основные понятия сетевых моделей
- •6.2 Матричный способ задания сетей
- •6.3 Задача о кратчайшем пути
- •Часть вторая эконометрика Тема 7. Предмет эконометрики
- •Тема 8. Корреляционный метод анализа связей. Модели парной регрессии
- •Тема 9. Корреляционный метод анализа связей. Модели множественной регрессии
- •Тема 10. Модели временных рядов
- •Содержание
Тема 8. Корреляционный метод анализа связей. Модели парной регрессии
Корреляционный метод имеет две основные задачи:
1) обнаружить зависимость между факторным и результативным признаками и описать её форму с помощью уравнения регрессии;
2) установить меру тесноты связи между признаками (в какой мере вариация х обуславливает вариацию у).
Приступая к изучению корреляционной зависимости следует помнить о том, что, прежде всего, необходимо провести предварительный теоретический анализ. Он должен ответить на вопрос о том, существует ли такая связь вообще. Из истории статистики известно, что несоблюдение этого правила не раз приводило исследователей к курьезным результатам.
Предварительный теоретический анализ позволяет во многих случаях подсказать и форму связи (прямолинейная или более сложная), установить, является ли связь прямой пли обратной.
Сказанное выше означает, что каждый, кто прибегает к использованию метода корреляции, должен хорошо владеть не только данным методом, но и знанием предмета своего исследования.
Корреляционную связь, в которой есть только один признак-фактор и один признак-результат, именуют парной. Уравнение, выражающее такую связь, представляют какой-либо математической формулой прямой или кривых линий (гипербола, парабола и др.).
Для нахождения формы связи и описания ее в виде уравнения линии используют:
— группировку статистических данных;
— построение графика эмпирической линии.
Если точек очень много, то рассматривают не линию, а облако точек на графике корреляционного поля. В реальной практике не всегда удается достаточно уверенно по эмпирической линии установить форму линии связи. В этих случаях принимают несколько вариантов формы связи, по каждому из них делают расчеты и в конце дают оценку вариантов с помощью показателя тесноты связи. Вариант, в котором теснота связи оказалась наиболее высокой, принимается за наиболее верный.
Если форма связи выражается прямой линией, то уравнение регрессии имеет вид:
,
где
- теоретическое значение,
и
- параметры уравнения.
Параметр
экономической интерпретации не имеет.
Параметр
называется коэффициентом
регрессии,
который показывает насколько изменится
результативный признак (
)
при изменении признака-фактора (x)
на одну единицу.
Параметры уравнения
и
найдем из решения системы двух нормальных
уравнений:

Уравнение регрессии можно использовать для прогнозирования, если связь между факторным и результативным признаками достаточно тесная.
В случае прямолинейной формы связи теснота может быть измерена линейным коэффициентом корреляции по формуле:
.
Коэффициент
корреляции может находится в пределах
от 0 (связь отсутствует) до
![]()
(связь полная). Знак «+» указывает на
прямую, а знак «-» на обратную связь.
Существуют способы оценки тесноты связи. В частности, по таблице Чэддока тесноту связи определяют:
|
Значение коэффициента (по модулю) |
Теснота связи |
|
0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99 |
слабая умеренная заметная высокая весьма высокая |
В упрощенном виде считают, что если коэффициент (по модулю) составляет от 0,1 до 0,3 – связь слабая, от 0,3 до 0,7 – средняя, от 0,7 и выше – тесная.
Уравнение линейной регрессии также можно найти по формуле (II способ):
,
где
– линейный коэффициент корреляции;
,
,
,
,
,
,
.
Оценить тесноту связи можно также с помощью корреляционного отношения, которое вычисляется по формуле:
,
где
- индивидуальные значения результативного
признака,
- теоретические
значения результативного признака,
которые находятся по уравнению регрессии,
- среднее значение
результативного признака.
При этом абсолютная величина коэффициента корреляции равна корреляционному отношению.
Для оценки степени соответствия модели фактическим данным служит коэффициент детерминации
.
Коэффициент детерминации показывает, какую часть фактической вариации переменной y составляет вариация регрессии.
К простейшим показателям степени тесноты связи относят
а) коэффициент корреляции знаков Фехнера:
,
где
- число совпадений знаков отклонений
индивидуальных величин от средней
величины;
- число несовпадений
знаков отклонений индивидуальных
величин от средней величины.
б) коэффициент корреляции рангов Кендалла:
.
Для расчета
все единицы ранжируются по признакуx,
по ряду другого признака y
подсчитывается для каждого ранга число
последующих рангов, превышающих данный
(их сумму обозначим P)
и число последующих рангов, ниже данного
(их сумму обозначим Q).
в) коэффициент корреляции рангов Спирмена:
,
где
- разность между рангами переменнойx
и y.
Коэффициенты
корреляции знаков Фехнера,
рангов
Кендалла, рангов Спирмена могут принимать
значения от -1 до +1. Если эти коэффициенты
больше нуля, то существует прямая
корреляционная связь между исследуемыми
признаками, а если меньше нуля, то
обратная корреляционная связь. Чем
ближе значения этих коэффициентов по
модулю к единице, тем теснее связь между
изучаемыми признаками. Причем значения,
равные
также свидетельствуют о корреляционной
связи ( в отличие от линейного коэффициента
корреляции).
Преимущество коэффициентов корреляции рангов состоит в том, что ранжировать можно и по таким признакам, которые нельзя выразить численно: можно проранжировать кандидатов на занятие определенной должности по профессиональному уровню, по умению руководить коллективом и т.п.
Недостатком коэффициентов корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений признаков (в случае количественных признаков). Поэтому для количественных признаков следует считать корреляцию рангов, как и коэффициент знаков Фехнера, приближёнными мерами тесноты связи.
Значимость
(надежность)
вычисленного значения линейного
коэффициента корреляции
r
определяется с помощью t-критерия
Стьюдента. Проверяется нулевая гипотеза
(о незначимости линейного коэффициента
корреляции) при конкурирующей гипотезе
.
1. Наблюдаемое значение критерия находится по формуле:
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где
- уровень значимости, обычно
или
(
,
где
- доверительная вероятность);
n-2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если
,
то принимаем нулевую гипотезу об
отсутствии связи между показателямиx
и y.
Если
,
то отклоняем нулевую гипотезу об
отсутствии связи между показателямиx
и y.
Т.е. полученное значение r
считается значимым и принимаем гипотезу
о наличии статистической связи между
показателями.
Значимость
простой линейной регрессии
проверяется с помощью F-критерия
Фишера. Проверяется нулевая гипотеза
при конкурирующей гипотезе
.
1. Наблюдаемое значение критерия находится по формуле:
;
2. Критическую точку F-критерия Фишера определяем по соответствующей таблице
,
где
- уровень значимости, обычно
или
(
,
где
- доверительная вероятность),m
– количество объясняющих переменных
модели (для модели простой парной
корреляции m=1);
m и n-m-1= n-2 – числа степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если
,
то принимаем нулевую гипотезу об
отсутствии линейной регрессии между
показателямиx
и y
(необходимо строить нелинейную регрессию).
Если
,
то отклоняем нулевую гипотезу о равенстве
нулю коэффициента детерминации. Т.е.
принимаем конкурирующую гипотезу о
наличии линейной регрессии между
показателями
x
и y.
Значимость
коэффициента регрессии
b
проверяется с помощью t-критерия
Стьюдента. Проверяется нулевая гипотеза
(о незначимости коэффициента регрессии)
при конкурирующей гипотезе
.
1. Наблюдаемое значение критерия находится по формуле:
,
где
- среднеквадратическая (стандартная)
ошибка параметра регрессииb,
находится по формуле
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где
- уровень значимости, обычно
или
(
,
где
- доверительная вероятность);
n-2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если
,
то принимаем нулевую гипотезу о
незначимости коэффициента регрессии,
т.е. коэффициент регрессии почти не
отличается от нуля или равен нулю.
Если
,
то отклоняем нулевую гипотезу о
незначимости коэффициента регрессии,
т.е. коэффициент регрессии не равен
нулю.
Значимость
параметра
a
проверяется с помощью t-критерия
Стьюдента. Проверяется нулевая гипотеза
при конкурирующей гипотезе
.
1. Наблюдаемое значение критерия находится по формуле:
,
где
- среднеквадратическая (стандартная)
ошибка параметра регрессииa,
находится по формуле
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где
- уровень значимости, обычно
или
(
,
где
- доверительная вероятность);
n-2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если
,
то принимаем нулевую гипотезу о
незначимости параметраa,
т.е. параметра a
почти не отличается от нуля или равен
нулю.
Если
,
то отклоняем нулевую гипотезу о
незначимости параметраa,
т.е. параметра a
не равен нулю.
Доверительные
интервалы параметров регрессии
при уровне значимости
определяются по формулам:
![]()
где
- среднеквадратическая ошибка параметра
регрессииa,
- среднеквадратическая ошибка параметра
регрессииb,
- табличное значение критерия Стьюдента
при заданном уровне значимости
и числе степеней свободы
.
Доверительный
интервал
для прогнозного
значения
при уровне значимости
определяется по формуле:
![]()
где
- точечный прогноз,
находится по построенной модели линейной
регрессии;
- средняя ошибка
прогноза в точке
,
рассчитывается по формуле:

где
- среднеквадратическая (стандартная)
ошибка регрессии, рассчитывается по
формуле:

Пример. Имеются данные об объемах реализованной продукции и балансовой прибылью предприятия по месяцам отчетного года (см. табл. 8.1).
Таблица 8.1
|
Месяц |
Объем реализованной продукции, млн. руб. |
Балансовая прибыль, млн. руб. |
|
Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь |
20 25 34 30 36 37 40 46 58 69 80 |
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
Необходимо:
1) построить модель линейной регрессии зависимости балансовой прибыли предприятия от объема реализованной продукции;
2) оценить тесноту связи между указанными признаками с помощью
а) линейного коэффициента корреляции,
б) коэффициента корреляции знаков Фехнера,
в) коэффициента корреляции рангов Кендалла,
г) коэффициента корреляции рангов Спирмена
и сделать соответствующие выводы;
3) определить значимость построенной модели с помощью коэффициента детерминации;
4) при уровне
значимости
проверить значимость
а) линейного коэффициента корреляции,
б) простой линейной регрессии,
в) параметров регрессии
и сделать соответствующие выводы;
5) дать точечный
и интервальный (при уровне значимости
)
прогноз балансовой прибыли при объеме
реализации, равном 75 млн. руб.
Решение.
1) Так как балансовая прибыль зависит от объема реализованной продукции, то в качестве факторного признака (x) будет выступать объем реализованной продукции, а в качестве результативного (y) – балансовая прибыль.
Уравнение линейной регрессии найдем по формуле:
,
Рассчитаем необходимые суммы в таблице 8.2.
Таблица 8.2
|
|
x |
y |
|
|
|
|
|
20 |
1,2 |
537,397 |
6,205 |
24 |
|
|
25 |
1,8 |
330,579 |
3,576 |
45 |
|
|
34 |
2 |
84,306 |
2,859 |
68 |
|
|
30 |
2,5 |
173,760 |
1,418 |
75 |
|
|
36 |
3 |
51,579 |
0,477 |
108 |
|
|
37 |
3,2 |
38,215 |
0,241 |
118,4 |
|
|
40 |
3,5 |
10,124 |
0,036 |
140 |
|
|
46 |
4,9 |
7,942 |
1,462 |
225,4 |
|
|
58 |
5 |
219,579 |
1,714 |
290 |
|
|
69 |
6,2 |
666,579 |
6,296 |
427,8 |
|
|
80 |
7,3 |
1355,579 |
13,026 |
584 |
|
Итого: |
475 |
40,6 |
3475,636 |
37,309 |
2105,6 |
Тогда
(млн. руб.);
(млн. руб.);
;
;
(млн.
руб.);
;
(млн. руб.);
;
Уравнение линейной регрессии имеет вид:
или
.
2а) Линейный
коэффициент корреляции между переменными
x
и y
равен
,
что свидетельствует о прямой весьма
высокой связи между этими признаками,
т.е. между объемом реализованной продукции
и балансовой прибылью предприятия.
2б) Найдем коэффициент корреляции знаков Фехнера.
В таблице 8.3 запишем знаки отклонений индивидуальных величин от средней.
Таблица 8.3
|
x |
y |
Знак
|
Знак
|
«с» - совпадение знаков «н» - несовпадение знаков |
|
20 25 34 30 36 37 40 46 58 69 80 |
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
─ ─ ─ ─ ─ ─ ─ + + + + |
─ ─ ─ ─ ─ ─ ─ + + + + |
с с с с с с с с с с с |
Итак, число
совпадений знаков отклонений
и число несовпадений знаков отклонений
.
Тогда
.
Следовательно, между изучаемыми
признаками существует прямая тесная
корреляционная связь.
2в) Найдем коэффициент корреляции рангов Кендалла.
В таблице 8.4 запишем ранги переменных x и y.
Таблица 8.4
|
x |
y |
Ранг x |
Ранг y |
|
20 25 34 30 36 37 40 46 58 69 80 |
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
1 2 4 3 5 6 7 8 9 10 11 |
1 2 3 4 5 6 7 8 9 10 11 |
Упорядочим все единицы по признаку x (см. табл. 8.5)
Таблица 8.5
|
x |
y |
Ранг x |
Ранг y |
|
20 25 30 34 36 37 40 46 58 69 80 |
1,2 1,8 2,5 2,0 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
1 2 3 4 5 6 7 8 9 10 11 |
1 2 4 3 5 6 7 8 9 10 11 |
По признаку y подсчитаем суммы P и Q:
P=10+9+7+7+6+5+4+3+2+1+0=54, Q=0+0+1+0+0+0+0+0+0+0+0=1.
Тогда
.
Следовательно, между изучаемыми
признаками существует прямая тесная
корреляционная связь.
2г) Найдем коэффициент корреляции рангов Спирмена.
Рассчитаем в таблице квадраты разностей между рангами переменных x и y (см. табл. 8.6).
Таблица 8.6
|
x |
y |
Ранг x |
Ранг y |
(Ранг
x–
Ранг y) |
|
20 25 30 34 36 37 40 46 58 69 80 |
1,2 1,8 2,5 2,0 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
1 2 3 4 5 6 7 8 9 10 11 |
1 2 4 3 5 6 7 8 9 10 11 |
0 0 1 1 0 0 0 0 0 0 0 |
|
|
|
|
Итого: |
2 |
Тогда
.
Следовательно, между изучаемыми
признаками существует прямая тесная
корреляционная связь.
3) Коэффициент детерминации найдем по формуле:
,
необходимые суммы рассчитаны в таблицах 8.7 и 8.2.
Таблица 8.7
|
|
|
|
|
|
|
|
1,340 |
5,525 |
400 |
0,020 |
|
|
1,847 |
3,399 |
625 |
0,002 |
|
|
2,354 |
1,786 |
900 |
0,021 |
|
|
2,760 |
0,867 |
1156 |
0,577 |
|
|
2,963 |
0,530 |
1296 |
0,001 |
|
|
3,064 |
0,393 |
1369 |
0,018 |
|
|
3,368 |
0,104 |
1600 |
0,017 |
|
|
3,977 |
0,082 |
2116 |
0,853 |
|
|
5,193 |
2,258 |
3364 |
0,037 |
|
|
6,309 |
6,853 |
4761 |
0,012 |
|
|
7,424 |
13,937 |
6400 |
0,015 |
|
Итого: |
40,6 |
35,734 |
23987 |
1,575 |
следовательно, модель объясняет зависимость между переменными на 95,78 %.
4а) При уровне
значимости
проверим гипотезу о значимости линейного
коэффициента корреляции.
,
.
1. Наблюдаемое значение критерия
.
2. Критическая
точка
.
3. Т.к.
(14,2895>2,26),
то отклоняем нулевую гипотезу об
отсутствии связи между показателямиx
и y.
Т.е. полученное значение r
считается значимым, и принимаем гипотезу
о наличии статистической связи между
показателями.
4б) При уровне
значимости
проверим гипотезу о значимости простой
линейной регрессии.
,
.
1. Наблюдаемое значение критерия
.
2. Критическая
точка
.
3. Т.к.
(204,1897>5,12),
то отклоняем нулевую гипотезу о равенстве
нулю коэффициента детерминации. Т.е.
принимаем конкурирующую гипотезу о
значимости линейной регрессии между
показателями
x
и y.
4в) При уровне
значимости
проверим гипотезы о значимости параметров
регрессии.
Для коэффициента регрессии b:
,
.
1. Наблюдаемое значение критерия
,
где
(необходимые суммы найдены в таблицах
8.2 и 8.7);
2. Критическая
точка
.
3. Т.к.
(14,2895>2,26), то отклоняем нулевую гипотезу
о незначимости коэффициента регрессии,
т.е. коэффициент регрессии не равен
нулю.
Для параметра a:
,
.
1. Наблюдаемое значение критерия
,
где
(необходимые суммы найдены в таблицах
8.2 и 8.7);
2. Критическая
точка
.
3. Т.к.
(|-2,075|<2,26), то принимаем нулевую гипотезу
о незначимости параметраa,
т.е. параметра a
почти не отличается от нуля или равен
нулю, и он может не использоваться в
модели. Однако наличие свободного члена
в линейном уравнении может лишь уточнить
вид зависимости. Поэтому, если нет
серьезных причин для удаления свободного
члена из уравнения регрессии, то лучше
его использовать в модели.
5) Точечный прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб. найдем по построенной модели:
(млн.
руб.)
Доверительный
интервал для
прогнозного значения
млн. руб. будет иметь вид:
![]()
где
,
стандартная ошибка
регрессии
.
Т.к.
,
то доверительный интервал будет иметь
вид:
или
.
Таким образом, при
уровне значимости
при объеме реализации, равном 75 млн.
руб. балансовая прибыль предприятия
ожидается в пределах от 5,8057 млн. руб. до
8,0287 млн. руб.
Если связь между признаками выражается какой-либо кривой линией, то нужно применить соответствующую формулу для расчета уравнения регрессии. Так, например, при связи, выраженной в форме гиперболы, уравнение регрессии имеет вид:
,
Параметры уравнения
и
находятся из решения системы уравнений:

Если уравнение
регрессии имеет форму параболы второго
порядка, то его уравнение будет:
.
Параметры уравнения
,
и
находятся из решения системы уравнений:

Показателем тесноты криволинейной корреляции является корреляционное отношение, которое вычисляется по выше приведенной формуле.
