
- •Жолудева в.В. Математическая статистика
- •Оглавление
- •Глава 5. Корреляционный и регрессионный анализ. Выявление
- •Введение
- •Глава 1. Выборочный метод
- •Примеры решения задач
- •2. Вычислим относительные частоты, и результаты вычислений внесем в третий столбец таблицы 1.2. Относительные частоты находим по формуле
- •Глава 2. Числовые выборочные характеристики
- •2.1. Средние величины
- •2.2. Показатели вариации
- •2.3. Начальные и центральные моменты вариационного ряда
- •Примеры решения задач.
- •Решите самостоятельно следующие задачи.
- •Глава 3. Статистические оценки параметров распределения
- •3.1. Понятие оценки параметров
- •3.2. Точечные статистические оценки параметров распределения
- •Примеры решения задач
- •3.3. Интервальные оценки
- •Примеры решения задач
- •Решите самостоятельно следующие задачи
- •Глава 4. Проверка статистических гипотез
- •4.1. Статистическая гипотеза и общая схема ее проверки
- •4.2. Проверка статистической гипотезы о том, что среднее значение генеральной совокупности на уровне значимости α
- •4.3. Сравнение двух генеральных средних
- •4.4. Проверка гипотезы о равенстве дисперсий двух нормально распределенных совокупностей
- •4.5. Критерии согласия
- •Критерий Колмогорова
- •4.6. Проверка гипотезы об однородности выборок
- •Критерий Колмогорова-Смирнова
- •Критерий Вилкоксона
- •Решите самостоятельно следующие задачи
- •Глава 5. Корреляционный и регрессионный анализ. Выявление связи между величинами
- •Решите самостоятельно следующие задачи
Глава 5. Корреляционный и регрессионный анализ. Выявление связи между величинами
Корреляционный метод позволяет получить числовые показатели, характеризующие степень (тесноту) связи между двумя или несколькими признаками.
Для характеристики количественной связи между явлениями и отдельными признаками следует различать функциональную (полную) и статистическую (неполную) связь между признаками.
Статистической называют зависимость случайной величины У от Х, при которой изменение одной из величин (Х) влечет изменение другой (У).
Возникновение понятия статистической связи обуславливается тем, что зависимая переменная подвержена влиянию ряда контролируемых или неучтенных факторов, а также тем, что изменение значений переменных неизбежно сопровождается некоторыми случайными ошибками.
Корреляционная зависимость между двумя переменными величинами – это зависимость между значениями одной из них и условным математическим ожиданием другой.
Сравнивая различные виды зависимости между Х и У, можно сказать, что с изменением значений переменной Х при функциональной зависимости однозначно изменяется определенное значение переменной У, при корреляционной – определенное среднее значение У, при статистической – определенное распределение переменной У.
Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными. Основной задачей корреляционного анализа является выявление связи между случайными переменными и оценка ее тесноты.
Установление форм связи и подбор математического уравнения в большинстве случаев решается на основе логического анализа предыдущих исследований, данных статистических группировок, графического метода.
Линейная парная связь выражается уравнением прямой регрессии:
где а – угловой коэффициент прямой регрессии У на Х, называемый выборочным коэффициентом регрессии.
При малых выборках данные не группируются. Параметры а и b находятся по методу наименьших квадратов из нормальной системы уравнений
(5.1)
где n – число наблюдаемых значений пар взаимосвязанных величин (xi;yi).
Выборочные уравнения прямой линии регрессии имеют вид:
- уравнение прямой
регрессии У на Х;
(5.2)
- уравнение прямой
регрессии Х на У.
(5.3)
Выборочный линейный
коэффициент корреляции
характеризует тесноту связи между Х и
У. Коэффициент
корреляции
находится по формуле:
(5.4)
где
и
-
выборочные средние случайных величин
Х и У;
- среднее значение
произведений
и
-
выборочные средние квадратические
отклонения,
Свойства коэффициента корреляции :
1) Если =0, то Х и У не связаны корреляционной зависимостью;
2) Если
то
Х и У связаны функциональной зависимостью;
3) Если коэффициент корреляции положителен, то связь прямая; если коэффициент корреляции отрицателен, то связь обратная;
4) Связь тем теснее,
чем
ближе к единице:
Таблица 5.1.
|
|
|
|
связь практически отсутствует |
связь слабая |
связь умеренная |
связь высокая |
Пример 1. Найти коэффициент корреляции между производительностью труда У (тыс.руб.) и энерговооруженностью труда Х (кВт) (в расчете на одного работающего) для 14 предприятий региона по следующим данным:
xi |
2,8 |
2,2 |
3,0 |
3,5 |
3,2 |
3,7 |
4,0 |
4,8 |
6,0 |
5,4 |
5,2 |
5,4 |
6,0 |
9,0 |
yi |
6,7 |
6,9 |
7,2 |
7,3 |
8,4 |
8,8 |
9,1 |
9,8 |
10,6 |
10,7 |
11,1 |
11,8 |
12,1 |
12,4 |
Найти коэффициент корреляции и построить уравнение регрессии.
Решение. Для вычисления коэффициента корреляции воспользуемся формулой (5.4) и сведем все вычисления в расчетную таблицу:
Таблица 5.2.
№ п/п |
|
|
|
|
|
|
1 |
2,8 |
6,7 |
7,84 |
44,89 |
18,76 |
7,686 |
2 |
2,2 |
6,9 |
4,84 |
47,61 |
15,18 |
7,074 |
3 |
3,0 |
7,2 |
9 |
51,84 |
21,6 |
7,89 |
4 |
3,5 |
7,3 |
12,25 |
53,29 |
25,55 |
8,4 |
5 |
3,2 |
8,4 |
10,24 |
70,56 |
26,88 |
8,094 |
6 |
3,7 |
8,8 |
13,64 |
77,44 |
32,56 |
8,604 |
7 |
4,0 |
9,1 |
16 |
82,81 |
36,4 |
8,91 |
8 |
4,8 |
9,8 |
23,04 |
96,04 |
47,04 |
9,726 |
9 |
6,0 |
10,6 |
36 |
112,36 |
63,6 |
10,95 |
10 |
5,4 |
10,7 |
29,16 |
114,49 |
57,78 |
10,338 |
11 |
5,2 |
11,1 |
27,04 |
123,21 |
57,72 |
10,134 |
12 |
5,4 |
11,8 |
29,16 |
139,24 |
63,72 |
10,338 |
13 |
6,0 |
12,1 |
36 |
146,41 |
72,6 |
10,95 |
14 |
9,0 |
12,4 |
81 |
153,76 |
111,6 |
14,01 |
|
64,2 |
132,9 |
335,26 |
1313,95 |
650,99 |
133,104 |
Средние значения |
4,59 |
9,49 |
23,95 |
93,85 |
46,5 |
|
=
=
=
=
=
=
Связь сильная, прямая.
Для получения уравнения регрессии составим и решим систему уравнений (5.1.):
Пример 2. Распределение 100 предприятий по объему выпускаемой продукции Х (в тыс.руб.) и по себестоимости единицы продукции У (тыс.руб.) дано в корреляционной таблице.
y |
3,5 |
4,0 |
4,5 |
5,0 |
5,5 |
6,0 |
6,5 |
∑ |
4,1 |
- |
- |
- |
- |
- |
1 |
- |
1 |
4,3 |
- |
- |
- |
3 |
1 |
2 |
1 |
7 |
4,5 |
- |
- |
2 |
5 |
3 |
6 |
- |
16 |
4,7 |
- |
- |
5 |
7 |
9 |
1 |
- |
22 |
4,9 |
- |
1 |
15 |
11 |
2 |
- |
- |
29 |
5,1 |
- |
5 |
6 |
1 |
3 |
- |
- |
15 |
5,3 |
3 |
2 |
4 |
- |
- |
- |
- |
9 |
5,5 |
1 |
- |
- |
- |
- |
- |
- |
1 |
∑ |
4 |
8 |
32 |
27 |
18 |
10 |
1 |
100 |
Предполагая, что между переменными Х и У существует корреляционная зависимость, определить выборочный коэффициент корреляции; найти уравнение прямой регрессии У на Х; сделать вывод о тесноте и направлении связи; оценить среднюю себестоимость продукции (тыс.руб.) при объеме выпускаемой продукции в 5,0 тыс.руб.
Решение.
1. Найдем средние значения
,
и вычислим
Так
как коэффициент корреляции отрицателен,
то связь между величинами Х и У обратная.
Теснота связи высокая.
2. Для получения
уравнения прямой линии регрессии У на
Х воспользуемся уравнением (5.2.)
3. Оценим среднюю себестоимость продукции при объеме выпускаемой продукции в 5,0 тыс.руб.