4. Статистическое изучение взаимосвязи
Типовая задача 9. Пусть по 10 однотипным предприятиям имеются следующие данные о выпуске продукции (х) в тоннах (графы 1 и 2 таблицы).
Требуется найти уравнение зависимости расхода топлива от выпуска продукции (или уравнение регрессии у по х) и измерить тесноту зависимости между ними.
Решение:
А. Рассматривая уравнение регрессии в форме линейной функции видаух = а0 + а1х, параметры данного уравнения (а0 и а1) найдем из системы нормальных уравнений:
n a0 + a1x = y,
a0x + a1x2 = xy.
Таблица 4.1
х |
у |
х2 |
ху |
ух = 1,16 + 0,547х |
у2 |
5 |
4 |
25 |
20 |
3,9 |
16 |
6 |
4 |
36 |
24 |
4,4 |
16 |
8 |
6 |
64 |
48 |
5,5 |
36 |
8 |
5 |
64 |
40 |
5,5 |
25 |
10 |
7 |
100 |
70 |
6,6 |
49 |
10 |
8 |
100 |
80 |
6,6 |
64 |
14 |
8 |
196 |
112 |
8,8 |
64 |
20 |
10 |
400 |
200 |
12,1 |
100 |
20 |
12 |
400 |
240 |
12,1 |
144 |
24 |
16 |
576 |
384 |
14,3 |
256 |
125 |
80 |
1961 |
1218 |
80 |
770 |
Н еобходимые для решения суммы х, у, х2, ху рассчитаны выше в таблице. Подставляем их в уравнения и решаем систему:
10а0 + 125а1 = 80,
125а0 + 1961 а1 = 1218.
а0 = 1,16; а1 = 0,547.
Отсюдаух = 1,16 + 0,547х.
Подставляя в это уравнение последовательно значения х = 5, 6, 8, 10 и т.д., получаем выравненные (теоретические) значения результативного показателяух (графа 5 таблицы).
Б. Для измерения тесноты зависимости между у и х воспользуемся прежде всего линейным коэффициентом корреляции (поскольку зависимость рассматривалась линейной):
а) применяем формулу
Н аходим ху = 121,8;х = 12,5;у = 8;х2 = 196,1.
Определяем х и у, предварительно найдя у2 = 770 и у2 = 77:
Отсюда
Значение линейного коэффициента корреляции r = 0,96 (т.е. близкое к единице) характеризует не только меру тесноты зависимости вариации у от вариации х, но и степень этой зависимости к линейной;
б) воспользуемся еще одной формулой линейного коэффициента корреляции:
т.е. результат тот же.
При расчете коэффициента корреляции очень важно оценить его значимость. Оценка значимости (существенности) линейного коэффициента корреляции основана на сопоставлении значения r с его средней квадратической ошибкой (r).
Средняя ошибка коэффициента корреляции при n > 50 рассчитывается приближенно по формуле
Если при этом коэффициент корреляции r превышает свою среднюю ошибку r больше чем в 3 раза, т.е. если то он считается значимым, а связь – реальной.
При n < 30 значимость коэффициента корреляции проверяется на основе t-критерия Стьюдента. Для этого рассчитывается фактическое (расчетное) значение критерия
которое сопоставляется с tтабл, для числа степеней свободы v = n – 2 и заданного уровня значимости (обычно = 0,05).
Если tфакт > tтабл, r считается значимым, а связь – реальной. Если tфакт < tтабл, то считается, что связь между х и у отсутствует и значение r, отличное от нуля, получено случайно.
В рассматриваемом примере средняя ошибка коэффициента корреляции:
а
Находим, что при числе степеней свободы v = 10 – 2 = 8 и уровне значимости = 0,05 табличное (критическое, пороговое) t равно 2,306, т.е. tтабл = 2,306.
Поскольку фактическое (расчетное) t больше табличного, т.е. tфакт > tтабл, то линейный коэффициент корреляции r = 0,96 считается значимым, а связь между х и у – реальной.
Типовая задача 10. По группе однородных предприятий имеются данные об объеме выпущенной продукции и уровне механизации трудоемких и тяжелых работ.
Таблица 4.2
Номер предприятия |
Уровень механизации трудоемких и тяжелых работ, % |
Объем продукции, млн р. |
1 |
2 |
3 |
1 |
22 |
117 |
2 |
85 |
186 |
3 |
67 |
86 |
4 |
36 |
112 |
5 |
21 |
52 |
6 |
40 |
132 |
7 |
39 |
141 |
Продолжение табл. 4.2 |
||
1 |
2 |
3 |
8 |
39 |
158 |
9 |
31 |
120 |
10 |
62 |
197 |
11 |
36 |
106 |
12 |
50 |
189 |
Требуется оценить степень тесноты связи между показателями механизации трудоемких и тяжелых работ и объемом продукции при помощи коэффициента Фехнера.
Решение:
Для расчета коэффициента Фехнера составляется вспомогательная таблица.
Коэффициент Фехнера определяется по формуле
где nа – количество совпадений знаков (х -х) и (у -у);
nb – количество несовпадений знаков.
В нашем примере (см. табл. 4.3) nа = 9; nb = 3. Таким образом
Таблица 4.3
Уровень механизации трудоемких и тяжелых работ (%), х |
х -х |
Объем продукции (млн.р.), у |
у -у |
1 |
2 |
3 |
4 |
22 |
-22 |
117 |
-16 |
85 |
41 |
186 |
53 |
67 |
23 |
86 |
-47 |
36 |
-8 |
112 |
-21 |
21 |
-23 |
52 |
-81 |
40 |
-4 |
132 |
-1 |
Продолжение табл. 4.3 |
|||
1 |
2 |
3 |
4 |
39 |
-5 |
141 |
8 |
39 |
-5 |
158 |
25 |
31 |
-13 |
120 |
-13 |
62 |
18 |
197 |
64 |
36 |
-8 |
106 |
-27 |
50 |
6 |
189 |
56 |
Полученное значение коэффициента свидетельствует о наличии связи между уровнем механизации работ и объемом продукции.
Типовая задача 11. По группе акционерных коммерческих банков региона имеются следующие данные.
Исчислить коэффициент корреляции рангов для оценки тесноты связи между суммой прибыли банка и размером его активов.
Таблица 4.4
Номер банка |
Активы банка, млн р. |
Прибыль, млн р. |
1 |
866 |
39,6 |
2 |
328 |
17,8 |
3 |
207 |
12,7 |
4 |
185 |
14,9 |
5 |
109 |
4,0 |
6 |
104 |
15,5 |
7 |
327 |
6,4 |
8 |
113 |
10,1 |
9 |
91 |
3,4 |
10 |
849 |
13,4 |
Решение:
Для расчета коэффициента корреляции рангов предварительно выполняется ранжирование банков по уровню каждого признака.
Таблица 4.5
Номер банка |
Активы банка (млн.р.), х |
Ранг по х |
Номер банка |
Прибыль банка (млн.р.), у |
Ранг по у |
9 |
191 |
1 |
9 |
3,4 |
1 |
6 |
104 |
2 |
5 |
4,0 |
2 |
5 |
109 |
3 |
7 |
6,4 |
3 |
8 |
113 |
4 |
8 |
10,1 |
4 |
4 |
185 |
5 |
3 |
12,7 |
5 |
3 |
207 |
6 |
10 |
13,4 |
6 |
7 |
327 |
7 |
4 |
14,9 |
7 |
2 |
328 |
8 |
6 |
15,5 |
8 |
10 |
849 |
9 |
2 |
17,8 |
9 |
1 |
866 |
10 |
1 |
39,6 |
10 |
Дальнейшие расчеты даны в таблице 4.6:
Таблица 4.6
Вспомогательная таблица для расчета коэффициента
корреляции рангов
Номер |
Активы (млн р.), х |
Прибыль (млн р.), у |
Ранги |
di (ранг х – ранг у) |
di2 |
|
х |
у |
|||||
1 |
866 |
39,6 |
10 |
10 |
0 |
0 |
2 |
328 |
17,8 |
8 |
9 |
-1 |
1 |
3 |
207 |
12,7 |
6 |
5 |
1 |
1 |
4 |
185 |
14,9 |
5 |
7 |
-2 |
4 |
5 |
109 |
4,0 |
3 |
2 |
1 |
1 |
6 |
104 |
15,5 |
2 |
8 |
-6 |
36 |
7 |
327 |
6,4 |
7 |
3 |
4 |
16 |
8 |
113 |
10,1 |
4 |
4 |
0 |
0 |
9 |
91 |
3,4 |
1 |
1 |
0 |
0 |
10 |
849 |
13,4 |
9 |
6 |
3 |
9 |
Итого |
|
|
|
0 |
68 |
По таблице определяется при объеме выборки 10 единиц (n = 10) и уровне значимости 5 % ( = 0,05) критическая величина для рангового коэффициента корреляции. Она составляет 0,6364. Поэтому общий вывод по результату анализа: есть необходимость увеличивать объем выборки.
Типовая задача 12. В результате обследования работников предприятия получены следующие данные (чел).
Требуется оценить тесноту связи между уровнем образования и удовлетворенностью своей работой с помощью коэффициентов ассоциации и контингенции.
Таблица 4.7
Образование |
Удовлетворены своей работой |
Не удовлетворены своей работой |
Итого |
Высшее и среднее |
300 |
50 |
350 |
Незаконченное среднее |
200 |
250 |
450 |
Итого |
500 |
300 |
800 |
Решение:
Коэффициент ассоциации – Юла
Коэффициент контингенции – Пирсона
Полученные коэффициенты подтверждают наличие существенной связи между исследуемыми признаками. Однако коэффициент контингенции всегда бывает меньше коэффициента ассоциации и дает более корректную оценку тесноты связи.
Типовая задача 13. Для изучения влияния условий производства на взаимоотношения в коллективе было проведено выборочное обследование 250 рабочих, ответы которых распределились следующим образом.
Таблица 4.8
Условия производства |
Взаимоотношения в коллективе |
|||
хорошие |
удовлетворительные |
неудовлетворительные |
итого |
|
Соответствуют требованиям |
30 |
20 |
10 |
60 |
Не полностью соответствуют |
25 |
50 |
15 |
90 |
Не соответствуют |
10 |
40 |
50 |
100 |
Итого |
65 |
110 |
75 |
250 |
Требуется охарактеризовать связь между исследуемыми показателями с помощью коэффициента взаимной сопряженности К. Пирсона и А.А. Чупрова.
Сформулировать вывод.
Решение:
Коэффициент взаимной сопряженности К. Пирсона определяется по формулам:
Коэффициент взаимной сопряженности А.А. Чупрова:
Полученное значение коэффициента взаимной сопряженности К. Пирсона свидетельствует, что связь между условиями производства и взаимоотношениями в коллективе весьма заметна. Коэффициент А.А. Чупрова также не опровергает наличие установленной связи.
Типовая задача 14. Пусть имеются следующие условные данные по 5 предприятиям (графы 1, 2, 3, 4 таблицы).
Определить (измерить) тесноту зависимости между у, х и z с помощью коэффициента конкордации (W).
Таблица 4.9
Предприятие |
Прибыль, млн р., у |
Стоимость основных фондов, млн р., х |
Затраты на 100 р. продукции, р., z |
Ранжирование факторов |
Сумма рангов, |
Квадраты суммы рангов, |
||
Ry |
Rx |
Rz |
||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
1 |
300 |
4,1 |
80 |
1 |
2 |
5 |
8 |
64 |
2 |
950 |
6,6 |
73 |
4 |
5 |
3 |
12 |
144 |
3 |
520 |
3,9 |
72 |
3 |
1 |
2 |
6 |
36 |
4 |
480 |
4,2 |
75 |
2 |
3 |
4 |
9 |
81 |
5 |
1000 |
6,3 |
67 |
5 |
4 |
1 |
10 |
100 |
По данным таблицы
Решение:
1. Ранжируем каждый из трех показателей (факторов) (графы 5, 6, 7).
2. Находим сумму рангов по каждой строке (графа 8) и общую сумму пяти строк.
3. Возводим в квадрат сумму рангов в каждой строке и находим общую сумму пяти строк (графа 9).
4. Находим S по формуле
где Ri – ранг i-го показателя.
S = 425 – (45)2 / 5 = 20.
Этот же результат получим, рассчитывая S по формуле
сначала определяем тогда
5. Рассчитываем коэффициент конкордации:
Учитывая малую величину значения W, можно сказать, что зависимость между рассматриваемыми показателями (факторами) весьма незначительна.
Коэффициент конкордации часто используется в экспертных оценках для определения согласованности мнения m экспертов в распределении мест (рангов) между n исследуемыми факторами или объектами по их приоритетности.
Задачи
4.1. Составить линейное уравнение регрессии и определить тесноту связи между показателями (линейный коэффициент корреляции, теоретическое и эмпирическое корреляционное соотношения, коэффициент детерминации, индекс корреляции) по данным табл. 4.10.
Таблица 4.10
Исходные данные к задаче 4.1
№ предприятия |
Валовая продукция, млн. р. |
Переработано сырья, тыс. т. |
1 |
2,4 |
0,6 |
2 |
2,8 |
0,9 |
3 |
3,4 |
1,2 |
4 |
3,6 |
0,8 |
5 |
4,0 |
1,4 |
6 |
4,4 |
1,8 |
7 |
4,8 |
1,6 |
8 |
5,3 |
2,0 |
9 |
5,5 |
2,4 |
10 |
6,0 |
2,7 |
11 |
3,2 |
2,9 |
12 |
6,5 |
3,2 |
ИТОГО |
54,9 |
21,5 |
4.2. Составить линейное уравнение регрессии:
x y = 106; x = 11; x2 = 137; y = 9; y2 = 85; a0 = 4,8.
4.3. Эмпирическое корреляционное соотношение равно 0,9; величина совокупности - 100.
Дисперсия равна 6,6. Определить среднюю из групповых дисперсий (внутригрупповую).
4.4. Имеет место зависимость выпуска продукции y от размера основного капитала x по 20 предприятиям. Уравнение регрессии имеет вид yx = 12,0 + 0,5 x.
Средняя величина основного капитала x равна 12,0 млн р.;
среднее квадратическое отклонение основного капитала x = 3,5 млн р.
средний выпуск продукции y равен 18 млн р.;
среднее квадратическое отклонение по выпуску продукции y = 2,0 млн р.
Определить линейный коэффициент корреляции.
4.5. Среднее значение x равно 20, средний квадрат x - 436; среднее значение y - 60; средний квадрат y – 3700; линейный коэффициент корреляции rxy = 0,75. Составить линейное уравнение регрессии.
4.6. Определить тесноту связи между производитель-ностью труда и стажем работы на основе эмпирического корреляционного соотношения.
Таблица 4.11
Группы рабочих по стажу работы, лет |
Число рабочих
|
Дневная производительность труда, шт. |
Дисперсия производительности труда, 2yi |
до 5 |
6 |
40 |
5,0 |
5 – 10 |
8 |
45 |
2,0 |
10 и более |
2 |
60 |
1,0 |
ИТОГО |
16 |
- |
- |
4.7. Составить линейное уравнение регрессии.
Таблица 4.12
Номер |
Доходы, р. |
Расходы, р. |
1 |
29 |
3,6 |
2 |
38 |
5,83 |
3 |
46 |
6,0 |
4 |
54 |
7,9 |
5 |
62 |
8,03 |
6 |
70 |
10,98 |
7 |
79 |
13,87 |
8 |
97 |
15,50 |
ИТОГО |
475,3 |
71,71 |
4.8. Составить линейное уравнение регрессии по данным табл. 4.13.
Таблица 4.13
Номер |
Стаж работы, лет |
Выработка на 1 работающего, р. |
1 |
1 |
80 |
2 |
3 |
90 |
3 |
4 |
120 |
4 |
2 |
100 |
5 |
5 |
110 |
6 |
7 |
150 |
7 |
8 |
160 |
8 |
6 |
130 |
ИТОГО |
36 |
940 |
4.9. Имеются следующие данные о росте 8 пар братьев и сестер, представленные в табл. 4.14:
Таблица 4.14
Рост брата, см |
Рост сестры, см |
170 |
163 |
165 |
162 |
177 |
168 |
180 |
170 |
181 |
164 |
175 |
162 |
172 |
165 |
180 |
168 |
Определить тесноту зависимости между ростом братьев и сестер на основе:
а) коэффициента Фехнера;
б) коэффициентов корреляции рангов Спирмэна и Кендэла.
4.10. У восьми учащихся колледжа зафиксировано следующее количество баллов, полученных за самостоятельные работы по математике (х) и по гуманитарным предметам (у):
Таблица 4.15
Студент |
х |
у |
А |
90 |
75 |
Б |
60 |
69 |
В |
46 |
45 |
Г |
68 |
49 |
Д |
82 |
58 |
Е |
71 |
54 |
Ж |
66 |
59 |
З |
78 |
70 |
Для характеристики корреляции между успеваемостью по математике и гуманитарным предметам рассчитать:
а) коэффициент Фехнера;
б) коэффициент корреляции рангов Спирмэна;
в) коэффициент корреляции рангов Кендэла.
4.11. На основе опроса 400 работников коммерческих структур и 400 работников бюджетных организаций получено следующее их распределение по ответам на вопрос, довольны ли они своей заработной платой:
Таблица 4.16
Работающие |
Довольные заработной платой |
Недовольные заработной платой |
Итого |
В коммерческих структурах |
360 |
40 |
400 |
В бюджетных организациях |
140 |
260 |
400 |
Итого |
500 |
300 |
800 |
1. С помощью критерия Пирсона 2 определить, случайно или неслучайно данное распределение.
2. Рассчитать коэффициенты ассоциации и контингенции.
4.12. Имеются следующие данные о распределении 200 молочных ферм области по производительности труда и себестоимости молока:
Таблица 4.17
Себестоимость |
Производительность |
|||
высокая |
средняя |
низкая |
Итого |
|
высокая |
10 |
10 |
30 |
50 |
средняя |
30 |
30 |
10 |
70 |
низкая |
50 |
20 |
10 |
80 |
Итого |
90 |
60 |
50 |
200 |
1. С помощью критерия 2 проверить, случайно ли данное распределение, т.е. существует ли зависимость между производительностью труда и себестоимостью молока.
2. Измерить тесноту зависимости между указанными показателями с помощью коэффициентов взаимной сопряженности Пирсона и Чупрова.
4.13. Имеются следующие данные по Северо-Западному району РФ:
Таблица 4.18
Область |
Урожайность зерновых, ц/га |
Надой молока на одну корову, кг |
Урожайность картофеля, ц/га |
Ленинградская |
16,3 |
3086 |
122 |
Новгородская |
10,4 |
1823 |
123 |
Псковская |
10,6 |
1772 |
126 |
Вологодская |
10,8 |
2346 |
104 |
С помощью коэффициента конкордации определить, согласуется ли «рейтинг» областей по всем показателям.
4.14. Имеются следующие данные по областям Центрально-Черноземного района РФ:
Таблица 4.19
Область |
ВРП на душу населения в 1997 г., тыс.р., х1 |
Розничный товарооборот на душу населения, тыс.р., х2 |
Обеспеченность жильем, м2 общей площади на одного жителя, х3 |
Белгородская |
12,25 |
5,35 |
20,9 |
Воронежская |
10,33 |
4,64 |
20,6 |
Курская |
11,50 |
4,78 |
20,0 |
Липецкая |
12,60 |
5,83 |
20,2 |
Тамбовская |
7,27 |
5,10 |
19,4 |
1. Измерить тесноту связи между х1 и х2 с помощью коэффициентов корреляции рангов:
а) Спирмэна; б) Кендэла.
2. С помощью коэффициента конкордации W определить, согласуется ли «рейтинг» областей по показателям х1, х2, х3.
Домашнее задание
Задача 1. Совокупность разбита на три группы: n1 = 10; n2 = 20; n3 = 20.
Средние значения по группам равны соответственно: x1 =5; x2 = 8; x3 = 15.
Общая дисперсия составляет 18,5. Определить эмпирическое корреляционное соотношение.
Задача 2. Среднее значение x равно 15, средний квадрат x - 289; среднее значение y - 50; среднее квадратическое отклонение по y - 4, линейный коэффициент корреляции rxy = = 0,6. Составить линейное уравнение регрессии.
Задача 3. Определить тесноту связи, рассчитав линейный коэффициент корреляции, теоретическое корреляционное соотношение, коэффициент детерминации, индекс корреляции. Составить уравнение регрессии.
Таблица 4.20
Номер |
Доходы, р. |
Потребление молока, л |
1 |
54 |
8 |
2 |
63 |
10 |
3 |
74 |
11 |
4 |
90 |
13 |
5 |
112 |
15 |
6 |
140 |
17 |
7 |
190 |
19 |
ИТОГО |
723 |
93 |
Задача 4. Определить эмпирическое корреляционное соотношение.
Таблица 4.21
Группы рабочих по стажу x |
Число рабочих, чел. f |
Средний размер ЗП, р. |
Дисперсия по ЗП, 2 |
до 5 лет |
75 |
3600 |
14 400 |
5 лет и более |
425 |
4500 |
15 625 |
Задача 5. Получены следующие результаты анкетного обследования рабочих, имеющих вторичную занятость:
Таблица 4.22
Дополнительно заняты |
Количество ответов |
||
мужчин |
женщин |
Всего |
|
На одной работе |
400 |
180 |
580 |
На двух работах |
150 |
20 |
170 |
На трех работах |
50 |
- |
50 |
Всего |
600 |
200 |
800 |
1. С помощью критерия 2 проверить, является ли данное распределение случайным.
2. Измерить тесноту зависимости между признаками, положенными в основу группировки, с помощью коэффициентов взаимной сопряженности:
а) Пирсона; б) Чупрова.
Задача 6. По восьми предприятиям имеются следующие условные данные об энерговооруженности труда (х) и производительности труда (у):
Таблица 4.23
Потребление электроэнергии на одного рабочего, кВт-ч, х |
Выработка на одного рабочего, тыс.р., у |
12 |
2,3 |
14 |
3,8 |
16 |
4,0 |
16 |
3,9 |
18 |
4,5 |
20 |
5,4 |
22 |
5,1 |
22 |
6,0 |
Измерить тесноту зависимости между х и у, используя:
коэффициент Фехнера;
коэффициенты корреляции рангов;
линейный коэффициент корреляции.