- •7. Вариация данных. Для размера заработной платы за год:
- •Для возраста сотрудников выполните все действия выше. Лабораторная работа №2. Линейная регрессия. Расчеты коэффициентов ковариации, дисперсии и корреляции
- •Лабораторная работа №3. Оценка значимости уравнения линейной регрессия и прогнозирование
- •Задания для самостоятельного выполнения
Статистическая обработка данных.
Гистограммы. Нахождение обобщающих показателей
1. Разместите таблицу в ячейках А1:F72 табличного процессора Exсel.
Для заработной платы служащих постройте гистограмму с помощью пакета анализа: Сервис – Анализ данных – Гистограмма.
Опишите форму распределения. Обобщите информацию о распределении, указав также размеры наименьшей и наибольшей заработной платы.
2. Для возраста служащих постройте гистограмму. Опишите форму распределения. Обобщите информацию о распределении.
3. Для стажа работы служащих постройте гистограмму. Обобщите информацию о распределении.
4. Для заработной платы служащих разного пола постройте гистограмму только для мужчин. (Предварительно отсортируйте данные по полу).
Постройте гистограмму для женщин с целью сравнения заработной платы мужчин и женщин. Сравните эти два распределения заработной платы.
5. Для размеров годовой заработной платы:
-
Определите среднее, медиану и моду с помощью функций СРЗНАЧ(), МЕДИАНА(), МОДА().
-
На гистограмме определите приблизительное значение моды.
-
Сравните эти три показателя. Что вы можете сказать о типическом размере заработной платы в этом административном подразделении?
-
Постройте функцию кумулятивного распределения (постройте гистограмму с выводом графика параметром «Интегральный процент».
-
Найдите нижний, верхний квартили, экстремумы (максимум и минимум) с помощью функций КВАРТИЛЬ(В2:В72;1), КВАРТИЛЬ(В2:В72;2), МАКС(В2:В72), МИН(В2:В72).
-
Определите 10-й и 90-й перцентили (ПЕРСЕНТИЛЬ(В2:В72;10%) и ПЕРСЕНТИЛЬ(В2:В72;90%), чему равен перцентильный ранг для служащего под номером 6? ПРОЦЕНТРАНГ(В2:В72;В7)
В отношении возраста, стажа работы выполните все операции для анализа.
-
№
Зар.плата за год
Пол
Возраст
Стаж, год
Уровень подготовки
1
32368
ж
42
3
В
2
53174
м
54
10
В
3
52722
м
47
10
А
4
53423
м
47
1
В
5
50602
м
44
5
В
6
49033
м
42
10
А
7
24395
м
30
5
А
8
24395
ж
52
6
А
9
43124
м
48
8
А
10
23975
ж
58
4
А
11
53174
м
46
4
С
12
58515
м
36
8
С
13
56194
м
49
10
В
14
49033
ж
55
10
В
15
44884
м
41
1
А
16
53429
ж
52
5
В
17
46574
м
57
8
А
18
58968
ж
61
10
В
19
53174
м
50
5
А
20
53627
м
47
10
В
21
49033
м
54
5
В
22
54981
м
47
7
А
23
62530
м
50
10
В
24
27525
ж
38
3
А
25
24395
м
31
5
А
26
56884
м
47
10
А
27
52111
м
56
5
А
28
44183
ж
38
5
В
29
24967
ж
55
6
А
30
35423
ж
47
4
А
31
41188
ж
35
2
В
32
27525
ж
35
3
А
33
35018
м
39
1
А
34
44183
м
41
2
А
35
35423
м
44
1
А
36
49033
м
53
8
А
37
40741
м
47
2
А
38
49033
м
42
10
А
39
56294
ж
44
6
С
40
47180
ж
45
5
С
41
46574
м
56
8
А
42
52722
м
38
8
С
43
51237
м
58
2
В
44
53627
м
52
8
А
45
53174
м
54
10
А
46
56294
м
49
10
В
47
49033
ж
53
10
В
48
49033
м
43
9
А
49
55549
м
35
8
С
50
51237
м
56
1
С
51
35200
ж
38
1
В
52
50174
ж
42
5
А
53
24352
ж
35
1
А
54
27525
ж
40
3
А
55
29606
ж
34
4
В
56
24352
ж
35
1
А
57
47180
ж
45
5
В
58
49033
м
54
10
А
59
53174
м
47
10
А
60
53429
ж
45
7
В
61
53627
м
47
10
А
62
26491
ж
46
7
А
63
42961
м
36
3
В
64
53174
м
45
5
А
65
36292
м
46
0
А
66
37292
м
47
1
А
67
41188
ж
34
3
В
68
57242
ж
45
7
С
69
53429
ж
44
6
С
70
53174
м
50
10
В
71
44138
ж
38
2
В
7. Вариация данных. Для размера заработной платы за год:
а) Найдите размах (R), найдите дисперсию (σ2), стандартное отклонение (σ), коэффициент вариации ().
б) Сравните эти три показателя. Как они характеризуют типичную заработную плату в рассматриваемом отделе?
в) Постройте гистограмму и покажите на ней среднее значение и стандартное отклонение.
г) Сколько работников имеют зарплату, отличающуюся от средней не более чем на 1 величину стандартного отклонения? Как это количество согласуется с тем числом, которое можно было бы ожидать в случае нормального распределения?
в) Сколько работников имеют зарплату, отличающуюся от средней не более чем на 2 стандартных отклонения? Как это количество согласуется с тем числом, которое можно было бы ожидать в случае нормального распределения?
г) Сколько работников имеют зарплату, отличающуюся от средней не более чем на 3 стандартных отклонения? Как это количество согласуется с тем числом, которое можно было бы ожидать в случае нормального распределения?
Для возраста сотрудников выполните все действия выше. Лабораторная работа №2. Линейная регрессия. Расчеты коэффициентов ковариации, дисперсии и корреляции
Задание 1. Рассчитать показатель выборочной ковариации между потребительскими расходами на связь и среднемесячной абонентской платой за телефон и определить зависимость между ними.
Таблица 1 – Потребительские расходы по связи и среднемесячная
абонентская плата за телефон
-
Год
Абонентская плата, тыс.тг., Х
Расходы, тыс.тг, У
(х-хср)
(y-уср)
1
0,3
1,32
2
0,32
1,45
3
0,34
1,77
4
0,36
2,19
5
0,35
2,63
6
0,35
2,82
7
0,35
3,51
8
0,36
4,45
9
0,43
5,65
10
0,44
7,29
Среднее значение
Cov(x,y)
Дисперсия σ2
Коэффициент корреляции, r
Требуется:
1. Создать таблицу в ячейках А1:Е15 табличного процессора Exсel.
2. Выборочная ковариация является мерой взаимосвязи между двумя переменными и вычисляется по формуле:
средние значения.
Вычислить ковариацию Cov(x,y), воспользуйтесь встроенной математической функцией СУММПРОИЗВ(ряд1;ряд2).
3. Вычислить дисперсию для ряда х и у по формулам
4. Коэффициент корреляции является более точной мерой зависимости между переменными. Вычислить коэффициент корреляции по следующей формуле:
Задание 2. Вычислить коэффициент корреляции между расходами на питание У и личным доходом Х по данным экономики (усл.ед.) за 5 лет.
Требуется:
-
Представить исходные данные и расчетные показатели в виде следующей таблицы:
Таблица 2 – Исходные данные и расчетные показатели
-
год
х
у
(х-хср)
(y-уср)
2000
2
9
2001
6
10
2002
10
12
2003
14
19
2004
18
20
Среднее значение
Cov(x,y)
Дисперсия σ2
Коэф. корреляции, r
-
Двумерные данные анализируют с использованием корреляционного поля в координатах У и Х, которая дает визуальное представление взаимосвязи в данных. Данные наблюдений переменных Х, У представить в виде точечного графика – корреляционного поля с помощью команды Вставка –Диаграмма, выбрать тип «Точечная»
Рисунок 1 – Корреляционное поле зависимости
Опишите взаимосвязь.
3. Оценить тесноту связи используя пакет анализа Exсel. Убедитесь, что результаты, вычисленные расчетами и с помощью пакета анализа, совпадают.
Примечание. Коэффициент корреляции можно получить используя пакет анализа Exсel, выполнив команду Сервис–Анализ данных–Корреляция или с помощью статистической функции КОРРЕЛ(рядХ; рядУ)
Задание 3. У 10 магазинов с годовым товарооборотом хi млн.тг (i=1,…,10) численность торговых работников соответственно равна уi. Оценить тесноту связи показателей У и Х по значению коэффициента корреляции.
Исходные данные приведены в таблице:
Таблица 3 – Годовой товарооборот по численности торговых работников
-
№
х
у
(х-хср)
(y-уср)
1
1
20
2
3
30
3
5
40
4
6
50
5
7
30
6
9
40
7
10
50
8
11
60
9
12
70
10
13
90
Среднее значение
Cov(x,y)
Дисперсия σ2
Коэф. корр., r
Требуется:
1. Воспользуйтесь вычислениями и найдите: ковариацию, дисперсию, коэффициент корреляции.
2. Построить диаграмму корреляционнго поля зависимости переменных Х, У, опишите взаимосвязь.
Рисунок 2 – Корреляционное поле зависимости
Задание 4. Определить зависимость ввода в действие жилых домов от инвестиции в жилищное строительство. Известны значения двух признаков по девяти областям РК за определенный год.
Таблица 4 – Сведения по инвестициям в жилищное строительство по регионам РК
-
№
Регионы
Инвестиции, млн.тг., х
Введено тыс.кв.м., у
ỹ
Аi
1
Акмола
0,298
39
2
Актобе
1,922
92
3
Алматы
3,368
133
4
Атырау
5,927
191
5
Восточный Казахстан
0,985
82
6
Жамбыл
7,969
273
7
Западный Казахстан
1,516
77
8
Караганды
0,288
37
9
Костанай
0,228
35
10
Кызылорда
0,420
74
11
Мангыстау
2,457
122
12
Павлодар
0,302
46
13
Северный Казахстан
0,333
43
14
Южный Казахстан
1,880
91
Среднее
σ
r
R2
a
b
Требуется:
1. Построить диаграмму корреляционного поля.
2. Для характеристики зависимости у от x рассчитать параметры линейной функции. Параметры уравнения регрессии a, b определяют по формулам:
После вычислений должно быть получено уравнение регрессии следующего вида: у =38,81 +28,38*х
3. Тесноту линейной связи и степень вариации оценить с помощью коэффициента корреляции (r) и детерминации (R2). Коэффициент детерминации показывает какой процент вариации У объясняется поведением фактора Х.
Линейный коэффициент парной корреляции:
Коэффициент детерминации:
4. В корреляционном поле построить график уравнения регрессии. Для этого:
–по исходным данным добавляется линия тренда с помощью команды Диаграмма–Добавить линию тренда;
–в окне команды Линия тренда выбрать тип тренда «Линейный», и на вкладке Параметры включить параметры показать уравнение на диаграмме, поместить на диаграмму величину достоверности аппроксимации R2
Рисунок 3 – Окно «Линия тренда»
В результате получить на корреляционном поле график уравнения регрессии:
Рисунок 4 – Корреляционное поле зависимости
5. Подставляя в уравнение регрессии фактические значения х, определить теоретические значения .
6. Качество модели определяет средняя ошибка аппроксимации. Оценить модель через среднюю ошибку аппроксимации Ā:
В среднем расчетные значения ỹ для линейной модели отличаются от фактических значений у на 12,51%.