- •Частина 1. ПЕРВИННА ОБРОБКА ДАНИХ.
- •Частина 2. ОБЧИСЛЕННЯ ВИБІРКОВИХ ЧИСЛОВИХ ХАРАКТЕРИСТИК.
- •Частина 3. ПОБУДОВА ДОВІРЧИХ ІНТЕРВАЛІВ
- •Частина 4. ПЕРЕВІРКА ГІПОТЕЗ
- •Частина 5. ДИСПЕРСІЙНИЙ АНАЛІЗ
- •Частина 6. КОРЕЛЯЦІНО-РЕГРЕСІЙНИЙ АНАЛІЗ
- •Приклад виконання завдання
- •Частина 1. ПЕРВИННА ОБРОБКА ДАНИХ.
- •Частина 2. ОБЧИСЛЕННЯ ВИБІРКОВИХ ЧИСЛОВИХ ХАРАКТЕРИСТИК.
- •Частина 3. ПОБУДОВА ДОВІРЧИХ ІНТЕРВАЛІВ
- •Частина 4. ПЕРЕВІРКА ГІПОТЕЗ
Частина 1. ПЕРВИННА ОБРОБКА ДАНИХ.
За Х візьмемо довжину ампули, а за Y – її об'єм. Відповідним діапазонам присвоїмо імена Length і Volume.
Для вибірок Х і Y складемо їх статистичні розподіли. Для цього визначимо найменше і найбільше значення для кожної вибірки, а також її розмах як різницю між її найбільшим та найменшим значеннями: xmin = 18, xmax
= 25,5, Rx = 7,5; ymin = 0,8, ymax = 1,3, Ry = 0,5.
Вибірка Y має 6 різних варіантів значень, тому можна складати дискретний статистичний розподіл її значень. Для Х потрібно складати інтервальний статистичний розподіл, бо кількість варіантів її вибіркових значень більша 10. Кількість інтервалів однакової довжини h визначимо за формулою Стeрджеса m =1+log2 n , де m – кількість інтервалів, а n – об'єм
вибірки. В нашому випадку маємо m =1+log2 72 ≈ 7 , h = R / m =7,5/ 7 ≈1,1.
Для складання статистичних розподілів користуються функцією Excel
ЧАСТОТА(массив_данных; массив_интервалов) ([2, с. 165]), де
массив_данных – це масив або посилання на множину даних, для яких обчислюються частоти;
массив_интервалов – це масив або посилання на множину інтервалів, у які групуються значення аргументу массив_данных.
Аргумент массив_интервалов для об'єму має вигляд 0,8 : 0,9 : 1,0 : 1,1 : 1,2 : 1,3, а для довжини – 17,9 : 19,0 : 20,1 : 21,2 : 22,3 : 23,4 : 24,5 : 25,6. Тоді одержимо наступні статистичні розподіли:
|
|
Y |
|
0,8 |
|
0,9 |
|
|
1 |
|
1,1 |
|
1,2 |
|
1,3 |
|
|||||||
|
|
ni |
|
1 |
|
3 |
|
|
23 |
|
22 |
|
19 |
|
4 |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
Х |
|
17,9 |
|
|
19,0 |
|
20,1 |
|
21,2 |
|
22,3 |
|
23,4 |
|
24,5 |
||||||||
|
|
|
19,0 |
|
|
20,1 |
|
21,2 |
|
22,3 |
|
23,4 |
|
24,5 |
|
25,6 |
|||||||
ni |
|
6 |
|
|
9 |
|
25 |
|
18 |
|
8 |
|
2 |
|
4 |
Для обчислення розподілу частот краще користуватися засобом
Frequency Distribution надбудови PHStat2 ([2, с. 110]). Детальніше про надбудову PHStat2 дивись [2, Приложение Ж, с. 1289]. Не забудьте встановити регіональний стандарт Английский (США).
Одержані статистичні розподіли використаємо для побудови полігонів частот для об'єму та довжини ампул за допомогою Мастера диаграмм Excel ([2, с. 169-171]). На полігоні для довжини ампул показані серединні точки відповідних інтервалів.
5
|
25 |
|
|
|
|
|
|
20 |
|
|
|
|
|
частота |
15 |
|
|
|
|
|
10 |
|
|
|
|
|
|
|
5 |
|
|
|
|
|
|
0 |
|
|
|
|
|
|
0,8 |
0,9 |
1 |
1,1 |
1,2 |
1,3 |
|
|
|
Volume |
|
|
|
|
Рис. 1. Полігон частот об'єму ампул. |
|
30 |
|
|
|
|
|
|
|
25 |
|
|
|
|
|
|
частота |
20 |
|
|
|
|
|
|
15 |
|
|
|
|
|
|
|
10 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5 |
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
18,45 |
19,55 |
20,65 |
21,75 |
22,85 |
23,95 |
25,05 |
|
|
|
|
Length |
|
|
|
Рис. 2. Полігон частот довжини ампул. Побудову гістограми частот довжини ампул виконаємо засобом
Гистограмма надбудови Excel Пакет анализа ([2, с. 114-115]). ЇЇ аргумент
интервал_карманов – це інша назва аргументу массив_карманов, який вже використовувався для складання статистичних розподілів. Обов'язково встановити селектор Вывод графика. Одержана діаграма після форматування та редагування ([2, с. 167-168]) має наступний вигляд. На гістограм частот для довжини ампул показані серединні точки відповідних інтервалів.
Частота
30
25
20
15
10
5
0 18,45 19,55 20,65 21,75 22,85 23,95 25,05
Length
Рис. 3. Гістограма частот довжини ампул.
6
Для побудови полігонів і гістограм краще користуватися засобом
Hystogram & Polygons надбудови PHStat2 ([2, с. 114]).
Для створення кореляційної таблиці двовимірну вибірку (Х, Y) слід розташувати у стовпцях і сортувати за зростанням спочатку по Х, а потім по Y командою Данные\ Сортировка ([2, с. 100]). Далі створимо стовпці із кодами варіантів або інтервалів статистичного розподілу, яким належить вибіркові значення (будемо вважати, що лівий кінець належить інтервалу, а правий – ні). Розташуємо ці стопці поряд і присвоїмо їм заголовки Х_Коди і Y_Коди. У першу комірку кожного стовпця кодів введемо формулу Excel (без пробілів!): =ЕСЛИ(Адреса<Правий_кінець_першого_інтервала,"Код_першого_інтервала", ЕСЛИ(Адреса<Правий_кінець_другого_інтервала,"Код_другого_інтервала",… ЕСЛИ(Адреса<Правий_кінець_останнього_інтервала,"Код_останнього_інтерва ла"))…),
де Адреса – адреса комірки з вибірковим значенням. Копіюємо формулу в інші комірки відповідного стовпця.
Саму кореляційну таблицю будемо створювати за допомогою Мастера сводных таблиц Excel ([1, с. 263, 271, 2, с. 91]), попередньо виділивши стовпці із кодами. При створенні макету таблиці в область Строка помістимо кнопку поля Y_Коди, а кнопку поля Х_Коди в області Столбец і Данные. Одержимо наступну кореляційну таблицю, де коди варіантів або інтервалів статистичного розподілу – це їх номери.
Таблиця 1. Кореляційна таблиця.
Y_Коди |
|
|
|
Х_Коди |
|
|
|
Общий итог |
||
1 |
2 |
3 |
|
4 |
|
5 |
6 |
7 |
||
|
|
|
|
|||||||
1 |
|
1 |
|
|
|
|
|
|
|
1 |
2 |
1 |
1 |
1 |
|
|
|
|
|
|
3 |
3 |
4 |
2 |
11 |
5 |
|
|
|
1 |
23 |
|
4 |
1 |
3 |
8 |
8 |
|
1 |
1 |
|
22 |
|
5 |
|
2 |
5 |
5 |
|
6 |
1 |
|
19 |
|
6 |
|
|
|
|
|
|
1 |
|
3 |
4 |
Общий итог |
6 |
9 |
25 |
18 |
|
8 |
2 |
4 |
72 |
Для створення кореляційної таблиці краще користуватися засобом TwoWay Tables & Charts надбудови PHStat2 ([2, с. 137]).
7
Частина 2. ОБЧИСЛЕННЯ ВИБІРКОВИХ ЧИСЛОВИХ ХАРАКТЕРИСТИК.
Оскільки вибіркових значень парна кількість n =72, то медіану знаходять за формулою Me = (x36 + x37 ) / 2 . Після сортування вибіркових значень Х і Y в
порядку зростання бачимо, що для обох ознак 36-те і 37-ме значення однакові. Тому маємо Mex = 21, Mey = 1,1. В Excel медіану можна визначити за
допомогою функції Excel МЕДИАНА(массив) ([1, с. 151, Табл. 4.5]), де массив
– це масив або посилання на множину даних, для яких визначається медіана. Перший Q1 і третій Q3 квартилі знайдемо за допомогою функції Excel
КВАРТИЛЬ(массив; часть) ([1, с. 146-147, Табл. 4.4]), де аргумент
часть дорівнює відповідно 1 або 3.
Для об'єму маємо Q1 = 1, Q3 = 1,2, а для довжини – Q1 = 20,275, Q3 = 22.
Поняття викиду спирається на поняття інтерквартильного діапазону IRQ = Q3 – Q1. Для об'єму маємо IRQ = 0,2, а для довжини – IRQ = 1,725. Оскільки всі значення об'єму знаходяться в інтервалі (Q1−1,5 IQR;Q3 +1,5 IQR) = (0,7;
2,25), у цих даних немає навіть помірних викидів. Для довжини ампул маємо значення, які більші Q3 +1,5 IQR = 24,59, але менші Q3 +3 IQR = 27,18. Такі
випадки класифікуються як помірні викиди в область великих значень ([1, с. 158]).
Для створення статистичної діаграми типу “Ящик з вусами” за допомогою надбудови StatPlus (див. [1, с. 49]) потрібно виконати такі дії (не забудьте встановити регіональний стандарт Английский (США)):
Виконайте команду меню StatPlus \ Single Variable Charts \ Boxplots
У діалоговому вікні Create Boxplots встановити перемикач Input options у
положення Values in separate columns
Клік на кнопці Data Values
У діалоговому вікні Input Options виберіть у списку ім'я масиву або виділіть його мишею, попередньо встановивши перемикач Select your variables or columns у положення Use Range Reference
Клік на кнопці Output
У діалоговому вікні Chart Output Options встановіть перемикач Choose output destination у положення As an embedded chart located at у
положення New Worksheet і введіть ім'я нового аркушу, наприклад, Ящики
з вусами
1,4
1,3
1,2
1,1
1
0,9
0,8
Volume
0,7
Рис. 4. Діаграма “ящик з вусами” для об’єму ампул.
8
28 |
|
26 |
|
24 |
|
22 |
|
20 |
|
18 |
Length |
|
|
16 |
|
14 |
|
Рис. 5. Діаграма “ящик з вусами” для довжини ампул. Для обчислення децілів обох ознак скористаємося функцією Excel
ПЕРСЕНТИЛЬ(массив; k) ([1, с. 146, Табл. 4.4]), де k – це значення персентилі від 0 до 1 включно. Для першого деціля беремо k =0,1, а для дев'ятого – 0,9. Децільний коефіцієнт диференціації CD = D9/ D1 визначаємо як відношення дев'ятого і першого децілів. Для об'єму маємо D1 = 1, D9 = 1,2, CD = 1,2, а для довжини – D1 = 19,5, D9 = 23, CD = 1,18.
Вибіркові числові характеристики в Excel можна знайти засобом
Описательная статистика надбудови Пакет анализа ([2, с. 198]):
Виконайте команду меню Сервис / Анализ данных / Описательная
статистика
У діалоговому вікні Описательная статистика у текстове поле Входной интервал або ввести ім'я масиву або виділити його мишею
Встановити перемикач Параметры вывода у положення Новый рабочий лист і ввести ім'я нового аркушу, наприклад, ОписоваСтатистика
Встановити селектор Итоговая статистика
Порівняйте нові результати (див. рис. 6) з раніше одержаними.
Volume |
|
|
Length |
|
|
|
|
|
|
Среднее |
1,093 |
|
Среднее |
21,229 |
Стандартная ошибка |
0,012 |
|
Стандартная ошибка |
0,185 |
Медиана |
1,1 |
|
Медиана |
21 |
Мода |
1 |
|
Мода |
21 |
Стандартное отклонение |
0,105 |
|
Стандартное отклонение |
1,566 |
Дисперсия выборки |
0,011 |
|
Дисперсия выборки |
2,452 |
Эксцесс |
-0,247 |
|
Эксцесс |
0,975 |
Асимметричность |
-0,082 |
|
Асимметричность |
0,633 |
Интервал |
0,5 |
|
Интервал |
7,5 |
Минимум |
0,8 |
|
Минимум |
18 |
Максимум |
1,3 |
|
Максимум |
25,5 |
Сумма |
78,7 |
|
Сумма |
1528,5 |
Счет |
72 |
|
Счет |
72 |
Рис. 6. Результати роботи засобу “Описательная статистика”. Значно більше вибіркових числових характеристик видає засіб Univariate
Statistics надбудови StatPlus ([1, с. 146]).
9