Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ms_prac

.pdf
Скачиваний:
37
Добавлен:
10.12.2018
Размер:
2.33 Mб
Скачать

оцінки розподілу даних при описі властивостей числових вибірок. У той час як медіана поділяє упорядкований масив навпіл, квартили розбивають упорядкований набір даних на чотири частини. Перший квартиль q1 - це число, яке виділяє з варіаційного ряду перших 25% елементів. Другим

квартилем q2 є власне медіана яка ділить варіаційний ряд на дві рівні частини. Третій квартиль

q3

виділяє останню чверть даних варіаційного ряду. Отже, перший або нижній квартиль відсікає чверть сукупності знизу, другий – рівний медіані, а третій або верхній – відсікає чверть сукупності зверху.

Обчислення квартелів аналогічне обчисленню медіани. Спочатку визначають положення (місце, номер) квартиля у варіаційному ряді.

Номер першого квартиля

Nq

 

n 1

 

 

 

 

 

 

 

 

1

4

 

 

 

 

 

 

 

 

 

Номер першого квартиля

N

q

n 1 2

n 1

x

 

 

 

 

 

 

med

 

 

2

4

2

 

 

 

 

 

Номер першого квартиля

Nq

n 1 3

 

 

 

 

1

4

 

 

 

 

 

 

 

Наприклад, на рис. 3 першому і третьому квартелям відповідають номери 15 і 45, а їх

значення є приблизно такими:

q1 9 і q3 10 .

Абсолютні значення різниць між квартилями і

медіаною є однакові. Це підтверджує симетричність функції щільності розподілу.

Мода. Термін мода був вперше введений Пірсоном у 1894 р. Мода – це число, яке частіше за інших зустрічається у вибірці (найбільш модне). Мода добре описує, наприклад, типові реакції водіїв на сигнал світлофора про припинення руху. На відміну від середнього арифметичного, екстремальні значення на моду не впливають. Для багатьох розподілів випадкових величин мода взагалі не існує.

Класичний приклад використання моди – вибір розміру партії, що випускається: взуття або кольору шпалер. Якщо розподіл має кілька мод, то кажуть, що він є мультимодальним або багато модальним (має два або більше «піків»). Мультимодальність є дуже складним явищем, оскільки в переважній більшості це суміш розподілів, кожен з яких зумовлений певними чинниками. Ці чинники можуть бути постійними в часі, короткотривалими, випадковими чи періодичними. Аналіз таких розподілів є досить складним, проте дає важливу інформацію про природу досліджуваної змінної. Наприклад, в соціологічних опитуваннях, якщо змінна представляє собою перевагу або ставлення до чогось, то мультимодальність може означати, що існують кілька виразних різних думок. Мультимодальність також служить індикатором того, що вибірка не є однорідною і спостереження, можливо, породжені двома або більше «накладеними» розподілами.

Мода є єдиним можливим вимірником центру для вибірки з номінальною ознакою. Для неперервних ознак безпосереднє знаходження моди не має змісту, оскільки поява двох однакових величин є малоімовірною і не є чимось значущим. Однак має зміст визначення моди після розділення неперервної величини на дискретні інтервали, але в такому разі це значення моди стосується вибраних інтервалів, а не початкової величини. Смисловим аналогом моди для неперервних ознак є значення найбільшої густини імовірності, але при цьому також варто пам’ятати, що сама густина імовірності емпіричного (такого, що спостерігається) розподілу може бути визначена лише шляхом апроксимації (наближення) за допомогою певного теоретичного розподілу.

Для визначення моди існує багато методів. Переважно модою називають те значення варіанти, яке найчастіше зустрічається у вибірці даних. З розгляду неспадної функції закону розподілу випадкових величин доцільно назвати модою те значення абсциси, яке відповідає точці перегину графіка цієї функції. Точка перегину існує лише випадках зображених на рис. 1д та рис. 1е.

11

Графік обвідної варіаційного ряду на рис. 1д відповідає графіку оберненої функції закону розподілу, а графік обвідної варіаційного ряду на рис. 1е відповідає графіку функції закону розподілу.

Для визначення значення xmod пропонується наступний підхід. Суть підходу полягає в

апроксимації обвідної варіаційного ряду аналітичною функцією простого виду, параметри якої можуть бути легко визначені методом найменших квадратів. Найбільш простою аналітичною функцією в цьому плані є поліном третього степені

n a

a n a

2

n2 a n3 ,

n 1, 2, , N .

 

(3.9)

0

1

3

 

 

 

В результаті апроксимації обвідної практично будь-яким доступним методом визначають

коефіцієнти a . Далі, визначають другу похідну і прирівнюють її до нуля

d 2 n

0 , тобто

 

i

 

 

 

 

dn2

 

 

 

 

 

 

 

отримують простий вираз для визначення номера вибіркового значення моди:

 

 

 

0 ,

(3.10)

n 6a3n 2a2

а звідси

 

 

 

 

n

2a2

.

 

(3.11)

 

 

 

6a3

 

 

Підставивши значення n з виразу (3.11) в апроксимуючу функцію (3.9) вдається уточнити значення моди xmod , проте необхідно мати на увазі, що значна варіація рівнів варіаційного ряду суттєво впливає на якість апроксимації а відтак і на результат.

Якщо сукупність даних має симетричний розподіл то середня арифметична x , мода xmod і медіана xmed є рівні між собою. Для асиметричних розподілів ці статистичні величини неоднакові.

Як правило, вона представляє найбільш типове значення. На моду ніколи не впливають екстремальні значення в розподілі, а впливають – екстремальні частоти значень, тобто наскільки часто те чи інше значення змінної зустрічається в розподілі.

Мода використовується:

-коли нам треба швидка і приблизна міра центральної тенденції;

-коли потрібна міра центральної тенденції, що має бути типовим значенням.

Переваги моди:

-мода показує найбільш поширене значення в розподілі;

-на моду не впливають екстремальні значення – так як на середнє;

-допомагає аналізувати якісні дані.

-моду можна виявити просто побудувавши варіаційний ряд.

Обмеження:

-не включає до визначення всі спостереження розподілу, а лише концентрацію частот;

-подальші алгебраїчні перетворення неможливі – на відміну від середнього.

Мода, медіана і квартилі відносяться до так званих порядкових статистик, під якими розуміють варіант, який займає певне порядкове місце в варіаційному ряді. Їх використання в статистичному аналізі сприяє більш глибокому дослідженню і вивченню сукупності отриманих даних.

Середнє геометричне. Середнє геометричне в цілому використовується рідше, ніж арифметичне середнє, однак воно може бути корисно при обчисленні середнього значення показників, що змінюються з часом (заробітна плата окремого співробітника, динаміка показників успішності і т.п.).

12

Для знаходження середнього геометричного ряду чисел, для початку потрібно перемножити всі ці числа. Наприклад, дано набір з п’яти n 5 чисел: 12, 3, 6, 9 і 4. Добуток цих чисел рівний: 12 3 6 9 4 7776 . З отриманого добутку добувають корінь пʼятого степеня,

оскільки кількість чисел рівна пʼять. Отже, 5 7776 6 .

На відміну від середнього арифметичного, на геометричне середнє не так сильно впливають великі відхилення і коливання між окремими значеннями в досліджуваному наборі показників. При цьому середнє геометричне завжди менше або дорівнює середньому арифметичному. Величина середньої геометричної залежить тільки від співвідношення кінцевого і початкового рівнів. Якби не змінювались в цих межах інші рівні, величина середньої не зміниться.

Середнє геометричне застосовують також тоді, коли окремі значення в статистичній сукупності віддалені від інших значень, тобто існують екстремальні значення. Вони менше впливають на середнє геометричне в порівнянні із середнім арифметичним, а тому середнє геометричне дає більш правильне уявлення про повну загальну середню. Крім того, середню геометричну застосовують, коли загальний обсяг явища є добутком, а не сумою значень ознаки. Ця середня використовується здебільшого для розрахунку середніх коефіцієнтів (темпів) зростання і приросту при вивченні динаміки явищ.

Основні правила застосування середніх в статистиці В статистичних дослідженнях вірну характеристику сукупності за варіаційною ознакою в кожному окремому випадку дає тільки правильно визначений вид середньої. В залежності від утворення загального обсягу варіаційної ознаки визначається вид вибраної середньої.

Так, середня арифметична застосовується тоді, коли загальний обсяг варіаційної ознаки утворюється як сума квадратів окремих варіантів; середня гармонічна – коли загальний обсяг утворюється як сума обернених значень окремих варіантів; середня геометрична – коли обсяг варіаційної ознаки утворюється як добуток окремих варіантів.

Головна умова наукового використання середньої полягає в тому, що середні характеристики повинні вираховуватись на основі масового узагальнення фактів. Тільки тоді вони відображають суть явища, на значення якого не впливають одиничні фактори. Ця умова пов’язує статистичні середні із законом великих чисел.

Іншою важливою умовою застосування середніх в статистиці є якісна однорідність всіх одиниць сукупності. Вона полягає в тому, що не можна обчислювати середню з неоднорідної сукупності, окремі елементи якої підпорядковані різним законам розвитку по відношенню до осереднюваної ознаки.

Середня величина тільки тоді відобразить типовий розмір ознаки та її загальні риси, якщо це загальне реально існує, всі елементи якого якісно однорідні і типові.

Застосування методу середніх в статистиці тісно і нерозривно зв’язане з методом групувань.

Загальні середні потрібно доповнювати груповими середніми в тих випадках, коли варіаційна ознака суттєво відрізняється в окремих групах і в порівнюваних групах існує різне співвідношення груп.

Міри мінливості даних

Міри мінливості (розсіювання, розкиду) значень даних є статистичними показниками, що характеризують відмінності між окремими значеннями вибірки. Вони дають підстави характеризувати ступінь однорідності отриманої сукупності, її компактність. Крім того, вони побічно характеризують надійність отриманих даних та похідних від них результатів. До показників мінливості найчастіше відносять такі: розмах варіації, міжквартильний розмах, середнє відхилення, дисперсія, стандартне відхиленням.

Розмах варіації – є найбільш простим показником варіації і являє собою різницю між максимальним і мінімальним значеннями ознаки. Його можна досить і швидко легко визначити, особливо для відсортованих в порядку убування значень елементів вибірки. Цей показник

13

характеризує розкид елементів сукупності. Розмах варіації вловлює тільки крайні значення ознаки в сукупності, але не враховує повторюваність його проміжних значень, а також не відображає відхилень всіх варіантів значень ознаки. Проте, він також дуже чутливий до випадкових екстремальних значень, особливо при малому числі даних. Його значення розраховують за такою формулою:

R xmax xmin ,

де xmax та xmin – екстремальні значення у вибірці.

Міжквартильний розмах або середній розмах R q визначається як різниця між третім q3 і першим q1 квартилями вибірки:

R q q3 q1 .

Ця величина дозволяє оцінити розкид 50% елементів, що знаходяться в середині варіаційного ряду. Елементи вибірки, які знаходяться в межах цих двох квартилів не містять екстремальних значень, а тому міжквартильний розмах не залежить від них. Його величина залежить лише від кута нахилу обвідної між цими двома квартилями.

Середнє відхилення – це середньоарифметичне значення різниці (за абсолютною величиною) між кожним значенням у вибірці і її середнім:

1 n

x n xi x

i 1

Цей показник показує ступінь скупченості даних навколо середньоарифметичного.

Дисперсія. Цей показник характеризує ступінь відхилення елементів сукупності від

середнього арифметичного. Дисперсію

2 ,

якщо середнє значення сукупності є відомим,

розраховують за формулою:

 

 

 

 

 

1

n

2

 

xi x 2 .

 

 

 

n i 1

Дисперсія фактично іншим шляхом визначення ступеня скупченості даних, а саме, не через абсолютні величини. А через їх піднесення до квадрату.

Середньо-квадратичне відхилення визначають як корінь з дисперсії. Справа в тому, що розмірність дисперсії є квадратом розмірності варіант. Тому, в обчисленнях частіше використовують саме цей параметр, тобто

 

1

n

 

xi x 2 .

 

 

n i 1

Через піднесення до квадрату окремих відхилень при обчисленні дисперсії її величина дуже сильно відрізняється від самих цих відхилень. Крім того, вона має іншу розмірність даних – їх розмірність в квадраті. Тому, щоб уникнути цього і отримати характеристику, яка відповідає середньому відхиленню від середньоарифметичного з дисперсії добувають корінь. Його додатне значення приймають за міру мінливості, яку називають середньоквадратичним або стандартним відхиленням.

Коефіцієнт варіації. Для більш детальної характеристики сукупності застосовується відносний показник — коефіцієнт варіації. На практиці коефіцієнт варіації завжди порівнюють за

14

допомогою середнього квадратичного відхилення, яке найбільш реалістично відображає коливання ознаки в сукупності.

Коефіцієнт варіації — це відсоткове відношення середнього квадратичного відхилення до середнього рівня x . Як правило, цей середній рівень обчислюється за формулою середньої арифметичної. Коефіцієнт варіації обчислюється за формулою:

V 100 x

де V – коефіцієнт варіації; – середнє квадратичне відхилення; x — середній розмір ознаки в статистичній сукупності.

Коефіцієнт варіації дає змогу порівняти різні сукупності. Чим менший цей показник, тим менші коливання ознаки в сукупності і тим більш однорідна сукупність, і навпаки.

Показник коефіцієнта варіації варто використовувати для оцінки однорідності сукупності. Існує такий критерій – сукупність однорідна і середня величина в ній є типовою, якщо коефіцієнт варіації не перевищує 33 %.

Висновок про вибірку за пʼятьма значенями.

Висновок за п’ятьма значеннями – це вид описової статистики, що надає інформацію про набір спостережень, і, як видно із самої назви – складається із п’яти важливих показників.

1.Мінімальне значення в спостереженні, яке досить часто вказує на нижню границю множини значень, яке може приймати вимірюваний показник.

2.Перший (або нижній) квартиль є лише конкретним показником, проте в порівнянні з третім квартилем дає інформацію про міжквартильний розмах, а також, з порівняння їх величин випливає асиметрія розподілу. Якщо квартилі однакові за величиню асиметрія відсутня, якщо ні – розподіл даних є асиметричним.

3.Медіана (серединне значення). Якщо абсолютні значення різниць між медіаною і квартилями близькі можна прийняти, що значення моди і середнього арифметичного близькі до значення медіани.

4.Третій (або верхній) квартиль разом з першим, якщо вони однакові, створюють межу яка відділяє відповідає 50% значень які більші за значення квартилів. В цьому випадку можна припустити, що розподіл є симетричним. Причому, якщо різниця між значенням медіани квартиля є меншою ніж величина значення квартиля можна прийняти що розподіл є приплюснутий.

5.Максимальне значення часто приймають за верхню межу множини значень вимірюваного параметра.

Ці п’ять показників дають досить вичерпний підсумок щодо розподілу спостережень. Перевага наявності цих п’яти показників, зокрема, у тому, що не потрібно вирішувати, яка ж підсумкова статистика буде найбільш прийнятною для аналізу розподілу. Так, п’ять показників дають інформацію про центральну тенденцію (медіана), розмах (квартилі) і діапазон (мінімальне та максимальне значення).

Показники розподілу значень елементів вибірки

Розподілом вибіркових значень показника називають закономірність зустрічальності різних його значень. В статистичних дослідженнях широко використовується нормальний закон розподілу. Він дуже часто зустрічається в природничо наукових дослідженнях і вважається «нормою» будь-якого масового випадкового прояву ознак. Графік нормального розподілу являє собою так звану дзвоноподібну криву. Цей закон розподілу характеризується перш за все тим, що

15

крайні екстремальні значення ознаки в ньому зустрічаються досить рідко, а значення, близькі до середньої величини – досить часто.

Параметри нормального розподілу є його числовими характеристиками. Вони вказують на те, де «в середньому» розташовується найбільша кількість значень ознак, наскільки ці значення мінливі і де буде спостерігатися поява вказаних (заданих) значень ознаки. Найбільш важливими параметрами цього розподілу є середнє арифметичне, дисперсія, показники асиметрії і ексцесу.

Розподіли переважно відрізнятися за середнім, дисперсією, асиметрією, ексцесом.

В тих випадках, коли які-небудь причини сприяють більш частій появі значень, що є більшими або меншими за середнє форма кривої розподілу стає асиметричною. Для лівосторонньої або додатної асиметрії значно частіше зустрічаються малі значення ознаки, а для правосторонньої або відʼємної – більш високі.

Аналіз реально одержаного в дослідженні розподілу сприяє підтвердженню або спростуванню прийнятих теоретичних припущень. Якщо підтверджено, що розподіли досліджуваних обʼєктів статистично достовірно різняться, то це може стати основою для побудови класифікацій цих обʼєктів. Таким чином, зіставлення форм розподілів може дати початок наукового пошуку.

Досить часто корисно зіставити отриманий емпіричний розподіл з теоретичним розподілом. Наприклад, для того, щоб довести, що він відповідає або, навпаки, не відповідає нормальному закону розподілу. У практичних цілях емпіричний розподіл повинен перевірятися на «нормальність», особливо в тих випадках, коли треба використати параметричні методи і критерії.

Для того щоб визначити нормальність розподілу ознаки, потрібно: - визначити середнє арифметичне x ,

- обчислити стандартне відхилення ,

- розрахувати показники асиметрії A і ексцесу E . Показник асиметрії ( A ) обчислюється за формулою:

 

n

 

 

xi x 3

 

A

i 1

.

n 3

 

 

Для симетричних розподілів A 0 .

 

Показник ексцесу E визначають за формулою:

 

 

n

 

 

xi x 4

 

E

i 1

3

n 4

 

 

Для нормального розподілу E 0 .

 

Далі обчислюють критичні значення для асиметрії і ексцесу за формулами:

 

 

 

 

 

 

 

 

 

Acr 3

6 n 1

 

 

 

 

n 1 n 3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

E 5

24 n n 2 n 3

 

,

 

 

 

 

 

 

cr

n 1 2 n 3 n 5

 

 

 

 

 

 

 

де n – кількість спостережень (значень).

Остаточне рішення щодо відповідності емпіричного розподілу теоретичному після порівняння емпіричних і критичних значень асиметрії і ексцесу. Якщо емпіричні значення не перевищують критичних, роблять висновок про те, що розподіл значень для даної ознаки не відрізняється від нормального розподілу.

16

Рис. 4. Графік симетричного розподілу.

Рис. 5. Асиметричні розподіли.

З перерахованих вище характеристик на практиці за традицією частіше всього використовують вибіркові середнє, медіану і дисперсію (або стандартне відхилення). Однак для отримання більш точних і достовірних висновків необхідно використовувати й інші показники.

Особливу увагу слід звернути на наявність у вибірці викидів - Грубих, сильно відрізняються від основної маси, спостережень. Більшість традиційних статистичних методів вельми чутливі до відхилень від умов застосовності методу. Тому викиди можуть не тільки спотворити значення вибіркових показників, але і привести до помилкових висновків. Підозра про присутність таких спостережень повинно виникнути, якщо вибіркова медіана сильно відрізняється від вибіркового середнього, хоча в цілому сукупність симетрична, або, якщо положення медіани сильно несиметрично щодо мінімального і максимального елементів вибірки. Найпростіше виявити викиди за допомогою переходу від вибірки до варіаційного ряду або гістограмі з великим числом інтервалів угруповання.

Приклад.

Розглянемо процедуру визначення параметрів описової статистики для трьох вибірок однакового обсягу.

Етап 1. Для кожної вибірки будуємо варіаційний ряд, оскільки він дає якісну характеристику розподілу значень елементів вибірки. Для цього вносимо дані на робочий аркуш робочої книги табличного процесора Microsoft Excel в стовпчики A, B, C , починаючи з другого

рядка. В клітинках з номерами A1, B1, C1 вносимо відповідно обрані нами назви вибірок Sample1, Sample 2, Sample3 . Значення першої вибірки знаходяться в комірках A2:A61, другої в

B2:B61, а третьої в C2:C61. Далі, на вкладці Основне заходимо в розділ редагування і в ньому включаємо функцію Сортування і фільтр (Sort & Filter). Сортування здійснюють для кожного стовпчика окремо, вказуючи, що сортування має відбутися в межах вказаного виділення (Continue with the current selection). В результаті сортування ці три вибірки матимуть вигляд зображений на рис. 6.

17

Рис. 6. Сортування вибірок – подання їх варіаційними рядами.

Використовуючи вкладку Вставлення (Insert) будуємо графіки для кожної вибірки за відсортованими даними, тобто графіки їх варіаційних рядів. Ля цього вибираємо розділ Діаграми (Charts), а в ньому опцію Лінійчата (Line), окремо для кожного варіаційного ряду. Далі приводимо кожен графік до бажаного вигляду. Отримані графіки зображені на рис. 7. Параметри графічного зображення є такі: за вкладкою Формат рядів даних (Format Data Series):

Параметри маркера (Marker Options → Built-in → Type → Size = 3), далі Заливка маркера

(Marker Fill → Solid Fill; Line Color→ No Line).

18

Рис. 7. Графічні зображення варіаційних рядів.

19

Для визначення параметрів описової статистики переходимо до вкладки Дані Data і вибираємо опцію Аналіз даних.

В результаті з’являється вікно-меню процедур обробки та перевірки даних, в якому вибираємо процедуру Описова статистика і активізуємо її. Далі вказуємо адреси першої комірки першої вибірки і останньої комірки третьої вибірки. В стрічці Grouped By вказуємо на вид групування Columns і відмічаємо в Labels in first row присутність назв в першому рядку. В рубриці Output options вказують адрес лівої верхньої комірки, з якої починається таблиця результатів процедури знаходження показників описової статистики. Для цього необхідно активізувати віконце адреси комірки клацнувши по ньому і на робочому аркуші активізувати вибрану для результату комірку.

Використовуючи окремі оперції табличного процесра Еxcel можна знайти потрібні параметри кожен окремо, як це приведено в табл. 2.

 

 

 

Таблиця 2.

Function

Sample 1

Sample 2

Sample 3

 

 

 

 

AVERAGE

20,1713333

28,0289855

18,07496269

 

 

 

 

MEDIAN

20,195

29,7826087

17,62488912

 

 

 

 

MODE

18,41

32,6086957

16,88

 

 

 

 

VAR

28,8717473

29,4797774

20,68524192

 

 

 

 

STDEV.S

5,37324365

5,42952829

4,548103112

 

 

 

 

RANGE

19,27

24,7826087

23,55530645

 

 

 

 

GEOMEAN

19,4297181

27,3406461

17,47512385

 

 

 

 

QUARTILE1

15,7075

25,5434783

15,48431163

 

 

 

 

QUARTILE2

20,195

29,7826087

17,62488912

 

 

 

 

QUARTILE3

24,56

32,173913

20,7664508

 

 

 

 

SKEV

0,00751232

-1,44120594

0,231119727

 

 

 

 

KURT

-1,08534852

1,99395514

0,645846327

 

 

 

 

Тут для кожної з розглянутих вибірок приведенні значення параметрів, обчислених засобами цього процесора. В таблиці приведені значення квартилів та геометричного середнього. Цих параметрів немає в традиційних для описової статистики, проте вони мають для аналізу часових рядів важливе значення.

20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]