Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
sis_an_pract.doc
Скачиваний:
14
Добавлен:
24.04.2019
Размер:
2.54 Mб
Скачать

Лабораторна робота 6 непараметричні критерії. Виконання в пакеті statistica 6.0.

Розглянемо приклад перевірки гіпотези за допомогою непараметричних критеріїв у пакеті. Більшість із них зібрані в модулі Nonparametrics & Distributions. Зокрема, відкривши цей модуль, у розділі Nonparametric Statistics ми зразу бачимо такі критерії перевірки гіпотез: χ2 критерій, Вольда-Вольфовіца, Манна-Уітні, критерій знаків, тест Вілкоксона та інші.

Продемонструємо, наприклад, як використовувати критерій знаків. Заходимо в модуль Nonparametrics & Distributions.

Вибираємо опцію Nonparametric Statistics і в ній критерій знаків –Sign Test. У вікні, що відкривається, натискаємо кнопку Variables і вибираємо, наприклад, третю та четверту для аналізу за критерієм знаків.

Для початкового візуального аналізу можна використати опцію Box and whisker plot. Отримуємо коробки з вусами, які дають графічне уявлення про розподіл наших двох величин.

Для проведення самого критерію знаків повернемося до панелі критерію знаків. Натискаємо ОК і отримуємо таблицю з результатами аналізу.

Перша клітинка таблиці показує, скільки значень не збігаються у двох змінних і будуть використані для обчислення відповідної статистики у критерії знаків. Друга клітинка таблиці дає відсоток значень однієї змінної, які більші за значення другої змінної.

Якщо змінні не відрізняються одна від іншої (випадкові величини з однієї і тієї ж самої генеральної сукупності), то слід би було чекати 50% перевищень значень однієї над іншою.

Наступна клітинка дає значення статистики, а в четвертій клітинці отримуємо ймовірність, з якою приймаємо нашу гіпотезу. Якщо ця ймовірність близька до 1, то вважаємо, що змінні не відрізняються, а якщо близька до 0, то приймаємо гіпотезу про значну різницю у розподілах двох показників.

Приклад. Досліджувалась популярність естрадного співака до (VAR1) і після (VAR2) гастролей. Одержані результати (у %) в 25 регіонах:

12,0 26,0

15,0 24,0

25,0 29,0

14,0 16,0

12,0 13,0

14,0 20,0

23,0 21,0

25,0 30,0

24,0 28,,0

16,0 15,0

17,0 20,0

13,0 21,0

8,00 10,0

6,00 9,00

13,0 12,0

14,0 13,0

24,0 25,0

31,0 34,0

26,0 29,0

25,0 16,0

18,0 12,0

13,0 16,0

7,00 9,00

14,0 11,0

6,00 4,00

Чи можна стверджувати, що гастролі вплинули на популярність співака? Дані наведено парами (VAR1 VAR2) для кожного регіону.

Розв'яжемо задачу з використанням процедури Sign test пакету Non-parametric Statistics. Зайдемо в пакет, створимо файл даних та виберемо відповідну процедуру.

У вікні, що відкриється, виберемо Variables (First variable list:1, Second variable list:2).

Натиснувши OK, одержимо результат.

На цьому рисунку No. of Non-tiesкількість варіантів з різними значеннями, Percent v<Vвідсоток варіантів, у яких перше значення більше другого (процент знаків "+"), Z – значення статистики критерію, p-levelрівень значущості, при якому гіпотеза Но не суперечить вибірці.

Отже, вибірка не дає підстав вважати, що гастролі не вплинули на популярність співака. Ймовірність помилки при цьому становить 0,109599.

Зауважимо, що цю та подібні задачі можна було б розв'язати з допомогою критерію Вілкоксона (Wilcoxon matched pairs test).

Щоб одержати результат, потрібно виконати аналогічні операції, як і при використанні критерію знаків.

Як видно, критерій Вілкоксона дає меншу ймовірність помилки (р-level), ніж критерій знаків.

Критерій Манна і Уітні

Нехай на екзамені з теорії ймовірностей в двох групах були отримані такі оцінки:

Перша група: 5, 3, 4, 2, 5, 4, 4, 3, 4, 3, 3, 5, 2, 4, 4, 3, 5, 2, 2, 4, 5, З,

5, 4, 2, З, З, З, 5, 2, 4, 4;

Друга група: 2, 5, 2, 4, 2, 4, З, З, З, 2, 3, 2, 3, 4, 3, 4, 3, 2, 3, 5, 3, 4, 4, З, 3, 2.

Чи можна стверджувати, що в цих групах абсолютна успішність є різною?

Сформуємо дві змінні VAR1 – об'єднана вибірка оцінок, VAR2 – номер групи, в якій відповідна оцінка виставлена. Виберемо в Nonparametric Statistics пункт Mann-Whitney U test. Натиснувши Variables, виберемо групуючу змінну (Indep. (grouping) variable: 2-VAR2) та залежну змінну (Dependent variable list: 1-VAR1).

Результат роботи представлено у вигляді таблиці.

В одержаній таблиці Rank Sum Group 1 - сума рангів першої вибірки, Rank Sum Group 2 - сума рангів другої вибірки, U - вибіркове значення статистики W, Z - вибіркове значення статистики Z, p-levelрівень значущості, при якому можна вважати, що гіпотеза Но не суперечить статистичним даним, Z adjusted - виправлене значення статистики Z та відповідний рівень значущості (p-level), Valid N Group 1 - кількість елементів першої вибірки (щ), Valid N Group 2 - кількість елементів другої вибірки (n2), 2*1sided exact p - точне значення рівня значущості при двосторонній альтернативній гіпотезі.

Результати, одержані нами, дають змогу стверджувати, що немає підстав вважати абсолютні успішності в розглянутих групах різними. При цьому ймовірність помилитися не перевищує 0,1.

Рангова кореляція

Групі з 20 студентів було запропоновано відповісти на запитання: як часто (завжди, зазвичай, іноді, ніколи) ви відвідуєте спортивні змагання з різних видів спорту (футбол, бейсбол, баскетбол, бокс, гімнастика). Результати опитування наведено в таблиці.

Футбол

Бейсбол

Баскетбол

Бокс

Гімнастика

1

завжди

зазвичай

зазвичай

ніколи

завжди

2

завжди

завжди

зазвичай

іноді

зазвичай

3

завжди

зазвичай

ніколи

іноді

зазвичай

4

завжди

зазвичай

іноді

ніколи

зазвичай

5

ніколи

зазвичай

іноді

іноді

іноді

6

ніколи

іноді

іноді

іноді

іноді

7

завжди

зазвичай

іноді

іноді

іноді

8

завжди

іноді

ніколи

іноді

іноді

9

завжди

завжди

іноді

іноді

іноді

10

зазвичай

завжди

іноді

іноді

іноді

11

зазвичай

зазвичай

іноді

зазвичай

ніколи

12

зазвичай

зазвичай

іноді

ніколи

зазвичай

13

зазвичай

зазвичай

іноді

іноді

ніколи

14

зазвичай

зазвичай

іноді

ніколи

іноді

15

завжди

зазвичай

іноді

іноді

іноді

16

зазвичай

іноді

іноді

ніколи

іноді

17

зазвичай

ніколи

іноді

іноді

іноді

18

зазвичай

іноді

іноді

іноді

іноді

19

зазвичай

іноді

ніколи

іноді

іноді

20

зазвичай

іноді

іноді

завжди

іноді

Задачу розв'яжемо з допомогою процедури Correlations (Spearman, Kendall tau, gamma) пакету Nonparametric Statistics. Зайдемо в пакет та виберемо відповідну процедуру. У вікні, що відкриється, виберемо змінні, натиснувши Variables. Якщо змінних кілька, як у нашому випадку, і нас цікавлять кореляції між всіма парами, то зручно перед цим вибрати опцію Compute: Square matrix. Крім того, виберемо тип коефіцієнта кореляції, наприклад, Correlation: Spearmen R. Натиснувши OK, читаємо результат.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]