Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка_Статистический анализ данных.doc
Скачиваний:
4
Добавлен:
15.08.2019
Размер:
557.57 Кб
Скачать

ПРО СИСТЕМУ “STATISTICA 6.0”

Версія STATISTICA 6.0 дає можливість працювати з даними, розширює можливості графічного відображення даних і результатів, містить велику кількість методів і процедур статистичного аналізу.

Основними етапами статистичного аналізу даних є:

  • введення даних в електронну таблицю і їхнє попереднє перетворення;

  • відображення даних за допомогою графіків;

  • застосування конкретної процедури статистичного оброблення;

  • зображення результатів аналізу у вигляді графіків і електронних таблиць з числовою й текстовою інформацією;

  • підготовка й друкування звіту.

Введення даних. Дані наведено у вигляді електронної таблиці Spreadsheet. Вони можуть містити як числову, так і текстову інформацію.

Виведення результатів. Числові результати аналізу наводять у вигляді електронних таблиць, що мають назву Scrollsheet, або у вигляді Звітів (Report). Звіт – це документ у форматі RTF, що може містити будь-яку текстову або графічну інформацію.

Графічні можливості. STATISTICA 6.0 містить велику кількість різних типів графіків: наукові, ділові, двовимірні й тривимірні в різних системах координат, гістограми, матричні графіки та ін. Важливо підібрати вид графіка, що найбільше відповідає цілям аналізу.

Статистичні процедури згруповано в декількох спеціалізованих модулях, у кожному з яких можна виконати певне оброблення, не звертаючись до процедур з інших модулів.

Можна використати кілька модулів послідовно, наприклад, одержати спочатку загальні статистики, потім виконати більш поглиблений аналіз. Можна застосувати модулі паралельно: вирішити одну задачу різними методами, а отримані результати потім порівняти.

Послідовність роботи в кожному модулі однакова, а саме:

  • запустити модуль з «Перемикача модулів» і відкрити стартову панель;

  • відкрити файл даних, за необхідності задавши умови вибору випадків (Select cases) і ваги змінних (Weight);

  • вибрати метод аналізу з меню стартової панелі;

  • визначити з відкритого файла даних змінні для аналізу;

  • вибрати обчислювальну процедуру й задати її параметри;

  • запустити й виконати обчислювальну процедуру;

  • переглянути і оцінити результати у вікні «Результати» (Results).

Лабораторна робота № 1 робота з файлами вихідних даних. Обчислення основних статистик

Мета роботи: одержати навички роботи з файлами вихідних даних і первісного статистичного аналізу.

Завдання:

1. Вивчити прийоми роботи з файлами вихідних даних.

2. Відкрити файл вихідних даних. Одержати статистичні характеристики.

3. Побудувати гістограму й таблицю частот.

4. Перекодувати одну зі змінних для групування (три значення: «невелике», або «незначне», «середнє», «велике»).

5. Оформити звіт про виконання роботи, який містить:

  • таблицю вихідних даних;

  • результати (пп. 2 – 4);

  • висновки за результатами (характер вихідних даних і відповідність розподілу змінної нормальному закону розподілу).

1.1. Теоретичні відомості

Середнє значення відображає "центральне положення" змінної, його розглядають разом з довірчим інтервалом. Чим більший розмір вибірки, тим більш надійним є оцінювання середнього значення. Середнє арифметичне обчислюють за формулою

де n – число спостережень, xi – варіанти значень змінної.

За допомогою довірчих інтервалів середнього значення задають область довкола нього, у якій із заданим рівнем довіри утримується "дійсне" середнє значення змінної. У системі STATISTICA 6.0 можна побудувати довірчі інтервали для будь-якого рівня довіри (p-рівня). Наприклад, якщо середнє значення у виборці дорівнює 23, а нижня й верхня межі при p = 0.05 дорівнюють 19 і 27 відповідно, то можна вважати, що з 95-відсотковою ймовірністю середнє вибірки більше 19 й менше 27. Якщо встановити менше значення p-рівня, то інтервал буде ширше й збільшиться "впевненість" в оцінці, та навпаки.

Дисперсію обчислюють за формулою

Медіана – це значення, що розбиває вибірку (або сукупність) на дві рівні частини. Перша половина спостережень розташована нижче медіани, а друга половина – вище. В інтервальному ряді медіану обчислюють за формулою

де – частота варіанта; , – нижня межа медіанного інтервалу; h – величина інтервалу; – накопичена частота інтервалу перед медіанним; – частота медіанного інтервалу.

Нижній й верхній квартилі дорівнюють відповідно 25-му й 75-му відсоткам розподілу. В інтервальному ряді нижній квартиль визначають за допомогою рівняння

де . – нижня межа квартильного інтервалу, – накопичена частота перед цим інтервалом, – частота цього інтервалу.

Відповідно верхній квартиль

Квартильний розмах змінних дорівнює різниці значень верхнього та нижнього квартилів, що є діапазоном навколо медіани й містить 50% спостережень.

Мода – це значення, що найбільш часто зустрічається у вибірці. В інтервальному ряді моду визначають за формулою

де – нижня межа модального інтервалу, – частота модального інтервалу; – частота перед ним, – частота за ним.

Мультимодальний розподіл – розподілення, що має декілька мод, тобто два або більше "піки". Мультимодальність розподілу свідчить про те, що розподіл не є нормальним. Мультимодальність часто може вказувати на те, що вибірка не є однорідною й результати спостережень одержані двома або більше «накладеними» розподілами.

Коефіцієнт асиметрії є мірою несиметричності розподілу. Якщо цей коефіцієнт відрізняється від нуля, розподіл є асиметричним. Щільність нормального розподілу симетрична щодо середнього. Коефіцієнт асиметрії обчислюють за формулою

де – центральний момент третього порядку, – стандартне відхилення, піднесене до третього степеня.

Коефіцієнт ексцесу характеризує «піковиразність» розподілу. Якщо значення ексцесу значно відрізняється від нуля, то функція щільності має або більш закруглений пік, або більш загострений, ніж пік щільності нормального розподілу. Функція щільності нормального розподілу має значення ексцесу, що дорівнює нулю. Ексцес оцінюють за рівнянням

де – центральний момент четвертого порядку; – стандартне відхилення, піднесене до четвертого степеня.

Таблиці частот являють собою найпростіший метод аналізу змінних. Їх часто використовують як одну з процедур розвідувального аналізу, щоб побачити, яким чином дані розподілені у вибірці.

Гістограми є видом графічних зображень розподілу частот вибраних змінних, на яких для кожного інтервалу будують стовпець висотою, пропорційною частоті інтервалу (рис. 1.1).

Важливим способом опису змінної є форма її розподілу, що свідчить про те, з якою частотою значення змінної попадають у певні інтервали, що мають назву «інтервали групування». Часто виникає необхідність визначити, наскільки точно розподіл можна апроксимувати нормальним розподілом. На гістограму накладається крива нормального розподілу.

Нормальний розподіл являє собою одну з емпірично перевірених істин щодо загальної природи дійсності, і його положення можна розглядати як один з фундаментальних законів природи. Розподіл багатьох статистик є нормальним або може бути отриманим з нормального за допомогою деяких перетворень. Точна форма нормального розподілу (характерна "дзвонувата крива") визначається тільки двома параметрами: середнім і стандартним відхиленнями. Характерна властивість нормального розподілу полягає в тому, що 68% всіх його спостережень містяться у діапазоні плюс-мінус одне стандартне відхилення від середнього, а в діапазоні плюс-мінус два стандартних відхилення – 95% значень.

Рис. 1.1. Гістограма з накладеною кривою нормального

розподілу

Гістограма дозволяє візуально оцінити «нормальність» емпіричного розподілу, а також різні його характеристики. На ній можна побачити, що розподіл є бімодальним, тобто має два піки. Асиметрія розподілу з довгим правим «хвостом» є позитивною. Якщо розподіл має довгий лівий «хвіст», то його асиметрія – негативна. Якщо ексцес є позитивним, то пік – загострений, якщо він є негативним – пік закруглений.

Більш точну інформацію про форму розподілу можна одержати за допомогою критеріїв нормальності (наприклад, критерію Колмогорова - Смірнова або W-критерію Шапіро - Уілкса). Критерії доповнюють візуальну перевірку на основі гістограми.