Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка_Статистический анализ данных.doc
Скачиваний:
4
Добавлен:
15.08.2019
Размер:
557.57 Кб
Скачать

3.3. Контрольні запитання Варіант 1. Кореляційний аналіз

  1. Який модуль STATISTICA використовують для первинного аналізу статистичної залежності?

  2. Який метод статистичного аналізу застосовують у цій роботі?

  3. Що вимірюють за допомогою коефіцієнта кореляції?

  4. У яких межах змінюється коефіцієнт кореляції?

  5. Як можна графічно відобразити залежність двох змінних?

  6. Який тип кореляційної матриці використовують у роботі?

  7. Як виділяють значущі коефіцієнти в таблиці?

  8. Чому дорівнює вихідний рівень значущості?

  9. Які змінні найдужче залежать одна від одної (з якими значеннями коефіцієнта кореляції)?

  10. Які види графіків застосовують в кореляційному аналізі?

  11. Який вигляд має сильна залежність на діаграмі розсіювання?

  12. Що відображає пряма на діаграмі розсіювання?

  13. За яким методом будують пряму регресії?

  14. Що таке викиди на діаграмі розсіювання?

  15. Як відображають на діаграмі неоднорідність сукупності?

Варіант 2. Комбінаційні таблиці

  1. Який модуль STATISTICA використовують для первинного аналізу статистичної залежності?

  2. Який метод статистичного аналізу застосовують у цій роботі?

  3. Значення якої характеристики розташовано всередині комбінаційної таблиці?

  4. З якими значеннями доцільно використовувати змінні при застосуванні методу комбінаційних таблиць?

  5. Які змінні необхідно визначити для проведення аналізу?

  6. Що відображає комбінаційна таблиця?

  7. Що містить останній рядок таблиці?

  8. Як називаються сумарні частоти в таблиці?

  9. Для якої розмірності таблиць обчислюються «статистики»?

  10. Які критерії обчислюють для двовхідних таблиць?

  11. Які стовпці існують у двовхідних таблицях «статистик»?

  12. Які графіки застосовують для відображення комбінаційних таблиць?

  13. Що можна визначити за допомогою маргінальних частот?

  14. Для чого застосовують «статистики» двовхідних таблиць?

  15. Які критерії «статистик» обчислюють на основі рангів?

  16. Який рівень значущості підтверджує критерії двовхідних таблиць?

  17. Значення якої ознаки відображають на вертикальній осі тривимірної гістограми?

  18. Що містить категоріальна гістограма?

Лабораторна робота № 4 проведення регресійного аналізу Мета роботи: одержати навички побудови рівняння множинної залежності, освоїти виконання регресійного аналізу даних.

Завдання:

1. Відкрити вихідний файл даних.

2. Визначити змінні для виконання лінійного багатофакторного аналізу.

3. Одержати попередні результати багатокрокової процедури формування рівняння регресії.

4. Одержати результати регресійного аналізу даних.

5. Виділити основні результати аналізу, записати рівняння залежності.

6. Виконати графічний аналіз залишкових величин (два графіки).

7. Оформити звіт про виконання роботи (чотири таблиці або основні числові результати з таблиць, графіки) з висновками за кожним результатом (пп. 3 - 6).

4.1. Теоретичні відомості

Загальне призначення множинної регресії полягає в аналізі зв'язку між декількома незалежними змінними, що називаються також регресорами, або предикторами, й залежною змінною.

Пряму лінію для двох змінних задають рівнянням

Y = b0 + b1X ,

де X – незалежна змінна, Y – залежна змінна, b0 – вільний член рівняння, b1 кутовий коефіцієнт, що називають регресійним.

Використавши отримане рівняння, можна розрахувати окремі значення залежної змінної.

На рис. 4.1 показано довірчий інтервал (90, 95 і 99%), побудований для двовимірного регресійного рівняння.

Рис. 4.1. Графік розсіювання з регресійною прямою та 95%-ним довірчим інтервалом

Звичайно існує розкид спостережуваних точок щодо пригнаної прямої. Відхилення точки від завбаченого значення називають залишком (або помилкою).

Рівняння лінійної множинної регресії має вигляд

,

де X1 Xp – незалежні змінні, Y – залежна змінна, b0 – вільний член рівняння, b1 … bp регресійні коефіцієнти.

У множинній регресії припускають, що залишки підпорядковуються закону нормального розподілу. Регресійні коефіцієнти визначають, наскільки кожна незалежна змінна обумовлює прогнозування залежної змінної. Таку кореляцію називають частковою. Якщо зв'язок між змінними X і Y відсутній, то відношення залишкової мінливості змінної (дисперсії залишків) Dε до вихідної дисперсії Dy дорівнює одиниці. Коефіцієнт детермінації, що визначає ступінь залежності змінних, розраховують за формулою

Якщо нелінійність зв'язку є очевидною, то необхідно перетворити змінні. Варто використати, принаймні, від 10 до 20 спостережень за кожною змінною, у протилежному випадку оцінювання регресійної лінії буде неточним.

Проблема мультиколінеарності є загальною для багатьох методів кореляційного аналізу. Ця проблема може виникнути, якщо аналізу підлягає багато змінних. У цьому випадку змінні використовувати недоцільно, тому що дані будуть надлишковими. Існують статистичні індикатори надмірності (толерантність, напівчастне та ін.), а також способи для боротьби з надмірністю (наприклад, метод гребеневої регресії).