
- •Етапи аналізу даних.
- •Класифікація типів змінних.
- •Залежні змінні і незалежні.
- •Групування даних.
- •Етапи попередньої обробки даних .
- •2.2 Числові характеристики вибірки.
- •2.3 Перевірка основних гіпотез.
- •Видалення аномальних спостережень.
- •Перевірка випадковості (стохастичності) вибірки.
- •Графічне представлення даних.
- •3.1. Суть кореляційного аналізу
- •3.2 Коефіцієнт детермінації – це є квадрат коефіцієнта кореляції, долю варіації, спільну для двох змінних, іншими словами “степінь” залежності двох змінних.
- •3.3 Частинні коефіцієнти кореляції.
- •3.4. Нелінійна кореляція.
- •4.1 Коефіцієнт рангової кореляції.
- •4.2 Індекс Фехнера.
- •4.3. Кореляційне відношення Пірсона
- •4.4.Коефіцієнт конкордації.
- •Тема: „Регресійний аналіз”.
- •Регресійний аналіз – сукупність статистичних методів, що орієнтовані на дослідження стохастичної залежності однієї змінної y від набору інших змінних .
- •.1Метод найменших квадратів
- •6.1.2 Алгоритм ручного рахунку:
- •6.2 Лінеаризації у випадку криволінійних залежностей
- •6.3 Визначення параметрів парної лінійної регресії для згрупованих даних
- •6.4 Множинна лінійна регресія
- •7.2 Перевірка лінійної регресії.
- •7.3 Розв’язок задач у випадку порушення класичних припущень(мультиколінеарність)
- •Дисперсійний аналіз
- •8.3 Модель 1. Однофакторний дисперсійний аналіз
- •8.4 Двофактоний да
- •8.4.1 Загальна схема двофакторного дисперсійного аналізу(перехідна класифікація з повтореннями)
- •8.4.2 Модель іі
- •Модель ііi.
- •9.1 Коваріаційний аналіз.
- •III. Перевірка гіпотези в умовах ;
- •10.1 Поняття класифікації, задача класифікації
- •10.2. Основні поняття кластерного аналізу та їх застосування
- •10.3 Типи відстаней і мір подібностей
7.2 Перевірка лінійної регресії.
Позначимо через частинне середнє, що відповідає j-тому значенню пояснювальної змінної:
(47)
де
- число значень y,
що відносяться до xjk
(
);
.Знайдемо
тепер сер. квадр. відхилень yij
від їх частинних сер.
(48)
Показник(48)є
мірою розсіювання дослідних даних
навколо своїх частинних середніх,тобто
мірою, що не залежить від вибраного
вигляду регресії.В якості міри розсіювання
дослідних даних навколо емпір. регрес.
прямої вибирається сер. квадр. відхилень:
(49)
Обидва
показники
є незалежними статистичними оцінками
однієї і тієї ж дисперсії
.
Якщо
не набагато більше
,
то в якості гіпотетичної залежності
може бути взята лінійна.
Якщо
в генеральній сукупності існує лінійна
регресія і умовні розподіли змінної y
хоч би приблизно нормальні, то відношення
середній квадратів
(50)
має
F
розподіл з
і
степенями вільності.
Значення
F
пораховане за формулою (50) порівняне з
критичним
знайденим за таблицею F-розподілу
при заданому рівні значущості
і
степенями вільності. Якщо
,
то різниця між обома середніми квадратами
відхилень статистично незначна і вибрана
нами лінійна регресійна залежність
може бути прийнята, як правдоподібна.
7.3 Розв’язок задач у випадку порушення класичних припущень(мультиколінеарність)
При вивченні матричної лінійної регресії часто зустрічаються з наявністю лінійного зв’язку між всіма чи деякими пояснювальними змінними. Це явище називається мультиколінеарністю.
Для вимірювання стохастичної мультиколінеарності можна використати коефіцієнт множинної детермінації. При відсутності кореляції між пояснювальними змінними, тобто при відсутності мультиколінеарності, коефіцієнт множинної детермінації дорівнює сумі відповідних коефіцієнтів парної детермінації:
(51)
При
наявності мультиколін. співвідношення(1)не
виконується.Тому в якості міри мультиколін.
можна запропонувати різницю:
(52)
Чим менша ця різниця, тим менша мультиколінеарність.
Інший показник базується на використанні для вимірювання мультиколін.чисельн. формули коеф. множи. детермінації.
для
,
(53) Вираз
(54)
є
чисельником
формули
коефіцієнта парної кореляції між
змінними
та
.
При відсутності колінеарності загального
показника мультиколінеарності можна
використовувати різницю М2:
(55)
Також в якості показника мультиколінеарності можна також використати вираз (52), розділивши його на
(56)
Чим більше М3, тим інтенсивніша мультиколінеарність.
Відомий показник мультиколінеарності, отримують з формули (5). Розділивши праву і ліву частини формули на
, отримаємо:
(57)
Розроблені ряд методів виключення чи зменшення мультиколінеарності:
виключення змінних;
лінійне перетворення змінних;
виключення тренду;
використання попередньої інформації;
покрокова регресія;
метод головних компонентів.
Якщо зменшити мультиколінеарність не вдається, то до оцінок коефіцієнтів регресії і до значень регресії треба відноситись з великою обережністю.