Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекція8.doc
Скачиваний:
10
Добавлен:
02.05.2019
Размер:
185.34 Кб
Скачать

3. Кореляційний аналіз

Кореляційний аналіз застосовується для кількісної оцінки взаємозв'язку двох наборів даних, представлених в безрозмірному вигляді. Кореляційний аналіз дає можливість встановити, чи асоційовані набори даних по величині. Коефіцієнт кореляції, що завжди позначається латинською буквою r, використовується для визначення наявності взаємозв'язку між двома властивостями.

Зв'язок між ознаками (за шкалою Чеддока) може бути сильним, середнім і слабким. Тісноту зв'язку визначають по величині коефіцієнта кореляції, який може набувати значень від –1 до +1 включно. Критерії оцінки тісноти зв'язку показані на рис. 8.1.

Величина коефіцієнту кореляції

0,1 – 0,3

0,3 – 0,5

0,5 – 0,7

0,7 – 0,9

0,9 – 1,0

Характеристика сили зв'язку

слаба

п омірна

помітна

в исока

дуже висока

середня

сильна

Рис. 8.1. Кількісні критерії оцінки тісноти зв'язку

Коефіцієнт кореляції Пірсона

Коефіцієнт кореляції Пірсона r, який є безрозмірним індексом в інтервалі від – 1,0 до 1,0 включно, відображає міру лінійної залежності між двома множинами даних.

Показник тісноти зв'язку між двома ознаками визначається по формулі лінійного коефіцієнта кореляції:

де x – значення факторної ознаки;

y – значення результативної ознаки;

n – число пар даних.

Парна кореляція – це зв'язок між двома ознаками: результативним і факторним або двома факторними.

Варіанти зв'язку, характеризує наявність або відсутність лінійного зв'язку між ознаками:

  • великі значення з одного набору даних пов'язані з великими значеннями іншого набору (позитивна кореляція) – наявність прямого лінійного зв'язку;

  • малі значення одного набору пов'язані з великими значеннями іншого (негативна кореляція) – наявність негативного лінійного зв'язку;

  • дані двох діапазонів ніяк не зв'язані (нульова кореляція) – відсутність лінійного зв'язку.

Як приклад візьмемо набір даних А (таблиця 8.1). Необхідно визначити наявність лінійного зв'язку між ознаками x і y.

Для графічного представлення зв'язку два змінних використана система координат з осями, відповідними змінним x і y. Побудований графік, названий діаграмою розсіювання, показаний на рис. 8.2. Дана діаграма показує, що низькі значення змінної x відповідають низьким значенням змінної y, високі значення змінної x відповідають високим значенням змінної y. Цей приклад демонструє наявність явного зв'язку.

Рис. 8.2. Діаграма розсіювання

Таким чином, ми можемо встановити залежність між змінними x і y. Розрахуємо коефіцієнт кореляції Пірсона між двома масивами (x і y) за допомогою функції MS Excel ПИРСОН(массив1;массив2). В результаті отримаємо значення коефіцієнта кореляції, що дорівнює 0,998364, тобто зв'язок між змінними x і y є дуже високим. Використовуючи пакет аналізу MS Excel і інструмент аналізу "Корреляция", можемо побудувати кореляційну матрицю.

Будь-яка залежність між змінними володіє двома важливими властивостями: величиною і надійністю. Чим сильніше залежність між двома змінними, тим більше величина залежності і тим легко передбачити значення однієї змінної за значенням іншої змінної. Величину залежності легко виміряти, чим надійність.

Надійність залежності не менш важлива, чим її величина. Ця властивість пов'язана з показністю досліджуваної вибірки. Надійність залежності характеризує, наскільки імовірно, що ця залежність буде знову знайдена на інших даних.

Із зростанням величини залежності змінних її надійність зазвичай зростає.

4. Регресійний аналіз

Основна особливість регресійного аналізу: при його допомозі можна отримати конкретні відомості про те, яку форму і характер має залежність між досліджуваними змінними.

Послідовність етапів регресійного аналізу

Розглянемо коротко етапи регресійного аналізу.

  1. Формулювання задачі. На цьому етапі формуються попередні гіпотези про залежність досліджуваних явищ.

  2. Визначення залежних і незалежних (що пояснюють) змінних.

  3. Збір статистичних даних. Дані повинні бути зібрані для кожної із змінних, включених в регресійну модель.

  4. Формулювання гіпотези про форму зв'язку (проста або множинна, лінійна або нелінійна).

  5. Визначення функції регресії (полягає в розрахунку чисельних значень параметрів рівняння регресії)

  6. Оцінка точності регресійного аналізу.

  7. Інтерпретація отриманих результатів. Отримані результати регресійного аналізу порівнюються з попередніми гіпотезами. Оцінюється коректність і правдоподібність отриманих результатів.

  8. Передбачення невідомих значень залежної змінної.

За допомогою регресійного аналізу можливе вирішення задачі прогнозування і класифікації. Прогнозні значення обчислюються шляхом підстановки в рівняння регресії параметрів значень пояснюючих змінних. Вирішення задачі класифікації здійснюється таким чином: лінія регресії ділить всю множину об'єктів на два класи, і та частина множини, де значення функції більше нуля, належить до одного класу, а та, де вона менше нуля, – до іншого класу.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]