Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ms_labs

.pdf
Скачиваний:
25
Добавлен:
10.12.2018
Размер:
4.28 Mб
Скачать

Отже, кореляційне поле – це сукупність точок у прямокутній системі координат, абсциса кожної з яких відповідає значенню факторної ознаки (х), а ордината – значенню результативної ознаки (у) певної одиниці спостереження. Кількість точок на графіку відповідає кількості одиниць спостереження. Використовується для аналізу наявності та характеру (напряму) зв’язку між результатами двох вибірок спостережень. Розміщення точок на графіку свідчить про наявність і напрям зв’язку. Загалом, локалізація точок кореляційного поля вказує на наявність прямого, оберненого зв’язку між ознаками, або його відсутність, а також на форму лінії регресії (рис. 7.2).

а

б

Рис. 7.2. Види зв’язку та лінія регресії: а – прямий (додатний) лінійний зв’язок, б – обернений (від’ємний) лінійний зв’язок.

Розміщення точок на кореляційному полі дозволяє судити про характер залежності, наприклад: лінійна, параболічна, гіперболічна, логістична, логарифмічна, експонентна, показникові або відсутність залежності.

Кореляційні зв'язки можна вивчати на якісному рівні з діаграм розсіяння емпіричних значень змінних X і Y і відповідним чином їх інтерпретувати. Так, наприклад, якщо підвищення рівня однієї змінною супроводжується підвищенням рівня іншої, то йдеться про додатну кореляцію або прямий зв'язок (рис. 7.2а,). Якщо ж зростання однієї змінної супроводжується зниженням значень іншої, то маємо справу з від’ємною кореляцією або оберненим зв'язком (рис. 7.2б,). Нульовою або відсутньою називається кореляція за відсутності зв'язку змінних (рис. 7.1а). Проте нульова загальна кореляція може свідчити лише про відсутність лінійної залежності, а не взагалі про відсутність будь якого статистичного зв'язку .

71

При цьому функцію, графік якої відповідає розміщенню точок називають теоретичною лінією регресії. Для вибору тієї чи іншої форми кореляційної залежності, треба порівняти уявну емпіричну лінію регресії з графіками відомих функцій.

Методи кореляційного аналізу широко застосовуються для виявлення та опису стохастичних залежностей між випадковими величинами – якими переважно є зібрані або експериментальні дані.

Для експериментального вивчення залежності між випадковими величинами Y і Х проводять деяку кількість незалежних дослідів.

Результат i -го досвіду дає пару значень xi , yi , де i 1, 2, , n . Отже, досліджувані послідовності можна подати так:

X x1, x2 , , xn ; Y y1, y2 , , yn .

Якщо послідовності подати у вигляді функцій, що залежать від одного аргументу, то, провівши кореляційний аналіз, можна встановити взаємний вигляд зв’язку між ними та його величину, при цьому обсяг даних має буди однаковий. Про наявність чи відсутність кореляції між двома випадковими величинами якісно можна судити з вигляду поля кореляції, відобразивши експериментальні пари точок на координатну площину.

Коефіцієнт кореляції.

Для кількісної оцінки тісноти зв'язку служить вибірковий коефіцієнт кореляції. Вибірковий коефіцієнт кореляції r за абсолютною величиною не перевищує одиниці. Для незалежних випадкових величин коефіцієнт кореляції дорівнює нулю, але він може бути рівний нулю для деяких залежних величин, які при цьому називаються некорельованими.

Для випадкових величин, що мають нормальний розподіл, відсутність кореляції означає і відсутність будь-якої залежності.

Вибірковий коефіцієнт кореляції не змінюється при зміні початку відліку і масштабу величин . Коефіцієнт кореляції характеризує не довільну залежність, а тільки лінійну. Лінійна імовірнісна залежність випадкових величин полягає в тому , що при зростанні однієї випадкової величини інша має тенденцію зростати (або спадати ) за лінійним законом.

Коефіцієнт кореляції характеризує ступінь тісноти лінійної залежності . У загальному випадку , коли величини X і Y пов'язані деякою стохастичною залежністю, коефіцієнт кореляції може мати значення в межах –1 ≤ r ≤ +1.

Відзначимо властивості коефіцієнта кореляції:

коефіцієнт парної кореляції обчислюється для кількісних ознак;

72

коефіцієнт кореляції симетричний, тобто не змінюється, якщо X і Y поміняти місцями;

коефіцієнт кореляції є величиною безрозмірною.

коефіцієнт кореляції не змінюється при зміні одиниць виміру ознак X

і Y.

величина коефіцієнта кореляції не змінюється від додавання до Х і Y невипадкових доданків;

величина коефіцієнта кореляції не змінюється від множення Х і Y на позитивні числа;

якщо одну з величин, не змінюючи іншу, помножити на –1 , то на –1

треба помножити і коефіцієнт кореляції.

Схема застосування кореляційного аналізу в практичних цілях приблизно така: є кілька параметрів, які спостерігаються протягом деякого проміжку часу, про які, за результатами спостережень (або з будь-яких апріорних міркувань), можна припустити, що вони можуть бути взаємопов'язані будь-яким чином.

Обчислення коефіцієнта кореляції здійснюють за такою формулою

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi x

yi y

 

 

 

 

 

 

 

 

 

rxy

 

i 1

 

 

 

 

 

 

 

.

 

 

 

 

 

(7.1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

xi x 2

 

yi y 2

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

В статистичній літературі рекомендують використовувати для

обчислення коефіцієнта кореляції такий вираз

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n xi yi xi yi

 

 

 

 

 

 

 

 

 

rxy

 

 

 

 

i 1

 

 

i 1

i 1

 

 

 

 

 

 

 

.

(7.2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

n

 

n

 

n

 

 

n

 

2

 

 

 

 

n xi2

 

xi

 

n yi2

 

yi

 

 

 

 

 

 

 

i 1

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

i 1

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В цьому випадку відпадає потреба обчислювати відхилення біжучих значень від середньої величини, а це виключає помилки в розрахунках при округленні середніх величин.

Коефіцієнт кореляції rxy є випадковою величиною, оскільки

обчислюється для випадкових величин.

Сам по собі коефіцієнт кореляції не має змістовної інтерпретації. Проте його квадрат R r 2 , який називають коефіцієнтом детермінації (позначається

73

R і зазвичай виражається у %), має простий сенс – це показник того, наскільки зміни залежної ознаки пояснюються змінами незалежної.

Звизначення коефіцієнта детермінації випливає, що він приймає значення

вдіапазоні від 0 % до 100 %.

Якщо дві змінні функціонально лінійно залежні (точки на кореляційному полі лежать на одній прямій), то можна сказати, що зміна однієї з них повністю пояснюється зміною іншої, а це якраз той випадок, коли коефіцієнт детермінації дорівнює 100 % (при цьому коефіцієнт кореляції може дорівнювати як +1, так і – 1) .

Чим вище за модулем (за абсолютною величиною) значення коефіцієнта кореляції, тим сильніший зв'язок між ознаками.

Прийнято вважати, що коефіцієнти кореляції, які за модулем більше 0.7, вказують про сильний зв'язок (при цьому коефіцієнти детермінації > 50%, тобто одна ознака визначає іншу більш, ніж наполовину).

Коефіцієнти кореляції, які по модулю менше 0,7 , але більше 0,5 , говорять про зв'язок середньої сили (при цьому коефіцієнти детермінації менше 50 % , але більше 25%). Нарешті , коефіцієнти кореляції , які по модулю менше 0,5 , говорять про слабку зв'язку (при цьому коефіцієнти детермінації менше 25%).

Перевірка гіпотез відносно коефіцієнта кореляції

Стосовно нього можна висувати і перевіряти такі гіпотези:

Гіпотеза 1. Коефіцієнт кореляції значимо відрізняється від нуля, тобто між величинами є взаємний зв’язок.

Для перевірки цієї гіпотези обчислюють тестову статистику. Якщо тестова статистика є більшою за табличне значення, то коефіцієнт кореляції значимо відрізняється від нуля.

Гіпотеза 2. Значення коефіцієнта кореляції є значимим, якщо тестова статистика – розраховане значення перевищує табличне, крім того, ще визначають оцінку значущості коефіцієнта парної кореляції з використанням t - критерію Стьюдента, порівнюючи обчислене значення з табличним критерієм.

3. Чи є значимою відмінність між двома коефіцієнтами кореляції також встановлюють, порівнюючи тестову статистику з табличним значенням.

Кореляційна матриця.

В разі великого числа спостережень, коли коефіцієнти кореляції необхідно послідовно обчислювати для декількох вибірок, для зручності отримані коефіцієнти зводять в таблиці, які називають кореляційними матрицями.

74

Кореляційна матриця – це квадратна таблиця, в якій на перетині відповідних рядка і стовпця знаходиться коефіцієнт кореляції між відповідними вибірками. Оскільки коефіцієнт кореляції є парною величиною, тобто обсяги обох вибірок, між якими визначають зв’язок мають бути однаковими, тому у випадку багатьох вибірок їхні обсяги мають бути однакові.

ІІ. Хід роботи

1. Побудова кореляційного поля.

Для побудови кореляційного поля використовуємо пакет (надбудову) «Аналіз даних», а в ньому функцію Генерація випадкових чисел, для якої вибираємо число змінних рівне 2, кількість випадкових чисел рівне 50, розподіл

– рівномірний, параметри – від -10 до 10, випадкове розсіювання рівне 2 (оскільки ми генеруємо дві вибірки), вихідний інтервал – $A$1. В результаті виконання операції OK, отримуємо дві вибірки рівномірно розподілених випадкових чисел обсягом по 50 значень в діапазоні від -10 до 10 в стовпчиках А1:А50 та В1:В50.

Далі, виділивши обидва стовпчики і використовуючи «Майстер діаграм стандартні тип точкова» натискаємо кнопку «готово». В результаті отримаємо зображення кореляційного поля. Оскільки, «Майстер діаграм» за замовчуванням сполучає лініями послідовні значення необхідно позбутися цих ліній або в самому «Майстер діаграм» або, навівши на один з маркерів курсор клацнути правою кнопкою мишки і у вкладці «Формат ряду даних Вид Лінія» вибрати «Відсутня», а на вкладці «Маркери» вибрати потрібний вид, розмір та колір маркерів.

2. Визначення значення коефіцієнта кореляції двох вибірок.

В цьому випадку необхідно змоделювати дві вибірки випадкових величин. Для цього побудуємо на чернетці дві лінії регресії (не обов’язково

паралельні) в прямокутній площині розміром, наприклад 10 10 кв. одиниць,

задаючи по дві точки для кожної. Нехай A1 x1; y1 і B1 x2; y2 точки початку і

кінця першої лінії регресії, A2 x1; y1 і

B2 x2; y2 – відповідно другої.

Приймемо, що ці дві лінії є непаралельні, не перетинаються в межах нашої площини і обидві утворюють додатні кути з віссю абсцис, а значення координат їх точок є такі: A1 1;2 , B1 9;4 , A2 1;3 і B2 9;7 . За цими даними

знайдемо рівняння першої і другої лінії за відомою формулою

75

y y

y2

y1

x x

1

x2

x1

1

 

 

 

– рівняння прямої, що проходить через дві точки. В нашому випадку,

y 2 4 2 x 1 ,

9 1

y 3 7 3 x 1 ,

9 1

тобто це такі рівняння:

y 0.25 x 1.75 , y 0.5 x 2.5 .

Нехай обсяг вибірок становить n1 n2 50 . Генеруємо два стовпчики А1:А50 і В1:В50 рівномірно розподілених випадкових чисел. Далі використовуємо пакет (надбудову) «Аналіз даних», а в ньому функцію

Генерація випадкових чисел, для якої вибираємо число змінних рівне 2,

кількість випадкових чисел рівне 50, розподіл – рівномірний, параметри

встановлюємо в межах від -1 до 1, випадкове розсіювання рівне 2 (оскільки ми генеруємо дві вибірки), вихідний інтервал – $A$1. В результаті виконання операції OK, отримуємо дві вибірки рівномірно розподілених випадкових чисел обсягом по 50 значень в діапазоні від -10 до 10 в стовпчиках А1: А50 та В1:В50.

Встановлюємо шкалу для осі абсцис. Для цього інтервал зміни x , який

лежить в межах від 1 до 9, розділимо на m 50 1 частин: 9 1 0.1632 .

49

Вкомірку D1 запишемо значення 1, а в комірку D2 – значення 1 , тобто 1,1632 і далі, використовуючи «автозаповнення» заповнимо стовпчик D1:D50.

Вкомірки F1 і G1 вставляємо формули « = 0,25*D1+1,75 » і « = 0,5*D1+2,5 »

відповідно, далі використовуючи автозаповнення визначаємо значення для стовпчиків F1:F50 та G1:G50. виділивши ці два стовпчики і використовуючи

«Майстер діаграм стандартні → тип → графік» отримуємо зображення двох наших ліній.

Введемо в комірки J1 і K1 такі формули: « = F1+А1 » і « G1+В1 » відповідно і автозаповненням заповнюємо значення J1:J50 та K1:K50 відповідно. Використовуючи формули (7.1) та (7.2) обчислюємо між ними ступінь кореляційного зв’язку.

76

Далі, вказуємо комірку для значення коефіцієнта кореляції, наприклад під попередньою, за допомогою «Майстра функцій» викликаємо функцію КОРРЕЛ, яка має такий синтаксис

КОРРЕЛ(массив1;массив2)

де массив1 – масив значень першої вибірки, тобто J1:J50, а массив2 – відповідно другої – K1: K50. Натискаємо ОК і в зазначеній комірці отримуємо значення коефіцієнта кореляції rxy .

3. Перевірка гіпотез відносно коефіцієнта кореляції.

Стосовно нього можна висувати і перевіряти такі гіпотези:

1. Коефіцієнт кореляції значимо відрізняється від нуля, тобто між величинами є взаємний зв’язок. Для перевірки цієї гіпотези обчислюють тестову статистику за такою формулою

 

 

1 r

xy

 

 

 

r

xy

 

 

 

 

 

 

 

 

 

 

 

0.5 ln

 

 

 

 

 

 

 

 

n 3 .

 

 

 

 

 

 

1 r

 

2 n 1

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

 

 

 

 

 

 

Обчислене значення порівнюється з табличним значенням коефіцієнта Стьюдента t p 0.95, f 1.96. Якщо тестова статистика є більшою за табличне значення, то коефіцієнт кореляції значимо відрізняється від нуля. З формули випливає, що чим більше вимірів n тим більшою є тестова статистика, а отже коефіцієнт кореляції значимо відрізняється від нуля.

2. Значення коефіцієнта кореляції є значимим, якщо обчислений коефіцієнт детермінації перевірити за допомогою критерію Стьюдента

t розр rxy

 

n k 1

 

 

 

1

r 2

 

 

 

xy

Табличне значення t-критерію Стьюдента за довірчої ймовірності 0,95 і для числа ступенів вільності (n k 1) порівнюється з розрахунковим значенням. Якщо розраховане значення перевищує табличне, то коефіцієнт кореляції визнається значимим.

Оцінка значущості коефіцієнта парної кореляції з використанням t - критерію Стьюдента може бути розрахована за такою формулою

 

 

r 2

 

n 2

t розр

 

xy

 

 

r

2

1

 

 

 

xy

 

77

Обчислене за цією формулою значення t порівнюється з критичним значенням t-критерію, яке береться з таблиці значень t Стьюдента з урахуванням заданого рівня значущості і числа ступенів свободи (n-2).

3. Відмінність між двома коефіцієнтами кореляції є значимою, якщо тестова статистика

 

 

1 r1

1 r2

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

0.5 ln

1 r

1 r

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1 3

n2 3

 

 

 

яку також порівнюють з табличним значенням t p, 1.96

4. Кореляційна матриця.

У MS Excel для обчислення кореляційних матриць використовується процедура КОРЕЛЯЦІЯ з пакету Аналіз даних. Процедура дозволяє отримати кореляційну матрицю, що містить коефіцієнти кореляції між різними випадковими величинами. Для виконання лабораторної роботи реалізувати команду Сервіс Аналіз даних. Далі використовуємо функцію Генерація випадкових чисел, для якої вибираємо число змінних рівне 5 – 7, кількість випадкових чисел рівне 50, розподіл – рівномірний чи будь-який інший, параметри – від –10 до 10 або довільні, випадкове розсіювання рівне числу змінних (скільки генеруємо вибірок), вихідний інтервал – $A$1. В результаті виконання операції OK, отримуємо 5 – 7 вибірок випадкових чисел кожна обсягом 50 значень у вибраному діапазоні. Можна також генерувати вибірки різних розподілів (див. лабораторну роботу 4) з різними діапазонами.

Для побудови кореляційної матриці необхідно:

ще раз виконати команду Сервіс Аналіз даних;

в списку Інструменти аналізу вибрати рядок КОРЕЛЯЦІЯ і натиснути кнопку ОК;

в діалоговому вікні вказати Вхідний інтервал, тобто ввести посилання на клітинки, які містять аналізовані дані. Вхідний інтервал повинен містити не менше двох стовпців.

в розділі Групування перемикач встановити відповідно до введених даних, тобто за стовпцями чи за рядками;

вказати Вихідний інтервал, тобто ввести посилання на клітинку, з якої будуть виведені результати аналізу. Розмір вихідного діапазону буде визначений автоматично, і на екран може бути виведене повідомлення у разі можливого накладення вихідного діапазону на вхідні чи інші дані. Натиснути

78

кнопку ОК.

Врезультаті у вихідний діапазон буде виведена кореляційний матриця, в якій на перетині кожних рядка і стовпця знаходиться коефіцієнт кореляції між відповідними їм параметрами. Значення коефіцієнтів кореляції рівне 1 , розміщених вздовж діагоналі, вказує на те, що кожен стовпець у вхідному діапазоні повністю корелює сам з собою.

Впроцесі інтерпретації кожен коефіцієнт кореляції між відповідними параметрами розглядається окремо. Зазначимо, що хоча в результаті буде отримана трикутна матриця, кореляційна матриця є симетричною, оскільки в порожніх клітинках в правій верхній половині таблиці знаходяться ті ж самі коефіцієнти кореляції, що і в нижній лівій (симетрично розташовані відносно діагоналі.

Результати виконання лабораторної роботи навести у звіті разом з скриншотами відповідних фрагментів, які їх пояснюють.

ЛАБОРАТОРНА РОБОТА 8

ІЄРАРХІЧНИЙ АГЛОМЕРАТИВНИЙ КЛАСТЕРНИЙ АНАЛІЗ

ВСТУП

В практичних дослідженнях різноманітних явищ, процесів, ситуацій, об’єктів дані спостережень використовують для отримання з них дійсно корисної і застосовної на практиці інформації переважно для прийняття рішень. Для цього, в першу чергу здійснюють попередню обробку існуючих даних, яка полягає у поділі даних на однорідні групи. В результаті такого поділу пошук закономірностей в такій групі стає більш коректним. Основним методом, яким здійснюється такий поділ процедура кластерного аналізу. Ідея класифікації отриманих даних щодо деяких, подібних між собою об’єктів, за допомогою кластерного аналізу є за своїм змістом інтуїтивною, якщо припустити, що в n - мірному просторі ознак існує деяка метрика, за якою ці об’єкти можна згрупувати в окремі групи – кластери.

Кластерний аналіз є одним із методів багатомірного статистичного аналізу, тобто аналізу даних, коли кожне спостереження подається не одним деяким показником, а сукупністю значень різних показників. Він включає низку алгоритмів, за допомогою яких здійснюється і формування самих

79

кластерів і розподіл об’єктів за кластерами. Кластерний аналіз, перш за все, розв’язує задачу внесення структури в дані, тобто їх групової однорідності, а також забезпечує виділення компактних, віддалених одна від одної груп об’єктів, тобто відшукує «природне » розбиття сукупності на області скупчення об’єктів.

Методи багатомірного аналізу – найбільш діючий кількісний інструмент дослідження процесів, описуваних більшим числом характеристик. До них відносяться кластерний аналіз, таксономія, розпізнавання образів.

Кластерний аналіз найбільше яскраво відбиває риси багатомірного аналізу в сенсі класифікації конкретних об’єктів. Його процедури, а існує багато різновидностей кластерного аналізу, необхідні в тому випадку, коли структуру даних неможливо виявити ні візуально, ні за допомогою експертів. Велика перевага кластерного аналізу в тому, що він дозволяє здійснювати розбиття об’єктів на за одним параметром, а за цілим набором ознак. Крім того, на відміну від більшості математико-статистичних методів він не накладає будьяких обмежень на вид об’єктів, що підлягають кластеризації.

Кластерний аналіз дозволяє розглядати досить значні обсяги даних, різко скорочувати і стискати їх, робити їх компактними та наочними. Важливе значення він має стосовно сукупностей часових рядів, які характеризують динаміку розвитку. Іншими словами, стосовно часових рядів, він дозволяє виділяти періоди, в яких значення відповідних показників були достатньо близькими, а також визначати групи часових рядів з найбільш подібною динамікою.

Іноді підхід кластерного аналізу називають у літературі чисельною таксономією, чисельною класифікацією, класифікацією із самонавчанням. Перше застосування кластерний аналіз знайшов у соціології. Назва кластерний аналіз походить від англійського слова cluster - гроно, скупчення. Уперше в 1939 був визначений предмет кластерного аналізу й зроблений його опис дослідником Тріоном.

Кластерний аналіз можна застосовувати до інтервальних даних, частот та бінарних даних.

Мета роботи: Розділити задану множину об’єктів, кожен з яких характеризується однаковою сукупністю конкретних ознак, на окремі групи, використовуючи ієрархічний агломеративний кластерний аналіз.

Ілюстрацію процедури агломеративного ієрархічного кластерного аналізу доцільно провести на конкретному прикладі, з відповідними поясненнями та обґрунтуваннями, використовуючи для розрахунків

80

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]