Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кн Методология наук досл Ерина.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
3.29 Mб
Скачать

4.4. Аналіз кореляцій і регресій

4.4.1. Основні засади аналізу кореляційних зв'язків

Усі явища навколишнього світу взаємопов'язані і взаємозумовлені. У складному переплетенні всеохоплюю-чого взаємозв'язку будь-яке з них є наслідком дії певної множини причин і водночас - причиною інших явищ. Які саме причини формують рівень явища в конкретній сукупності і який внесок кожної з них? Виявити і кількісно виміряти об'єктивно існуючі між явищами взаємозв'язки в конкретних умовах простору і часу - одне з важливих завдань наукових досліджень.

У процесі дослідження розв'язується триєдина задача:

  • встановлюється факт наявності зв'язку між явищами, його напрямок і форми;

  • вимірюється ступінь щільності зв'язку;

• оцінюються ефекти впливу одних явищ на інші. Висновки щодо наявності, сили і характеру впливу одних

явищ на інші мають важливе значення для практичної діяльнос­ті, передусім, для обгрунтування управлінських рішень, для про­гнозування й регулювання складних соціально-економічних явищ і процесів.

Форми виявлення взаємозв'язків різноманітні. Для соціально-економічних явищ характерні переважно кореляційні зв'язки, які через складність взаємодії факторів і вплив випадкових причин проявляються не в кожному окремому випадку, а лише в середньому. За напрямом впливу кореляційні зв'язки бувають прямими і зворотними, за аналітичною формою - лінійними і нелінійними, за кількістю взаємодіючих факторів -парними і множинними.

Інформаційною базою аналізу кореляційних зв'язків є сукупності індивідуальних значень взаємопов'язаних ознак. Існуючі методи аналізу широко представлені в різного роду статистичних пакетах програм для ЕОМ. Досліднику важливо знати обчислювальні процедури, аналітичні можливості і 126

передумови того чи іншого методу, вміти правильно підготувати інформацію і аналізувати результати. Змістовна інтерпретація результатів аналізу - обов'язкова умова наукового дослідження. Саме це спонукає нас розглянути логіку аналізу і зміст характеристик вимірювання кореляційного зв'язку.

Найпростішою системою кореляційного зв'язку є парна ко­реляція, коли одне явище розглядається як фактор, інше - як ре­зультат. Відповідно ознаки, що характеризують ці явища, нази­ваються: факторною jc і результативною у. Наявність зв'язку між ними має бути попередньо обґрунтована і представлена у вигляді гіпотези.

Якщо у конкретній сукупності теоретично обґрунтований зв'язок реалізується, це виявиться закономірною зміною значень результативної ознаки у зі зміною значень факторної ознаки х, тобто фактор х своїм впливом формує варіацію у. За відсутності зв'язку варіація у не буде пов'язана з варіацією х. Виявити узго­дженість (неузгодженість) варіації двох ознак можна за допомо­гою паралельних рядів, коли одиниці сукупності упорядкову­ються за значеннями факторної ознаки х, а паралельно розмі­щуються відповідні їм значення результативної ознаки у. Наяв­ність чи відсутність зв'язку виявляється зіставленням паралель­них рядів.

Як приклад розглянемо зв'язок між інвестиціями фірми в розвиток інфраструктури просування товару до споживача (тис. USD) і обсягами продажу товару (т). На рис. 4.4.1 наведено па­ралельні ряди даних по 10 регіонах, які більш-менш однорідні за рівнем конкуренції і доходами споживачів. Регіони упоряд­ковані за розміром інвестицій в інфраструктуру (ознака х), пара­лельно наведені обсяги продажу товару (ознака у). Як свідчать дані, в тих регіонах, де в розвиток інфраструктури товаропосу-вання вкладені більші кошти, там більший обсяг продажу това­ру. Візуально наявність і форму зв'язку між цими ознаками під­тверджує діаграма розсіювання - точковий графік, на якому ко­жний у-й регіон (/=1, 2,..., 10) представлений точкою з коорди­натами Xj, У/. З того, як розміщуються точки у системі координат,

127

можна зробити висновок про наявність прямого додатного зв'язку між інвестиціями в розвиток ринкової інфраструктури і обсягами продажу товару.

Форму кореляційного зв'язку між ознаками можна описати аналітично у вигляді функції Y = /О), яка називається регресі­єю у по х. Рівняння лінійної регресії має вигляд

Y = a + bx,

де Y- теоретичний рівень результативної ознаки;

а - вільний член рівняння регресії;

b - коефіцієнт регресії, показує, на скільки одиниць у серед­ньому змінюється у зі зміною х на одиницю. При прямому зв'язку b - величина додатна, при оберненому - від'ємна. Коефіцієнт ре­гресії розглядається як ефект впливу х на у.

Параметри рівняння регресії визначаються методом най­менших квадратів (МНК), основна умова якого - мінімізація су­ми квадратів відхилень емпіричних значень у/ від теоретичних

У/-

^ ''j-Yj)2 =min, де j - порядковий номер одиниці сукупності.

128

Розділ 4. Гіпотези і доведення у наукових дослідженнях

Відхилення (уу - Yj) пояснюються впливом інших, не вклю­чених у модель факторів, називаються залишками і познача­ються еЛ Оскільки алгоритми МНК описані в математико-статистичній літературі і реалізовані в комп'ютерних програмах, наведемо лише загальну схему розрахунку статистичних харак­теристик моделі, акцентуючи увагу на їх змістовній інтерпрета­ції. У парній лінійній регресії сума квадратів відхилень мінімізу­ється при таких значеннях параметрів а та b :

а = у - Ьх. За даними табл. 4.4.1 (підсумковий рядок) параметр b =

- 4,51. Інтерпретація цього значення може бути такою: «зі

32,04

збільшенням інвестицій в ринкову інфраструктуру регіону на 1 тис. USD обсяги продажу зростають у середньому на 4,5 т». Ві­льний член рівняння становить а = 95 - 4,51 • 10,6 = 47,22, а рівняння регресії в цілому має вигляд Y = 47,22 + 4,51* .

Таблиця 4.4.1.

До розрахунку

коефіцієнтів регресії та кореляції

X

У

х-х

у-у

(х-х)(у~у)

(х-Т,2

(у-у)2

1

7,5

85

-3,1

-10

31

9,61

100

2

8,2

80

-2,4

-15

36

5,76

225

3

9,3

88

-1,3

-7

9,1

1,69

49

4

9,8

95

-0,8

0

0

0,64

0

5

10,5

91

-0,1

-4

0,4

0,01

16

6

11

97

0,4

2

0,8

0,16

4

7

11,8

98

1,2

3

3,6

1,44

9

8

12,2

106

1,6

11

17,6

2,56

121

9

12,7

102

2,1

7

14,7

4,41

49

10

13

108

2,4

13

31,2

5,76

169

Гом

950

о

°

144,4

32,04

742

Рівняння регресії відбиває закон зв'язку між х і у не для окремих елементів сукупності, а для сукупності в цілому; закон, який абстрагує вплив інших факторів, виходить з принципу «за інших однакових умов». У нашому прикладі за інших однакових умов (доходи споживачів, рівень конкуренції) фірма, вклавши в ринкову інфраструктуру регіону 10 тис. USD, може очікувати, що обсяг продажу сягне рівня

Y= 47,22 + 10-4,51 «92т.

У невеликих за обсягом сукупностях коефіцієнт регресії схильний до випадкових коливань, тому слід перевірити його істотність. При лінійному зв'язку істотність коефіцієнта регресії перевіряють за допомогою /-критерію Стьюдента, статистична характеристика якого для гіпотези Н0:Ь = 0 визначається від­ношенням коефіцієнта регресії Ь до власної стандартної похиб­ки ь, тобто

Ь

/=■

Мь

Стандартна похибка коефіцієнта регресії залежить від варі­ації факторної ознаки х, залишкової дисперсії se і числа ступе­нів свободи df = п-т, де т - кількість параметрів рівняння регресії (для лінійної регресії т =2):

Розділ 4. Гіпотези і доведення у наукових дослідженнях

коефіцієнта регресії відхиляється, а отже, з імовірністю 0,95 вплив інвестицій у розвиток ринкової інфраструктури на обсяги продажу товару визнається істотним.

Для коефіцієнта регресії, як і для будь-якої іншої випадкової величини, визначаються довірчі межі b±t\ih. У нашому при­кладі довірчі межі коефіцієнта регресії з імовірності 0,95 (/ = 2,31) становлять 4,51 ± 2,31 • 0,60.

Мірою щільності парного лінійного зв'язку слугує коефіці­єнт кореляції г

\%

Значення коефіцієнта кореляції змінюються в діапазоні від -1 до +1, тобто оцінюючи щільність зв'язку, коефіцієнт кореляції вказує і на його напрям: при прямому зв'язку г- величина дода­тна, при зворотному - від'ємна.

За даними табл. 4.4.1

г =

144,4

= 0,9365.

732,04-742

Знаки коефіцієнтів кореляції і регресії однакові, величини їх взаємозв'язані функціонально, що уможливлює розрахунок одно­го коефіцієнта на основі іншого:

о

/ У

г = А

= 1

10-1

10-1

. 2 32,04 .., В нашому прикладі sx = -^—- = 3,56,

1 0,22

Звідси ць =

, т 0,60 , a t = — = -2= 7,5 , що 3,56 (10- 2) Мь °'60

перевищує критичне значення двостороннього /-критерію '095(8) = 2'31ив- табл- 4.2.1). Гіпотеза про випадковий характер

де s^ і sy- стандартні відхилення факторної і результативної ознак.

Коефіцієнт кореляції застосовують для вимірювання щіль­ності лінійного кореляційного зв'язку. Більш широку сферу за­стосування мають коефіцієнти, розрахунок яких ґрунтується на декомпозиції варіації результативної ознаки^ за джерелами форму­вання (див. 4.3). Незалежно від функціонального виду регресії,

ідентичні.

варіацію результативної ознаки у можна розкласти на дві скла­дові: за рахунок дії фактору х і за рахунок дії інших факторів:

або Qy^Qy+Qs,

де Qy = І,(у-у)2- загальна (total) сума квадратів відхилень індивідуальних значень ознаки у від середньої;

Qy = 2 (Y - у)2 - сума квадратів відхилень теоретичних зна­чень від середньої; ці відхилення є наслідком дії фактору х, а то­му називається факторною варіацією (regresion);

QE = Е (у - Y)2 - сума квадратів відхилень фактичних зна­чень від теоретичних; ці відхилення є наслідком дії інших фак­торів (residual).

Відношення факторної суми квадратів відхилень до загаль­ної називається коефіцієнтом детермінації:

Qy Qy '

Коефіцієнт детермінації характеризує частку варіації ре­зультативної ознаки у, яка пов'язана з варіацією фактору х. За відсутності зв'язку R2=0. Якщо зв'язок функціональний, R2=l.

Знаючи ступінь залежності варіації у від варіації х, можна дійти висновку щодо доцільності подальшого вивчення взаємо­зв'язку і практичного його використання, а також виявити ті фа­ктори, які в конкретних умовах є визначальними.

За даними табл. 4.4.1 маємо: £ - у)2 = 742; 2 (Y - у)2 = 650;

X(y-Y)2= 92.

Звідси коефіцієнт детермінації

вг 650 R

= 0,8/0 ,

742

тобто 87,6% варіації обсягів продажу товару по регіонах пов'язано з варіацією інвестицій в розвиток інфраструктури про­сування його на ринок, а 12,4 % припадає на інші фактори.

Корінь квадратний із коефіцієнта детермінації називають коефіцієнтом кореляції. Якщо зв'язок лінійний, то R =\r |. У

132

розглянутому прикладі r = yJR2 = д/0,876 = 0,9365. Ця тотожність дає підстави на основі лінійного коефіцієнта кореляції визнача­ти внесок ознаки х у варіацію ознаки у. Наприклад, г — 0,8 озна­чає, що 64 % варіації у пояснюється варіацією х.

Перевірка істотності кореляційного зв'язку ґрунтується на

порівнянні фактичних значень R2 з критичними, які могли б виникнути за відсутності зв'язку. Якщо фактичне значення R2 перевищує критичне, то зв'язок між ознаками не випадковий. Гіпотеза, що перевіряється, формулюється як нульова: Яо : R2 = 0 .

Критичні значення характеристик щільності зв'язку для рів­ня істотності а = 0,05 і відповідного числа ступенів свободи на­ведено в табл. 4.4.2. Число ступенів свободи ^залежить від об­сягу сукупності п і кількості параметрів рівняння т. Для факто­рної дисперсії df дорівнює - 1), для залишкової - (л - т). Так, стосовно розглянутої сукупності регіонів критичне значення коефіцієнта детермінації становить Ло>95(1;8) = 0,399. Емпіричний

коефіцієнт детермінації R2 =0,876 перевищує критичне значен­ня, що з імовірністю 0,95 підтверджує істотність зв'язку між ін­вестиціями в розвиток інфраструктури просування товару на ринок і обсягами продажу.

Розглянута процедура перевірки істотності зв'язку є складо­вою дисперсійного аналізу (див. 4.3). Характеристика дисперсій­ного критерію F функціонально пов'язана з коефіцієнтом де-

1 — R

термінації F »

R

k ~> a тому результати перевірки будуть

Методологія науковій досліджень

Т аблиця 4.4.2. Критичні значення коефіцієнта детермінації R2 для а = 0,05

У середовищі Excel регресійний аналіз здійснюється в па­кеті Анализ данньїх за допомогою інструмента Регрессия, діалогове вікно якого представлено на рис. 4.4.2. У поле Входньїе данньїе вводяться:

  • адреса діапазону значень результативної ознаки «Вход­ ной интервал У»;

  • адреси одного чи кількох діапазонів значень факторних ознак «Входной интервал X».

Я кщо перший рядок діапазону даних містить заголовки, це слід вказати в {Метки в первой строке). Константа-ноль фор-

Розділ 4. Гіпотези і доведення у наукових дослідженнях

сує проходження лінії регресії через початок координат, а Уро-вень надежности за умовчуванням приймається на рівні 95%.

У полі Параметри виводи вказується, куди саме необхід­но помістити результати аналізу. Якщо вибирається Вьіходной интервал, посилаються на ліву верхню комірку діапазону ре­зультатів (діапазон містить не менше 7 стовпців).

У полі Остатки задаються варіанти виведення залишків (абсолютні, стандартизовані) або графік залишків. У таблиці за­лишків наводяться також теоретичні, визначені за функцією Y = f(x), значення результативної ознаки.

Рис.4.4.2. Діалогове вікно інструмента Регрессия

Стандартна таблиця регресійного аналізу містить усі харак­теристики кореляційних зв'язків, описані вище, зокрема:

• значення коефіцієнтів кореляції R, детермінації R2 та R% (скоригований на число ступенів свободи), стандартну похибку se;

  • результати дисперсійного аналізу;

  • коефіцієнти регресії, стандартні похибки і ^-тести коефі­ цієнтів регресії.

На рис. 4.4.3 представлено результати регресійного аналізу зв'язку між інвестиціями в розвиток інфраструктури просування товару на ринок і обсягами продажу. У правому нижньому куті наведені розраховані за даними табл. 4.4.1 коефіцієнти кореляції та детермінації1, параметри регресії, стандартна похибка коефі­цієнта регресії та значення ^-критерію. Можна пресвідчитися, що значення усіх наведених характеристик (з урахуванням окру­глення) збігаються.

І і g І н ] і | j { к і l ] м і

Y-пересечен 47,22721598 Переменная 4,506866417:

КохрфициенгпіСтандартная ошибка і-статистика

6,412651921 0,596521889:

t = 7.5

11 = 0,60

ї = 47,22 + 4,51*

г = 0.936 R2 = 0.876

!

7,364693509 7,555240641

Регрессионная статистика Множеств 0,936624 R-кеадрат 0.877078 Нормиров 0.861712 Стандарти 3,376546 Наблюден 10

іДисперсионньїй

анализ

a

SS

MS

F

ІРвгресси? іОстаток !Итого

1 8 9

650,7915 91.20849 742

650.7915 11,40106

57,0816611

Рис. 4. 4.3. Результати регресійного аналізу в EXCEL

Лінійна функція описує такий зв'язок, коли зі зміною фак­тора х результат у змінюється більш-менш рівномірно. При не­рівномірному співвідношенні варіацій взаємозв'язаних ознак (наприклад, коли прирости значень у зі зміною х прискорені чи сповільнені або напрям зв'язку змінюється), використовують нелінійні регресії, зокрема: степеневу, гіперболу, параболу тощо. Скажімо, зв'язок між собівартістю у та обсягом продукції х опи-

І

сується рівнянням гіперболи Y = a+— , де а - пропорційні витрати

х

на одиницю продукції, Ь - постійні витрати на весь випуск, а зв'язок між ціною і попитом на певний товар - степеневою функ­цією Y = ахг, де параметр у (коефіцієнт еластичності) характе­ризує відносний ефект впливу фактору х на результат у. Якщо скажімо у = -0,8, то це означає, що зі зміною фактору х на 1% результату зменшується у середньому на 0,8%. Степенева функ­ція зводиться до лінійного виду логарифмуванням lg Y = lg a+b lg x.

4.4.2. Множинна регресія в соціально-економічних