- •Передмова
- •2.1. Види та джерела наукової інформації
- •2.3. Формування інформаційної бази дослідження
- •3.3.1. Характеристики варіації
- •3.4. Рейтингові оцінки
- •4.2. Критерії перевірки гіпотез
- •4.3. Дисперсійний аналіз
- •4.4. Аналіз кореляцій і регресій
- •Дослідженнях
- •5.1. Інформаційна база прогнозування
- •5.2. Тенденції розвитку
- •5.4. Сезонні «хвилі»
- •5.6. Пошук рішень
- •5.6.1. Загальна задача оптимізації
4.4. Аналіз кореляцій і регресій
4.4.1. Основні засади аналізу кореляційних зв'язків
Усі явища навколишнього світу взаємопов'язані і взаємозумовлені. У складному переплетенні всеохоплюю-чого взаємозв'язку будь-яке з них є наслідком дії певної множини причин і водночас - причиною інших явищ. Які саме причини формують рівень явища в конкретній сукупності і який внесок кожної з них? Виявити і кількісно виміряти об'єктивно існуючі між явищами взаємозв'язки в конкретних умовах простору і часу - одне з важливих завдань наукових досліджень.
У процесі дослідження розв'язується триєдина задача:
встановлюється факт наявності зв'язку між явищами, його напрямок і форми;
вимірюється ступінь щільності зв'язку;
• оцінюються ефекти впливу одних явищ на інші. Висновки щодо наявності, сили і характеру впливу одних
явищ на інші мають важливе значення для практичної діяльності, передусім, для обгрунтування управлінських рішень, для прогнозування й регулювання складних соціально-економічних явищ і процесів.
Форми виявлення взаємозв'язків різноманітні. Для соціально-економічних явищ характерні переважно кореляційні зв'язки, які через складність взаємодії факторів і вплив випадкових причин проявляються не в кожному окремому випадку, а лише в середньому. За напрямом впливу кореляційні зв'язки бувають прямими і зворотними, за аналітичною формою - лінійними і нелінійними, за кількістю взаємодіючих факторів -парними і множинними.
Інформаційною базою аналізу кореляційних зв'язків є сукупності індивідуальних значень взаємопов'язаних ознак. Існуючі методи аналізу широко представлені в різного роду статистичних пакетах програм для ЕОМ. Досліднику важливо знати обчислювальні процедури, аналітичні можливості і 126
передумови того чи іншого методу, вміти правильно підготувати інформацію і аналізувати результати. Змістовна інтерпретація результатів аналізу - обов'язкова умова наукового дослідження. Саме це спонукає нас розглянути логіку аналізу і зміст характеристик вимірювання кореляційного зв'язку.
Найпростішою системою кореляційного зв'язку є парна кореляція, коли одне явище розглядається як фактор, інше - як результат. Відповідно ознаки, що характеризують ці явища, називаються: факторною jc і результативною у. Наявність зв'язку між ними має бути попередньо обґрунтована і представлена у вигляді гіпотези.
Якщо у конкретній сукупності теоретично обґрунтований зв'язок реалізується, це виявиться закономірною зміною значень результативної ознаки у зі зміною значень факторної ознаки х, тобто фактор х своїм впливом формує варіацію у. За відсутності зв'язку варіація у не буде пов'язана з варіацією х. Виявити узгодженість (неузгодженість) варіації двох ознак можна за допомогою паралельних рядів, коли одиниці сукупності упорядковуються за значеннями факторної ознаки х, а паралельно розміщуються відповідні їм значення результативної ознаки у. Наявність чи відсутність зв'язку виявляється зіставленням паралельних рядів.
Як приклад розглянемо зв'язок між інвестиціями фірми в розвиток інфраструктури просування товару до споживача (тис. USD) і обсягами продажу товару (т). На рис. 4.4.1 наведено паралельні ряди даних по 10 регіонах, які більш-менш однорідні за рівнем конкуренції і доходами споживачів. Регіони упорядковані за розміром інвестицій в інфраструктуру (ознака х), паралельно наведені обсяги продажу товару (ознака у). Як свідчать дані, в тих регіонах, де в розвиток інфраструктури товаропосу-вання вкладені більші кошти, там більший обсяг продажу товару. Візуально наявність і форму зв'язку між цими ознаками підтверджує діаграма розсіювання - точковий графік, на якому кожний у-й регіон (/=1, 2,..., 10) представлений точкою з координатами Xj, У/. З того, як розміщуються точки у системі координат,
127
можна
зробити висновок про наявність прямого
додатного зв'язку
між інвестиціями в розвиток ринкової
інфраструктури і обсягами
продажу товару.
Форму кореляційного зв'язку між ознаками можна описати аналітично у вигляді функції Y = /О), яка називається регресією у по х. Рівняння лінійної регресії має вигляд
Y = a + bx,
де Y- теоретичний рівень результативної ознаки;
а - вільний член рівняння регресії;
b - коефіцієнт регресії, показує, на скільки одиниць у середньому змінюється у зі зміною х на одиницю. При прямому зв'язку b - величина додатна, при оберненому - від'ємна. Коефіцієнт регресії розглядається як ефект впливу х на у.
Параметри рівняння регресії визначаються методом найменших квадратів (МНК), основна умова якого - мінімізація суми квадратів відхилень емпіричних значень у/ від теоретичних
У/-
^ ''j-Yj)2 =min, де j - порядковий номер одиниці сукупності.
128
Розділ 4. Гіпотези і доведення у наукових дослідженнях
Відхилення (уу - Yj) пояснюються впливом інших, не включених у модель факторів, називаються залишками і позначаються еЛ Оскільки алгоритми МНК описані в математико-статистичній літературі і реалізовані в комп'ютерних програмах, наведемо лише загальну схему розрахунку статистичних характеристик моделі, акцентуючи увагу на їх змістовній інтерпретації. У парній лінійній регресії сума квадратів відхилень мінімізується при таких значеннях параметрів а та b :
а
= у -
Ьх.
За
даними табл. 4.4.1 (підсумковий рядок)
параметр b
=
— - 4,51. Інтерпретація цього значення може бути такою: «зі
32,04
збільшенням інвестицій в ринкову інфраструктуру регіону на 1 тис. USD обсяги продажу зростають у середньому на 4,5 т». Вільний член рівняння становить а = 95 - 4,51 • 10,6 = 47,22, а рівняння регресії в цілому має вигляд Y = 47,22 + 4,51* .
Таблиця 4.4.1. |
До розрахунку |
коефіцієнтів регресії та кореляції |
|||||
|
X |
У |
х-х |
у-у |
(х-х)(у~у) |
(х-Т,2 |
(у-у)2 |
1 |
7,5 |
85 |
-3,1 |
-10 |
31 |
9,61 |
100 |
2 |
8,2 |
80 |
-2,4 |
-15 |
36 |
5,76 |
225 |
3 |
9,3 |
88 |
-1,3 |
-7 |
9,1 |
1,69 |
49 |
4 |
9,8 |
95 |
-0,8 |
0 |
0 |
0,64 |
0 |
5 |
10,5 |
91 |
-0,1 |
-4 |
0,4 |
0,01 |
16 |
6 |
11 |
97 |
0,4 |
2 |
0,8 |
0,16 |
4 |
7 |
11,8 |
98 |
1,2 |
3 |
3,6 |
1,44 |
9 |
8 |
12,2 |
106 |
1,6 |
11 |
17,6 |
2,56 |
121 |
9 |
12,7 |
102 |
2,1 |
7 |
14,7 |
4,41 |
49 |
10 |
13 |
108 |
2,4 |
13 |
31,2 |
5,76 |
169 |
Гом |
|
950 |
о |
° |
144,4 |
32,04 |
742 |
Рівняння
регресії відбиває закон зв'язку між х
і
у
не
для окремих
елементів сукупності, а для сукупності
в цілому; закон, який
абстрагує вплив інших факторів, виходить
з принципу «за інших
однакових умов». У нашому прикладі за
інших однакових умов
(доходи споживачів, рівень конкуренції)
фірма, вклавши в ринкову
інфраструктуру регіону 10 тис. USD,
може
очікувати, що
обсяг продажу сягне рівня
Y= 47,22 + 10-4,51 «92т.
У невеликих за обсягом сукупностях коефіцієнт регресії схильний до випадкових коливань, тому слід перевірити його істотність. При лінійному зв'язку істотність коефіцієнта регресії перевіряють за допомогою /-критерію Стьюдента, статистична характеристика якого для гіпотези Н0:Ь = 0 визначається відношенням коефіцієнта регресії Ь до власної стандартної похибки /іь, тобто
Ь
/=■
Мь
Стандартна похибка коефіцієнта регресії залежить від варіації факторної ознаки х, залишкової дисперсії se і числа ступенів свободи df = п-т, де т - кількість параметрів рівняння регресії (для лінійної регресії т =2):
Розділ 4. Гіпотези і доведення у наукових дослідженнях
коефіцієнта регресії відхиляється, а отже, з імовірністю 0,95 вплив інвестицій у розвиток ринкової інфраструктури на обсяги продажу товару визнається істотним.
Для коефіцієнта регресії, як і для будь-якої іншої випадкової величини, визначаються довірчі межі b±t\ih. У нашому прикладі довірчі межі коефіцієнта регресії з імовірності 0,95 (/ = 2,31) становлять 4,51 ± 2,31 • 0,60.
Мірою щільності парного лінійного зв'язку слугує коефіцієнт кореляції г
\%
Значення коефіцієнта кореляції змінюються в діапазоні від -1 до +1, тобто оцінюючи щільність зв'язку, коефіцієнт кореляції вказує і на його напрям: при прямому зв'язку г- величина додатна, при зворотному - від'ємна.
За даними табл. 4.4.1
г =
144,4
= 0,9365.
732,04-742
Знаки коефіцієнтів кореляції і регресії однакові, величини їх взаємозв'язані функціонально, що уможливлює розрахунок одного коефіцієнта на основі іншого:
о
/ У
г = А
= 1
10-1
10-1
. 2 32,04 .., В нашому прикладі sx = -^—- = 3,56,
1
0,22
Звідси ць =
, т 0,60 , a t = — = -2— = 7,5 , що 3,56 (10- 2) Мь °'60
перевищує критичне значення двостороннього /-критерію '095(8) = 2'31 (Див- табл- 4.2.1). Гіпотеза про випадковий характер
де s^ і sy- стандартні відхилення факторної і результативної ознак.
Коефіцієнт кореляції застосовують для вимірювання щільності лінійного кореляційного зв'язку. Більш широку сферу застосування мають коефіцієнти, розрахунок яких ґрунтується на декомпозиції варіації результативної ознаки^ за джерелами формування (див. 4.3). Незалежно від функціонального виду регресії,
ідентичні.
або Qy^Qy+Qs,
де Qy = І,(у-у)2- загальна (total) сума квадратів відхилень індивідуальних значень ознаки у від середньої;
Qy = 2 (Y - у)2 - сума квадратів відхилень теоретичних значень від середньої; ці відхилення є наслідком дії фактору х, а тому називається факторною варіацією (regresion);
QE = Е (у - Y)2 - сума квадратів відхилень фактичних значень від теоретичних; ці відхилення є наслідком дії інших факторів (residual).
Відношення факторної суми квадратів відхилень до загальної називається коефіцієнтом детермінації:
Qy Qy '
Коефіцієнт детермінації характеризує частку варіації результативної ознаки у, яка пов'язана з варіацією фактору х. За відсутності зв'язку R2=0. Якщо зв'язок функціональний, R2=l.
Знаючи ступінь залежності варіації у від варіації х, можна дійти висновку щодо доцільності подальшого вивчення взаємозв'язку і практичного його використання, а також виявити ті фактори, які в конкретних умовах є визначальними.
За даними табл. 4.4.1 маємо: £ (у - у)2 = 742; 2 (Y - у)2 = 650;
X(y-Y)2= 92.
Звідси коефіцієнт детермінації
вг 650 R
= 0,8/0 ,
742
тобто 87,6% варіації обсягів продажу товару по регіонах пов'язано з варіацією інвестицій в розвиток інфраструктури просування його на ринок, а 12,4 % припадає на інші фактори.
Корінь квадратний із коефіцієнта детермінації називають коефіцієнтом кореляції. Якщо зв'язок лінійний, то R =\r |. У
132
розглянутому прикладі r = yJR2 = д/0,876 = 0,9365. Ця тотожність дає підстави на основі лінійного коефіцієнта кореляції визначати внесок ознаки х у варіацію ознаки у. Наприклад, г — 0,8 означає, що 64 % варіації у пояснюється варіацією х.
Перевірка істотності кореляційного зв'язку ґрунтується на
порівнянні фактичних значень R2 з критичними, які могли б виникнути за відсутності зв'язку. Якщо фактичне значення R2 перевищує критичне, то зв'язок між ознаками не випадковий. Гіпотеза, що перевіряється, формулюється як нульова: Яо : R2 = 0 .
Критичні значення характеристик щільності зв'язку для рівня істотності а = 0,05 і відповідного числа ступенів свободи наведено в табл. 4.4.2. Число ступенів свободи ^залежить від обсягу сукупності п і кількості параметрів рівняння т. Для факторної дисперсії df дорівнює (т - 1), для залишкової - (л - т). Так, стосовно розглянутої сукупності регіонів критичне значення коефіцієнта детермінації становить Ло>95(1;8) = 0,399. Емпіричний
коефіцієнт детермінації R2 =0,876 перевищує критичне значення, що з імовірністю 0,95 підтверджує істотність зв'язку між інвестиціями в розвиток інфраструктури просування товару на ринок і обсягами продажу.
Розглянута процедура перевірки істотності зв'язку є складовою дисперсійного аналізу (див. 4.3). Характеристика дисперсійного критерію F функціонально пов'язана з коефіцієнтом де-
1 — R
термінації F »
R
k ~> a тому результати перевірки будуть
Методологія
науковій досліджень
Т аблиця 4.4.2. Критичні значення коефіцієнта детермінації R2 для а = 0,05
У
середовищі Excel
регресійний
аналіз здійснюється в пакеті
Анализ данньїх за допомогою інструмента
Регрессия,
діалогове
вікно якого представлено на рис. 4.4.2. У
поле Входньїе
данньїе вводяться:
адреса діапазону значень результативної ознаки «Вход ной интервал У»;
адреси одного чи кількох діапазонів значень факторних ознак «Входной интервал X».
Я
кщо
перший рядок діапазону даних містить
заголовки, це слід вказати в {Метки
в первой строке). Константа-ноль фор-
Розділ 4. Гіпотези і доведення у наукових дослідженнях
сує проходження лінії регресії через початок координат, а Уро-вень надежности за умовчуванням приймається на рівні 95%.
У полі Параметри виводи вказується, куди саме необхідно помістити результати аналізу. Якщо вибирається Вьіходной интервал, посилаються на ліву верхню комірку діапазону результатів (діапазон містить не менше 7 стовпців).
У полі Остатки задаються варіанти виведення залишків (абсолютні, стандартизовані) або графік залишків. У таблиці залишків наводяться також теоретичні, визначені за функцією Y = f(x), значення результативної ознаки.
Рис.4.4.2. Діалогове вікно інструмента Регрессия
Стандартна таблиця регресійного аналізу містить усі характеристики кореляційних зв'язків, описані вище, зокрема:
• значення коефіцієнтів кореляції R, детермінації R2 та R% (скоригований на число ступенів свободи), стандартну похибку se;
результати дисперсійного аналізу;
коефіцієнти регресії, стандартні похибки і ^-тести коефі цієнтів регресії.
На рис. 4.4.3 представлено результати регресійного аналізу зв'язку між інвестиціями в розвиток інфраструктури просування товару на ринок і обсягами продажу. У правому нижньому куті наведені розраховані за даними табл. 4.4.1 коефіцієнти кореляції та детермінації1, параметри регресії, стандартна похибка коефіцієнта регресії та значення ^-критерію. Можна пресвідчитися, що значення усіх наведених характеристик (з урахуванням округлення) збігаються.
І і g І н ] і | j { к і l ] м і
Y-пересечен 47,22721598 Переменная 4,506866417:
КохрфициенгпіСтандартная ошибка і-статистика
6,412651921 0,596521889:
t = 7.5
11 = 0,60
ї = 47,22 + 4,51*
г = 0.936 R2 = 0.876
!
7,364693509 7,555240641
Регрессионная статистика Множеств 0,936624 R-кеадрат 0.877078 Нормиров 0.861712 Стандарти 3,376546 Наблюден 10
іДисперсионньїй |
анализ |
|
|
|
a |
|
SS |
MS |
F |
ІРвгресси? іОстаток !Итого |
1 8 9 |
650,7915 91.20849 742 |
650.7915 11,40106 |
57,0816611 |
Рис. 4. 4.3. Результати регресійного аналізу в EXCEL
Лінійна функція описує такий зв'язок, коли зі зміною фактора х результат у змінюється більш-менш рівномірно. При нерівномірному співвідношенні варіацій взаємозв'язаних ознак (наприклад, коли прирости значень у зі зміною х прискорені чи сповільнені або напрям зв'язку змінюється), використовують нелінійні регресії, зокрема: степеневу, гіперболу, параболу тощо. Скажімо, зв'язок між собівартістю у та обсягом продукції х опи-
■ І
сується рівнянням гіперболи Y = a+— , де а - пропорційні витрати
х
на одиницю продукції, Ь - постійні витрати на весь випуск, а зв'язок між ціною і попитом на певний товар - степеневою функцією Y = ахг, де параметр у (коефіцієнт еластичності) характеризує відносний ефект впливу фактору х на результат у. Якщо скажімо у = -0,8, то це означає, що зі зміною фактору х на 1% результату зменшується у середньому на 0,8%. Степенева функція зводиться до лінійного виду логарифмуванням lg Y = lg a+b lg x.
4.4.2. Множинна регресія в соціально-економічних
