Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ms_labs

.pdf
Скачиваний:
25
Добавлен:
10.12.2018
Размер:
4.28 Mб
Скачать

означає виконання операції над масивом).

 

 

1

 

 

 

 

Обернена матриця XT X

має такий вигляд:

 

 

 

 

-1,3552

-35,454

-51,983

-68,386

4,4652

 

131,61

 

-1,3552

8,87382

0,05882

2,17428

-8,2849

1,8134

Т Х)-1 =

-35,454

0,05882

16,8532

13,6779

15,8787

-1,435

 

-51,983

2,17428

13,6779

26,2221

13,7817

-0,6151

 

-68,386

-8,2849

15,8787

13,7817

72,372

-6,5091

 

4,4652

1,8134

-1,435

-0,6151

-6,5091

1,03865

Крок 3. Визначення параметрів рівняння. Для визначення параметрів рівняння-

моделі треба

знайти

оцінки значень вектора b , тобто знайти добуток матриць

1

XT Y ,

 

b XT X

який аналізується аналогічно попереднім добуткам. В результаті

застосування функції МУМНОЖ до обох співмножників матрицю-добуток зі значеннями оцінок параметрів рівняння множинної регресії

-53,3379 7,746083 b = 14,35101 29,00167 5,948828 13,78396

Таким чином рівняння (8) можна записати у такому вигляді

Y 53.34 7.75X1 14.35X 2

29.00X3

5.95X 4

13.78X5

. (12)

Для перевірки адекватності цієї моделі реальним даним здійснимо її перевірку в той спосіб, що використаємо рівняння (12) як формулу, але для забезпечення максимальної точності та зручності значення оцінок будемо підставляти не заокруглені як в рівнянні (12), а брати їх з комірок, фіксуючи їх значення з допомого кліку по клавіші « F4 » на клавіатурі. В результаті, перевірки якості адекватності за формулою

 

n 10

 

yi

ymi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

 

 

 

 

i 1

 

100% ,

(13)

 

 

 

 

 

 

 

n

 

 

 

 

матиме такий вигляд, зображений на рис. 2.

141

Рис. 2.

В результаті перевірки на адекватність величина значення помилки апроксимації становить 4,6 %. В стрічці формул на рис.2 зображена формула – рівняння з фіксацією коефіцієнтів.

Побудова рівняння множинної регресії з використанням Пакету аналізу Ms

Excel

Табличний процесор Ms Excel 2003 в офісному пакеті містить надбудову «Аналіз даних» для статистичної обробки інформації, включаючи і функцію «Регресія». Для цього треба

142

143

Пояснимо призначення параметрів діалогового вікна Регресія.

Вхідний інтервал Y: - діапазон зі значеннями залежної змінної Y, включаючи мітку.

Вхідний інтервал X: - діапазон зі значеннями незалежної змінної X, включаючи мітку.

Мітки - цю опцію включають, якщо Вхідні інтервали X, Y містять підписи зверху.

Константа - нуль - дану опцію включають тільки в тому випадку, коли ви хочете, щоб пряма регресії проходила через початок координат (0, 0).

Рівень надійності: - за умовчанням використовується 95% -ий довірчий інтервал. Для отримання інших довірчих інтервалів встановлюють прапорець і вводять рівень значущості.

Вихідний інтервал: - включається опція і в текстове поле вводиться посилання (адреса комірки), яка вказує лівий верхній кут області виведення результатів.

144

Залишки - цю опцію включають для отримання значень вибіркової функції регресії ( yˆi ; i 1, 10 ) і залишків (тобто відхилень: yi yˆi ; i 1, 10 ).

Графік залишків - включення цієї опції дозволяє отримати діаграму залишків для кожного значення змінної X.

Стандартизовані залишки - отримання нормованих залишків (кожен із залишків ділиться на стандартне відхилення залишків). Дана процедура дозволяє легко побачити значення, що виходять за межі.

Графік підбору - отримання точкової діаграми вхідних значень Y щодо змінної X, а також графіка функції регресії. Дана діаграма відповідає точкової діаграмі з додаванням лінії тренда.

Графік нормальної ймовірності - дана опція в Excel реалізована не повністю, тому її включати не слід.

Після того, як заповнені вибрані вікна треба клацнути кнопкою ОК. Для більшої наочності отримані результати необхідно відформатувати – вибрати ширину комірок, розрядність чисел, читабельність заголовків.

Інтерпретація регресії

Для відповіді на запитання «Наскільки добре отримана функція регресії відповідає даним», використовуються чотири характеристики: стандартна помилка, R2, t-статистика та аналіз дисперсії.

В таблиці регресійна статистика приведені такі значення. Показник множинної кореляції R наведений в комірці J4 має значення 0.996, тобто практично рівний одиниці.

Величина R2, зазначена на діаграмі розсіювання, називається коефіцієнтом детермінації, що визначає частку зміни змінної Y в залежності від зміни X. Величина R2 знаходиться в межах від 0 до 1 і часто виражається у відсотках.

Якщо R2 > 0.95, то говорять про високу точність апроксимації (модель дуже добре описує явище). Якщо його значення лежать в діапазоні від 0.8 до 0.95, то вважають апроксимацію задовільною (модель в цілому відповідає описуваному явищу. Якщо R2 <0.6 прийнято вважати що точність апроксимації є недостатньою і модель потребує покращення (введення нових незалежних змінних, врахування нелінійностей тощо). В даному випадку R2 = 0.991, що свідчить про високий рівень адекватності рівняння регресії вхідним даним.

Значення R2 знаходиться в комірці J5 і становить приблизно 99%.

Значення «Нормований R-квадрат», наведене в комірці J6 має значення 0.981, використовується для порівняння з іншими моделями, що містять додаткові незалежні змінні.

Стандартну помилку часто називають стандартною помилкою оцінки. Її можна інтерпретувати як стандартне відхилення залишків, яке показує, якої величини помилку в середньому ви допускаєте, коли замість фактичного значення Y використовуєте значення функції регресії. Стандартна помилка вимірюється в тих же одиницях, що і Y. У комірці J7 вказана величина стандартної помилки, яка рівна 1.153. Це означає, що фактичне значення відрізняється від обчисленого за допомогою отриманої функції регресії на 1.153. В разі нормального розподілу залишків, можна очікувати, що приблизно 2/3 точок даних знаходиться на відстані не більше ніж 1.153 вище або нижче прямої. В комірці J8 вказується кількість спостережень.

Якщо стандартна помилка оцінки є абсолютною мірою величини помилок, то коефіцієнт детермінації R2 є їх відносною мірою.

145

Далі, на листі відображено дві таблиці з загальною назвою «Дисперсійний аналіз». В першій з них відображені найбільш істотні параметри: K12 – регресійна сума квадратів,

 

 

n

 

 

 

яка обчислюється за формулою

RSS fi

y 2 , в якій для

зручності розуміння і

 

 

i 1

 

 

 

загальності значення обчислені з рівняння регресії позначені через

fi ; K13 – сума квадратів

 

 

 

n

 

 

помилок регресії, обчислена за

формулою

ESS yi fi 2 ;

K14

– загальна сума

 

 

 

i 1

 

 

 

 

 

 

n

 

квадратів. Її величина визначається за формулою TSS RSS ESS yi

y 2

 

 

 

 

i 1

 

В другій наведені коефіцієнти b0 , , b5

рівняння лінійної регресії, представлені в

стовпці Коефіцієнти. Коефіцієнт Y-перетин

-53.338 (комірка J17) є постійним членом

рівняння, тобто це b0 , а коефіцієнти

X1 7.746, X2 14.351,

X3 29.002, X4 5.949,

X5 13.784 (комірки J18, J19, J20,

J21 і J22, відповідно) є

коефіцієнтами рівняння

множинної регресії b1, , b5 . Таким чином, рівняння регресії має вигляд:

yˆ – 53.338 7.746x1 14.351x2 29.002x3 5.949x4 13.784x5 .

Значення t -статистик, приведені в комірках L17 і L22, є частиною перевірок гіпотез про наявність залежності між змінними X і Y. Іншими словами вхідні дані 10 об'єктів Y розглядаються як вибірка з генеральної сукупності. Висувається нульова гіпотеза H0 про те, що залежність відсутня, тобто коефіцієнт регресії генеральної сукупності для змінних X дорівнює нулю, а, отже, їх зміна не впливає на значення змінної Y.

Загальна якість отриманої моделі, тобто її достовірність за рівнем значимості критерію Фішера – p , який має бути меншим за 0.5. в нашому прикладі в стовпчику

«Значимість F» значення p = 0.000324, що підтверджує значимість моделі. В стовпчику «Р- Значення» приведена достовірність відмінності відповідних коефіцієнтів від нуля. У випадках, коли p 0.05, коефіцієнт можна вважати нульовим. Це означає, що відповідна

незалежна змінна практично не впливає на залежну змінну і ця змінна разом з коефіцієнтом може бути вилучена з рівняння.

У таблиці ВИВІД ЗАЛИШКУ приведені дані щодо точності оцінок експериментальних значень залежних змінних. Зокрема, крім нумерації проведених дослідів (діапазон комірок І27:І36) в діапазоні комірок J27:J36 оцінювані значення для залежної змінної Y, а в діапазоні комірок K27:K36 – різниці оцінених і експериментальних значень залежної змінної Y. Іншими словами, в стовпчику Передбачені значення (діапазон J27:J36) є значеннями отриманої (теоретично) функції регресії, які оцінюють кожне з 10 Yі. а у стовпчику Залишки (діапазон K27:K36) вказані відхилення, що відповідають різниці між фактичними значеннями і значеннями функції регресії (підібраними значеннями).

Хід роботи

ЛАБОРАТОРНА РОБОТА № 10

146

ВИЯВЛЕННЯ ТЕНДЕНЦІЇ ЧАСОВОГО РЯДУ МЕТОДАМИ ЗГЛАДЖУВАННЯ ЗА ФОРМУЛАМИ КЕНДЕЛА ТА ПОЛЛАРДА

При побудові математичних моделей часових рядів, переважно з метою визначення динаміки показника, необхідно в першу чергу виділити тенденцію та відокремити її від випадкових відхилень, зумовлених різними, переважно перешкоджаючими факторами.

Дослідження часового ряду починається з його графічного представлення. При візуальному способі будується графік часового ряду, на основі якого висувається гіпотеза про його структуру, в першу чергу про форму тренду. Цей підхід дає задовільні результати при відносно монотонних тенденціях. Однак у випадку значних флуктуацій модельованого процесу можливість помилок у виборі виду функції тренда при даному підході зростає. Методи виявлення основної тенденції розвитку досліджуваного об’єкта переважно основуються на докладному вивченні фактичного розвитку його динаміки. Вони повинні узгоджуватись з результатами спостережень і статистикою емпіричного матеріалу. Ці методи мають різну логічну змістовність і тому застосовуються до часових рядів в залежності від цілей дослідження. Основна їх мета полягає в тому, щоб розкривати загальні закономірності розвитку, затушовані окремими, іноді випадковими обставинами. Проте кожен з них має свої особливості.

Для виявленні тенденції – характеру розвитку використовують процедуру згладжування часового ряду. Суть її зводиться до заміни фактичних рівнів часового ряду розрахунковими, але з меншими коливаннями, що сприяє більш чіткому проявленню тенденції та її характеру. Саме в цьому випадку, тенденцію зображають гладкою неперервною функцією, яку або її графік називають трендом часового ряду.

Метою даної роботи є ознайомлення з основними методами висвітлення тенденції поведінки досліджуваного показника, яка представлена характером його тренду, з допомогою методів згладжування часових рядів та подання отриманих результатів засобами табличного процесора MS Excel.

1. Методи згладжування часових рядів

Методи згладжування можна умовно розділити на два класи, в основі яких лежать різні підходи: аналітичний та алгоритмічний.

Аналітичний підхід оснований на припущенні, що дослідник може на підставі візуального аналізу задати загальний вигляд функції, вважаючи що її графік відповідає характеру тенденції. Наприклад, на основі візуального та змістовного аналізу властивостей об’єкта та динаміки часового ряду, поведінку якого він описує, в якості функції може бути використана: експонента, гіпербола, парабола, степенева функція, поліноми вищих степенів та інші функції.

Наступний етап передбачає аналітичне або статистичне оцінювання невідомих параметрів вибраної для апроксимації функції, яка в цьому випадку стає математичною моделлю тенденції даного часового ряду.

Іншими словами, аналітичний підхід означає заміну значень рівнів часового ряду значеннями теоретично розрахованими на підставі явного аналітичного вигляду функції, якою апроксимують візуально визначений тренд.

147

Цей підхід успішно реалізований в Excel, використовуючи поліноми до 6-го степеня включно, а також степеневу, експонентну та логарифмічну функції.

В алгоритмічному підході вигляд тренду отримують за рахунок різних алгоритмів, які практично реалізують згладжувальні процедури. Ці процедури надають досліднику лише алгоритм розрахунку нового значення часового ряду в будь-який заданий момент часу t .

Для більш ефективного згладжування рівнів часових послідовностей використовують зважені ковзні середні. Найбільш відомими алгоритмами зважених ковзних середніх є ковзні середні за формулами Кендела та Полларда

Метод ковзних середніх є одним із найстаріших серед відомих способів згладжування часового ряду. Він оснований на переході від початкових значень ряду до їх середніх значень на інтервалі часу, довжина якого обрана заздалегідь. При цьому сам вибраний інтервал часу у вигляді «вікна» (маски) ковзає уздовж ряду.

Суть цього методу зводиться до заміни фактичних рівнів ряду послідовностями рівнів, що мають, як правило, значно менші коливання, ніж вихідні дані. Зменшення флуктуації дає можливість наочно виявити основну тенденцію. Часто таку операцію над вихідними даними називають фільтруванням, а оператор її здійснення фільтром.

Ковзні середні дозволяють згладити як випадкові, так і періодичні коливання, виявити наявну тенденцію в розвитку процесу і тому служать важливим інструментом при фільтрації компонент часового ряду. Вони можуть бути визначені за допомогою простих ковзних або зважених середніх.

Вибір методу виявлення основної тенденції розвитку залежить від технічних можливостей обчислень і від уміння застосовувати відповідні методи, а також від завдань, які стоять перед дослідженням. Якщо треба дати загальну картину розвитку, його грубу модель, основану на механічному повторенні одних і тих же дій, крок за кроком, до послідовності рівнів, то можна обмежитися методом ковзної середньої. Якщо ж мета дослідження полягає в розробці математичної моделі тренду, то сам метод ковзної середньої буде недостатнім. Тоді треба буде використовувати метод кінцевих різниць або метод найменших квадратів.

Формули для зваженого ковзного середнього.

Взадачах з використанням простого ковзного середнього знаходиться середнє значення рівнів, що входять в інтервал згладжування. Ефект в цьому випадку, навіть при використанні великих інтервалів згладжування, є не дуже значним. Тому застосовують повторне згладжування, збільшуючи для кожного повторного підходу розмір вікна. В цьому випадку ефект є суттєвим.

Втаблицях наведені значення ваг для ковзних середніх. Таблиці розроблені різними авторами і дають різний ефект згладжування. Іншими словами, приведені таблиці з формулами з Кендела реалізують прості ковзні середні, оскільки для інтервалу згладжування в середині часового ряду, що відповідає середньому стовпчику таблиці всі ваги рівні 1.

Згладжування формулами з Кендела

Користування цими формулами полягає в такому. Нехай маємо часовий ряд X xi : xi X , i 1, 2, , n . Розпишемо значення цього ряду в такий спосіб

x1, x2 , x3 , x4 , x5 , x6 , x7 , x8 , x9 , , xn 7 , xn 6 , xn 5 , xn 4 , xn 3 , xn 2 , xn 1, xn

.

148

втрачені по чотири рівні, а тому для перерахунку другого рівня
В приведених нижче таблицях ваг перша стрічка відповідає номерам рівнів ряду, друга – вагам, а третя дільникам. Ліві стовпчики, відносно стовпчика з одиницями вказують ваги потрібні для перерахунку втрачених рівнів на початку ряду, а праві, відносно стовпчика з одиницями, вказують ваги потрібні для перерахунку втрачених рівнів в кінці ряду.
Наприклад. При згладжуванні вікном розміром N=9 на початку і в кінці будуть
~
x2
матиме такий вигляд
на початку ряду формула

Для простоти викладу приймемо розмір вікна W = 3, тобто обчисленню підлягають три

~

послідовних значення. Для перших трьох середнє x2 обчислюємо за такою формулою

~

 

x1 x2 x3

 

~

 

x2

x3

x4

 

x2

 

, для третього

x3

 

 

 

і так аж до

3

 

3

 

 

 

 

 

 

 

 

 

~

 

xn 2

xn 1

xn

 

 

 

~

 

~

 

xn 1

 

 

 

. Значення

x2

записуємо під значенням

x2 , значення x3

– під

 

3

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xn 1 .

 

 

 

 

x3 , і так далі, значення xn 1

під

 

 

 

 

Втрачені на початку і в кінці цього ряду значення обчислюють використовуючи ваги, причому для першого значення це 5, 2 і -1, а для останнього -1, 2, 5. Іншими словами, перше значення обчислюється за такою формулою

~

 

5 x1 2 x2

1 x3

 

 

x1

 

 

 

 

,

 

 

6

 

 

 

 

 

 

 

 

 

 

а останнє за такою

 

 

 

 

 

 

 

~

1 xn 2

2 xn 1

5 xn

 

xn

 

 

 

 

 

 

.

 

 

6

 

 

 

 

 

 

 

 

 

 

~

 

56x1 47x2 38x3 29x4 20x5 11x6 2x7

7x8

16x9

 

x2

 

 

 

,

180

 

 

 

 

 

 

 

 

 

~

 

в той час як для xn 1

вона матиме такий вигляд

~

 

16xn 8 7xn 7 2xn 6 11xn 5 20xn 4 29xn 3 38xn 2 47xn 1 56xn

xn 1

 

 

 

180

 

 

 

Далі приведені таблиці для перерахунку втрачених рівнів за різних розмірів вікна.

N=9

149

1

2

3

4

5

n-3

n-2

n-1

n

 

 

 

 

 

 

 

 

 

17

56

22

32

1

8

-2

-16

-7

14

47

19

29

1

11

1

-7

-4

11

38

16

26

1

14

4

2

-1

8

29

13

23

1

17

7

11

2

5

20

10

20

1

20

10

20

5

2

11

7

17

1

23

13

29

8

-1

2

4

14

1

26

16

38

11

-4

-7

1

11

1

29

19

47

14

-7

-16

-2

8

1

32

22

56

17

 

 

 

 

 

 

 

 

 

45

180

90

180

9

180

90

180

45

 

 

 

 

 

 

 

 

 

N=11

1

2

3

4

5

6

n-4

n-3

n-2

n-1

n

 

 

 

 

 

 

 

 

 

 

 

7

15

25

10

15

1

5

0

-5

-5

-3

6

13

22

9

14

1

6

1

-2

-3

-2

5

11

19

8

13

1

7

2

1

-1

-1

4

9

16

7

12

1

8

3

4

1

0

3

7

13

6

11

1

9

4

7

3

1

2

5

10

5

10

1

10

5

10

5

2

1

3

7

4

9

1

11

6

13

7

3

0

1

4

3

8

1

12

7

16

9

4

-1

-1

1

2

7

1

13

8

19

11

5

-2

-3

-2

1

6

1

14

9

22

13

6

-3

-5

-5

0

5

1

15

10

25

15

7

 

 

 

 

 

 

 

 

 

 

 

22

55

110

55

110

11

110

55

110

55

22

 

 

 

 

 

 

 

 

 

 

 

N=13

1

2

3

4

5

6

7

n-5

n-4

n-3

n-2

n-1

n

 

 

 

 

 

 

 

 

 

 

 

 

 

25

44

19

32

13

20

1

8

1

-4

-5

-16

-11

22

39

17

29

12

19

1

9

2

-1

-3

-11

-8

19

34

15

26

11

18

1

10

3

2

-1

-6

-5

16

29

13

23

10

17

1

11

4

5

1

-1

-2

13

24

11

20

9

16

1

12

5

8

3

4

1

10

19

9

17

8

15

1

13

6

11

5

9

4

7

14

7

14

7

14

1

14

7

14

7

14

7

4

9

5

11

6

13

1

15

8

17

9

19

10

1

4

3

8

5

12

1

16

9

20

11

24

13

-2

-1

1

5

4

11

1

17

10

23

13

29

16

-5

-6

-1

2

3

10

1

18

11

26

15

34

19

-8

-11

-3

-1

2

9

1

19

12

29

17

39

22

-11

-16

-5

-4

1

8

1

20

13

32

19

44

25

 

 

 

 

 

 

 

 

 

 

 

 

 

91

182

91

182

91

182

13

182

91

182

91

182

91

 

 

 

 

 

 

 

 

 

 

 

 

 

150

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]