Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
тема 6. Аналіз даних у списку за допомогою звед...doc
Скачиваний:
13
Добавлен:
03.09.2019
Размер:
4.39 Mб
Скачать

6.19.3 Прогнозування за допомогою статистичних функцій

Для здійснення прогнозу за допомогою статистичних функцій Місгоsoft Ехсеl, застосовують регресивний аналіз. Термін регресія на відміну від загальноприйнятого в повсякденному житті поняття руху назад, деградації, в статистиці використовується для прогнозування майбутнього.

Регресія – це статистичний метод, який дозволяє знайти рівняння, яке найкращим чином описує множину даних, тобто це вид статистичного аналізу, який дозволяє оцінити міру залежності між змінними, пропонуючи механізм обчислення передбачуваного значення змінної з декількох уже обчислених значень. Іншими словами, на основі статистичної вибірки відомих значень функції Y та аргументів х, можна спрогнозувати поведінку функції шляхом підстановки нових значень аргументів.

При обробці статистичної вибірки використовуються:

  • лінійна регресія визначає пряму, котра найкращим чином представляє множину даних;

  • експоненціальна регресія визначає експоненціальну криву, яка найкращим чином представляє множину даних, для яких передбачається нелінійна залежність;

  • багатомірна (множинна) регресія використовується для аналізу декількох множин даних.

Наведене нижче рівняння, математично описує пряму лінію для множини даних з однією незалежною змінною:

y=mx+b, (6.1)

де x – незалежна змінна,

y – залежна змінна;

m – нахил прямої лінії;

b – константа (вільний член, y - перетинання).

При багатомірному регресивному аналізу лінія регресії представляє вклад ряду незалежних змінних в очікуваний результат. Рівняння лінії регресії у цьому випадку має наступний вигляд:

y=m1x1+ m2x2+...+ mnxn+b, (6.2)

де x1 ,... xn – це n незалежних змінних,

y – залежна змінна;

m1 ... mn – коефіцієнти при незалежних змінних;

b – вільний член.

Функція ЛИНЕЙН. Застосовуючи метод найменших квадратів функція ЛИНЕЙН використовує рівняння:

y=m1x1+ m2x2+...+ mnxn+b,

і розраховує статистику для ряду (коефіцієнти m1 ... mn та b для заданих множин відомих значень y і кожної незалежної змінної) для того, щоб розрахувати пряму лінію, яка найкращим чином апроксимує наявні дані. Ця функція має наступний синтаксис:

=ЛИНЕЙН(відомі_значення_Y;відомi_значення_X;конст;статистика)

Аргумент відомі_значення_Y – це множина відомих значень залежної змінної Y, для відповідного співвідношення (10.2). Цей аргумент може бути одним стовпцем, одним рядком або прямокутним діапазоном комірок. Якщо аргумент відомі_значення_Y складається з одного стовпця або з одного рядка, то відповідно кожний стовпець або рядок в аргументі відомi_значення_X розглядається як незалежна змінна.

Якщо аргумент відомі_значення_Y є прямокутним діапазоном, то в рівнянні використовується тільки одна незалежна змінна. В цьому випадку аргумент відомi_значення_X повинний бути прямокутним діапазоном також розміру і форми як і аргумент відомі_значення_Y.

Відомi_значення_X - необов’язкова множина значень Х, які вже відомі для співвідношення (6.2).

Якщо відомi_значення_X відсутні, Excel використовує послідовність 1,2,3... такого ж розміру, як і відомі_значення_Y.

Конст – логічне значення, яке вказує, потрібно чи ні щоб константа b дорівнювала 0. Якщо конст має значення ИСТИНА або відсутня, то b обчислюється звичайним чином. Якщо аргумент конст має значення ЛОЖЬ, то b покладається рівною 0 і значення m підбираються таким чином, щоб виконувалось співвідношення y=mx.

Статистика – логічне значення, яке вказує, чи потрібно повернути додаткову статистику по регресії. Якщо аргумент статистика має значення ИСТИНА, то функція ЛИНЕЙН повертає додаткову регресійну статистику таким чином, що повернутий масив буде мати вид:

mn,; mn-1; ...; m1; b; sen; sen-1; ... se1; seb; r2; sey; F; df; ssreg; ssresid.

se1...sen

Стандартні значення для помилок для кожного коефіцієнта m1 ... mn

seb

Стандартне значення помилки для вільного члену b

r2

Коефіцієнт детермінації. Порівнюються фактичне значення Y і значення, яке отримується з рівняння прямої. По результатам порівняння розраховується коефіцієнт детермінації, нормований від 0 до 1. Якщо він дорівнює 1, то має місце повна кореляція з моделлю, тобто відсутні розбіжності між фактичним і оціночним значеннями Y . В протилежному випадку, якщо коефіцієнт детермінованості дорівнює 0, рівняння регресії є невдалим для прогнозування значень Y

sey

Стандартна помилка для Y

F

F – критерій. Використовується для визначення того, чи є зв’язок між залежною і незалежною змінними випадковим чи ні.

df

Ступінь свободи. Використовується для знаходження F - критичних значень в статистичній таблиці. Для визначення рівня надійності моделі потрібно порівняти значення в таблиці з F – статистикою, яка повертається функцією ЛИНЕЙН.

ssreg

Сума квадратів регресії

ssresid

Остаточна сума квадратів

Перед створенням формули, яка використовує функцію ЛИНЕЙН, обов’язково необхідно виділити діапазон, достатній для розміщення значень, що будуть повернені функцією.

Якщо аргумент статистика відсутній (або для нього явно задано значення ЛОЖЬ), то масив який повертається функцією, містить по одній комірці для кожної незалежної змінної і одну комірку для b. Якщо для цього аргументу задано значення ИСТИНА, то масив який повертається функцією буде мати наступну структуру:

mn

mn-1

...

m2

m1

b

sen

sen-1

...

se2

se1

seb

r2

sey

F

df

ssreg

ssresid


Після виділення вихідного діапазону, потрібно ввести з клавіатури функцію і натиснути клавіші <Ctrl+Shift+Enter>, щоб занести її в комірку масиву який повертається.

Отримані при прогнозуванні зна­чення коефіцієнтів підставляються у рівняння множинної ліній­ної регресії і отримується значення Y.

Примітка. Зверніть увагу, що коефіцієнти і значення стандартних помилок для незалежних змінних коефіцієнтів повертаються у зворотному порядку.

Функція ТЕНДЕНЦИЯ. На відміну від функції ЛИНЕЙН, яка повертає (здійснює) математичний опис прямої лінії, функція ТЕНДЕНЦИЯ апроксимує відомі дані за методом найменших квадратів і надає можливість визначити точки, які лежать на цій лінії. Масив чисел, який повертається функцією ТЕНДЕНЦИЯ, можна використовувати для побудови лінії тренда – прямої лінії, яка допомагає зрозуміти поведінку фактичних даних. Крім того, ця функція дозволяє екстраполювати дані, тобто побудувати прогноз майбутніх значень на основі тенденції, виявленої на основі наявних даних.

Примітка. При апроксимації функцією ТЕНДЕНЦІЯ наявних даних, вона дозволяє здійснювати прогноз майбутніх значень, але вона нічого не каже про те, наскільки цей прогноз адекватний, тобто наскільки достовірно ця лінія прогнозує майбутні значення.

Ця функція має наступний синтаксис:

=ТЕНДЕНЦИЯ((відомі_значення_Y;відомi_значення_X;нові_значення Х;конст)

Аргумент відомі_значення_Y – це множина відомих значень залежної змінної Y, для відповідного співвідношення (6.2).

Відомi_значення_X - необов’язкова множина значень Х, які вже відомі для співвідношення (6.2).

Якщо відомi_значення_X відсутні, Excel використовує послідовність 1,2,3... такого ж розміру, як і відомі_значення_Y.

Нові_значення_Х – нові значення х, для яких функція повертає (розраховує) відповідні значення у. Якщо нові_значення_х відсутні, то вважається, що вони співпадають з аргументом відомі_значення_х.

Конст – логічне значення, яке вказує, потрібно чи ні, щоб константа b дорівнювала 0. Якщо конст має значення ИСТИНА або відсутня, то b обчислюється звичайним чином. Якщо аргумент конст має значення ЛОЖЬ, то b покладається рівною 0 і значення m підбираються таким чином, щоб виконувалось співвідношення y=mx.