Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
методичні вказівки до виконання лабораторних ро....doc
Скачиваний:
24
Добавлен:
23.11.2018
Размер:
8.3 Mб
Скачать

4.5. Розв‘язок статистичних завдань за допомогою пакету аналізу даних

До складу Microsoft Excel входить набір засобів аналізу даних (так званий пакет аналізу), призначений для розв’язку складних статистичних і інженерних завдань. Для аналізу даних за допомогою цих інструментів слід вказати вхідні дані і вибрати параметри; аналіз буде виконаний за допомогою відповідної статистичної або інженерної макрофункції, а результат буде поміщений у вихідний діапазон. Інші засоби дозволяють представити результати аналізу в графічному вигляді.

Інші функції. У Microsoft Excel представлено велике число статистичних, фінансових і інженерних функцій. Деякі з них є вбудованими, інші доступні тільки після установки пакету аналізу.

Звернення до засобів аналізу даних. Засоби, які включені в пакет аналізу даних, описані нижчим. Вони доступні через команду Аналіз даних меню Сервіс. Якщо цієї команди немає в меню, необхідно завантажити надбудову Пакет аналізу.

Лінійний регресійний аналіз полягає в підборі графіка для набору спостережень за допомогою методу найменших квадратів. Регресія використовується для аналізу дії на окрему залежну змінну значень одній або більш незалежних змінних.

Наприклад, на спортивні якості атлета впливають декілька чинників, включаючи вік, зріст і вагу. Регресія пропорційно розподіляє міру якості по цих трьом чинникам на основі його спортивних результатів. Результати регресії згодом можуть бути використані для прогнозу якостей нового, неперевіреного атлета.

Регресійний аналіз

При дослідженні взаємозв'язків між вибірками окрім кореляції розрізняють також і регресію. Регресія використовується для аналізу дії на окрему залежну змінну значень одній або більш незалежних змінних. Відповідно, разом з кореляційним аналізом ще одним інструментом вивчення стохастичних залежностей є регресійний аналіз.

Регресійний аналіз встановлює форми залежності між випадковою величиною У (залежною) і значеннями однієї або декількох змінних величин (незалежних), причому значення останніх вважаються за точно заданих. Така залежність зазвичай визначається деякою математичною моделлю (рівнянням регресії), що містить декілька невідомих параметрів. В ході регресійного аналізу на підставі вибіркових даних знаходять оцінки цих параметрів, визначаються статистичні помилки оцінок або межі довірчих інтервалів і перевіряється відповідність (адекватність) прийнятій математичній моделі експериментальним даним.

В лінійному регресійному аналізі зв'язок між випадковими величинами передбачається лінійним. В найпростішому випадку в лінійній регресійній моделі є дві змінні X та Y. Необхідно по n парам спостережень (X1, У1), (Х2 У2), ...,(Хn Уn) побудувати пряму лінію, яка називається лінією регресії, що "найкращім чином" наближає спостерігаємі значення. Рівняння цієї лінії y=ax+b є регресійним рівнянням. За допомогою регресивного рівняння можно передбачити очикуєме значення залежної величини y0, яка відповідає заданому значенню незалежної змінної x0.

Таким чином, можна сказати, що лінійний регресійний аналіз полягає в підборі графіка і його рівняння для набору спостережень.

У регресійному аналізі всі ознаки (змінні), що входять в рівняння, повинні мати безперервну, а не дискретну природу.

У разі, коли розглядається залежність між однією залежною змінною Y кількома незалежними X1, Х2, ..., Хn говорять про множинну лінійну регресії. В цьому випадку регресійне рівняння має вигляд:

Y =a0 + a1 X1 + a2 Х2 + ...+an Хn,

де a1, a2,...,an – коефіцієнти, які потрібно знайти при незалежних змінних X1, Х2, ..., Хn ; a0 – константа.

Мірою ефективності регресійної моделі є коефіцієнт детермінації R2(R-квадрат). Коефіцієнт детермінації (R-квадрат) визначає, з яким ступенем точності отримане регресійне рівняння описує (апроксимує) початкові дані.

Досліджується також значущість регресійної моделі за допомогою F-критерія (Фішера). Якщо величина F-критерія значуща < 0,.05), то регресійна модель є значущою.

Достовірність відмінності коефіцієнтів a0,a1, a2,...,an від нуля перевіряється за допомогою критерію Стьюдента. У випадках, коли р > 0,05, коефіцієнт може вважатися за нульовий, а це означає, що вплив відповідної незалежної змінної на залежну змінну недостовірно, і ця незалежна змінна може бути виключена з рівняння.

У MS Excel експериментальні дані апроксимуються лінійним рівнянням до 16 порядку:

Y =a0 +a1X1 +a2Х2 + ...+a16 Х16,

де Y—залежна змінна на, X1, Х2, ..., Хn— незалежні змінні, a0, a1, a2,...,an —шукані коефіцієнти регресії.

Для отримання коефіцієнтів регресії використовується процедура Регресія з пакету аналізу. Крім того, можуть бути використані функція ЛИНЕЙН для отримання параметрів регресійного рівняння і функція ТЕНДЕНЦИЯ для отримання передбачених значень Y в необхідних точках.

Для реалізації процедури Регресія необхідно:

  • виконати команду Сервіс → Аналіз даних;

  • вибрати рядок Регресія;

Рисунок 4.8. Інструменти пакету аналізу даних (Сервіс→Аналіз даних)

Рисунок 4.9. Параметри інструменту регресійного аналізу

  • в діалоговому вікні, що з'явилося, задати Вхідний інтервал Y, тобто ввести посилання на діапазон аналізованих залежних даних, що містить один стовпець даних. Для цього слід навести курсор миші на верхню комірку стовпця залежних даних, натиснути ліву кнопку миші і, не відпускаючи її, протягнути курсор миші до нижньої комірки, що містить аналізовані дані, потім відпустити ліву кнопку миші;

  • вказати Вхідний інтервал X, тобто ввести посилання на діапазон незалежних даних, що містить до 16 стовпців аналізованих даних. Для цього слід навести курсор миші на полі введення Вхідний інтервал X і натиснути лівою кнопкою миші, потім навести курсор миші на верхню ліву комірку діапазону незалежних даних, натиснути ліву кнопку миші і, не відпускаючи її, протягнутий курсор миші до нижньої правої комірки, що містить аналізовані дані, потім відпустити ліву кнопку миші;

  • вказати вихідний діапазон, тобто ввести посилання на комірки, в які будуть виведені результати аналізу. Для цього слід поставити перемикач в положення Вихідний інтервал (навести курсор миші і натиснути лівою кнопкою), далі навести курсор миші на праве поле введення «Выходной интервал» і натиснути лівою кнопкою миші, потім курсор миші навести на ліву верхню комірку вихідного діапазону і натиснути лівою кнопкою миші. Розмір вихідного діапазону буде визначений автоматично, і на екран буде виведено повідомлення у разі можливого накладення вихідного діапазону на початкові дані;

  • якщо необхідно візуально перевірити відмінність експериментальних точок від передбачених по регресійній моделі, слід встановити прапорець в полі Графік підбору;

  • натиснути кнопку ОК.

Результати аналізу. Вихідний діапазон включатиме результати дисперсійного аналізу, коефіцієнти регресії, стандартну погрішність обчислення У, середньоквадратичні відхилення, число спостережень, стандартні погрішності для коефіцієнтів.

Інтерпретація результатів. Значення коефіцієнтів регресії знаходяться в стовпці Коефіцієнти і відповідають:

  • Y-перетин — а0;

  • змінна Х1а1;

  • змінна X2 — а2 і так далі

У стовпчику Р-значення приводиться достовірність відмінності відповідних коефіцієнтів від нуля. У випадках, коли Р> 0.05, коефіцієнт може вважатися за нульовий, що означає, що відповідна незалежна змінна практично не впливає на залежну змінну.

Якщо R-квадрат > 0,95, говорять про високу точність апроксимації (модель добре описує явище). Якщо R-квадрат лежить в діапазоні від 0,8 до 0,95, говорять про задовільну апроксимацію (модель в цілому адекватна описуваному явищу). Якщо R-квадрат < 0,6, прийнято вважати, що точність апроксимації недостатня і модель вимагає поліпшення введення нових незалежних змінних, врахування нелінійності і т. п.

Приклад. У відділі постачання готелю є інформація про зміну вартості прального порошку за тривалий період часу. Зіставляючи його із змінами курсу долара за цей же період часу, можна побудувати регресійного рівняння Нижче приведені вартість пачки прального порошку (у грн.) і відповідний курс долара (грн./USD).

Пральний порошок

Курс

1

5

6,3

2

7

9

3

9

12

4

12

15

5

15

19

6

16

21

7

20

25

8

25

29,3

Необхідно на підставі цих даних побудувати регресійне рівняння, що дозволяє по курсу долара визначати передбачувану вартість пачки прального порошку.

Розв’язок

  1. Введіть дані в робочу таблицю: вартість пачки порошку — в діапазон А1:А8; курс долара в діапазон В1:В8 (відмітимо, що знаку коми, що відокремлює цілу частину від дробової, відповідає «кома»).

  2. У пункті меню Сервис виберіть рядок Анализ данных і далі вкажіть курсором миші на рядок Регресія.

  3. У діалоговому вікні, що з'явилося, задайте Входной интервал Y. Для цього наведіть курсор миші на верхню комірку стовпця залежних даних (А1), натисніть ліву кнопку миші і, не відпускаючи її, протягніть курсор миші до нижньої комірки (А8), потім відпустить ліву кнопку миші. (Зверніть увагу, що залежні дані — це ті дані, які передбачається обчислювати.)

  4. Так само вкажіть Входной интервал X, тобто введіть посилання на діапазон незалежних даних В1:В8. (Незалежні дані — це ті дані, які вимірюватимуться або спостерігатимуться.)

  5. Встановить прапорець в полі Графік підбору.

  6. Далі вкажіть вихідний діапазон. Для цього поставте перемикач в положення Вихідний інтервал (наведіть курсор миші і натисніть лівою кнопкою), потім наведіть курсор миші на праве поле введення Выходной интервал і натиснувши лівою кнопкою миші, курсор миші наведіть на ліву верхню комірку вихідного діапазону (С1). Натисніть лівою кнопкою миші. Натисніть кнопку ОК.

Результати аналізу. У вихідному діапазоні з'являться наступні результати і графік підбору.

Інтерпретація результатів. У таблиці Дисперсійний аналіз оцінюється загальна якість отриманої моделі: її достовірність по рівню значущості критерію Фішера— р, який має бути менше, ніж 0,05 (рядок Регресія, стовпець Значимість, в прикладі - 1.58Е-07 (0,000000158), тобто р= 0.000000158 і модель значуща) і ступінь точності опису моделлю процесу - R-квадрат (другий рядок зверху в таблиці Регресійна статистика, в прикладі R-квадрат = 0,992). Оскільки R-квадрат > 0,95, можна говорити про високу точність апроксимації (модель добре описує явище).

Далі необхідно визначити значення коефіцієнтів моделі. Вони визначаються з таблиці в стовпці Коефіцієнти - в рядку Y-перетини приводиться вільний член; у рядках відповідних змінних приводяться значення коефіцієнтів при цих змінних. У стовпці р-значення приводиться достовірність відмінності відповідних коефіцієнтів від нуля У випадках, коли р > 0,05, коефіцієнт може вважатися за нульовий. Це означає, що відповідна незалежна змінна практично не впливає на залежну змінну і коефіцієнт може бути прибраний з рівняння.

Звідси вираз для визначення вартості пачки порошку в рублях матиме наступний вигляд: -0,83 + 0,847*(Курс долара, руб./USD).

Отримана модель з високою точністю дозволяє визначати вартість пачки прального порошку (R2=99,2%).

Скориставшись отриманим рівнянням, можна розрахувати очікувану вартість пачки прального порошку при змінах курсу долара. Наприклад, для розрахунку при курсі долара 35 руб./USD необхідно поставити табличний курсор в будь-яку вільну комірку (А10); ввести з клавіатури знак =, натиснути курсором миші але комірку D17, ввести з клавіатури знак +, натиснути на комірці D18, ввести з клавіатури знак * і число 35. В результаті в комірці А10 буде отримана очікувана вартість пачки порошку - 28,8 грн.