Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
POS_APK_agro1.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
2.44 Mб
Скачать

2.3. Властивості простої вибіркової лінійної регресії

Проста вибіркова лінійна регресія, в якій невідомі параметри b0 та b1. визначені за методом найменших квадратів, має багато корисних властивостей.

1. Регресійна пряма проходить через середню точку (це аналогічно тому, що сума помилок дорівнює нулю). Ця властивість була виведена у (2.16).

(2.20)

2. Залишки мають нульову коваріацію зі спостережуваними значеннями х та оціненими значеннями .

Повернемося ще раз до (2.6), з якого випливає:

, тому що ;

, тому що ;

=0 за (2.15).

Змінна є лінійною функцією від х, звідки випливає, що .

3. Сума квадратів залишків є функцією від кута нахилу.

Як уже було виведено у (2.16) та (2.9) (1.6.10), параметри b0 та b1 мають вигляд:

(2.21)

. (2.22)

Введемо позначення (2.23)

тобто та є відхиленнями від середніх значень. Проста лінійна регресія за першою властивістю проходить через середню точку , тому її можна взяти за основу (див. мал. 2.4).

Розглянемо точку А з координатами (хi, уi). Відносно нової осі перша координата дорівнюватиме: друга - .

Друга рівність може бути розкладена таким чином:

(2.24)

дє яка також є відхиленням оціненого значення , від середнього ,

Лінійну регресію та суму квадратів залишків відповідно можна записати у вигляді:

та

(2.25)

Вираз (2.25) показує, що сума квадратів залишків є функцією від кута нахилу b1.

Рис. 2.4. Перенесення осей координат у простій лінійній регресії

2.4. Коефіціенти кореляції та детермінації

2.4.1. Поняття про коефіцієнт кореляції

Після того, як визначені невідомі параметри регресіиної моделі, спробуємо оцінити щільність зв'язку між залежною величиною у і незалежною х. Тобто спробуємо відповісти на запитання, наскільки значним е вплив змінної х на у. Чи є якийсь критерій, який допомагає кількісно оцінити цей вплив? Найпростішим критерієм, який дає кількісну оцінку зв'язку між двома показниками, є коефіцієнт кореляції. Він розраховується за такою формулою:

(2.26)

де cov(x,у) — коефіцієнт коваріації між х та у; var(x) — дисперсія змінної х; var(y) — відповідно дисперсія змінної у.

Як бачимо з виразу (2.26), коефіцієнт кореляції дорівнює відношенню коефіцієнта коваріації до кореня з добутку двох дисперсій. Коефіцієнт кореляції, на відміну від коефіцієнта коваріації, є вже не абсолютною, а відносною мірою зв'язку між двома факторами. Тому значення коефіцієнта кореляцій завжди розташовані, як можна побачити з виразу (2.26), між -1 та +1 (-1rxy1). Позитивне значення коефіцієнта кореляції свідчить про прямий зв'язок між показниками, а негативне — про зворотний зв'язок. Коли коефіцієнт кореляції прямує за абсолютною величиною до 1, це свідчить про наявність сильного зв'язку (r±1 — щільність зв'язку велика); у протилежному випадку, коли коефіцієнт кореляції прямує до нуля (rxy0 ), зв'язку немає.

2.4.2. Декомпозиція дисперсій. Поняття про коефіцієнт детермінації

Поряд з коефіцієнтом кореляції використовується ще один критерій, за допомогою якого також вимірюється щільність зв'язку між двома або більше показниками та перевіряється адекватність (відповідність) побудованої регресійної моделі реальній дійсності. Тобто дається відповідь на запитання, чи справді зміна значення у лінійно залежить саме від зміни значення х, а не відбувається під впливом різних випадкових факторів. Таким критерієм є коефіцієнт детермінації. Перед тим, як розглянути, що саме являє собою коефіцієнт детермінації та як він пов'язаний з коефіцієнтом кореляції, розглянемо питання про декомпозицію дисперсій, яке є одним з центральних у статистиці.

Спочатку спробуємо за допомогою мал. 2.5 уявити, як можна розбити на дві частини відхилення фактичних значень залежної змінної y від значень, що знаходяться на побудованій регресійній прямій (теоретичних значень).

Рис. 2.5. Декомпозиція відхилень фактичних значень від теоретичних

Як бачимо з мал. 2.5, такі відхилення можна записати у вигляді:

(2.27)

Вираз (2.27) перепишемо таким чином:

(2.28)

У статистиці різницю прийнято називати загальним, відхиленням. Різницю називають відхиленням, яке можна пояснити, виходячи з регресійної прямої. Справді, якщо хi змінюється, то можна завжди знайти значення цього відхилення, маючи тільки регресійну пряму, бо завжди залишається незмінною величиною. Різницю називають відхиленням, яке не можна пояснити, виходячи з регресійної прямої, або непояснюваним відхиленням. Справді, якщо а: змінюється, то змінюються обидві величини yi і тому, виходячи тільки з регресійної прямої, неможливо пояснити це відхилення.

Таким чином, якщо уважно розглянути вираз (2.28), то виявиться, що ми розклали загальне відхилення на відхилення , яке не можна пояснити з регресійної лінії, так зване непояснюване відхилення, та на відхилення , яке можна пояснити, виходячи з регресійної лінії.

Піднесемо обидві частини (2.28) до квадрата та підсумуємо за всіма індексами.

Отримаємо:

Перепишемо суму добутку у вигляді:

Після виконання всіх дій отримаємо остаточний вираз:

(2.29)

де - загальна сума квадратів, яка позначається, як правило, через SST; - сума квадратів помилок, яка позначається через SSE; - сума квадратів, що пояснює регресію та позначається через SSR.

Таким чином, вираз (2.29) у скороченому вигляді можна записати:

SST = SSE + SSR.

Поділивши (2.29) на n, отримаємо вираз для дисперсій:

(2.30)

де - загальна дисперсія, яку позначимо ;

- дисперсія помилок, яку позначимо ;

- дисперсія, яку прийнято називати дисперсією, що пояснює регресію, позначимо її .

Таким чином, ми розклали загальну дисперсію на дві частини: дисперсію, що пояснює регресію, та дисперсію помилок (або дисперсію випадкової величини). Умовно це можна записати у вигляді:

(2.31)

Поділимо обидві частини (2.31) на отримаємо:

(2.32)

Як можна побачити з виразу (2.32), перша частина є пропорцією дисперсії помилок у загальній дисперсії, тобто являє собою частину дисперсії, яку не можна пояснити через регресійний зв'язок. Друга частина е складовою дисперсії, яку можна пояснити через регресійну лінію.

Частина дисперсії, що пояснює регресію, називається коефіцієнтом детермінації і позначається R2. Коефіцієнт детермінації використовується як критерій адекватності моделі, бо є мірою пояснювальної сили незалежної змінної х.

Таким чином, коефіцієнт детермінації можна записати у вигляді двох еквівалентних виразів:

(2.33)

або

(2.34)

З (2.32) випливає, що коефіцієнт детермінації завжди позитивний і перебуває у межах від нуля до одиниці (0R21)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]