Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Черняк O.І., Обушна O.М., Ставицький A.В. Збірн...doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
5.35 Mб
Скачать

Розділ 19. Лінійна регресія

Нехай ми маємо теоретичну залежність між величинами x та y у вигляді:

де — деяка функція. Проте в експерименті внаслідок можливих похибок вимірювань або невизначеностей у самому об’єкті в точці спостерігається величина

де — деякі випадкові величини.

Треба за спостереженнями пар зробити статистичні висновки щодо функції .

Регресія. Нехай та — дві випадкові величини (залежні у загальному випадку), і ми хочемо знайти найкраще в деякому розумінні наближення величини деякою функцією g() від величини .

Під найкращим наближенням будемо розуміти наближення в середньому квадратичному.

Означення. Величина g() називається найліпшим наближенням величини в середньому квадратичному, якщо

Функція g() є середньоквадратичною регресією величини на величину . Часто функцію називають кореляційною залежністю випадкових величин та або функцією регресії випадкової величини відносно . Звичайно регресію шукають у якомусь конкретному класі функцій і мінімум береться за функціями з цього класу.

Лінійна регресія. Розглянемо регресію в класі лінійних функцій, тобто припустимо, що

де і — невідомі параметри.

Введемо такі позначення:

тобто —коефіцієнт кореляції.

Лінійна середньоквадратична регресія величини на величину має вигляд:

Повернемося тепер до сформульованої на початку задачі про найліпше визначення функції Будемо вважати, що функція належить деякій параметричній сукупності функцій і ми маємо спостереження

Означення. Оцінкою невідомих параметрів за методом найменших квадратів буде вектор , при якому досягається мінімум функції:

а функція буде найліпшим середньоквадратичним наближенням, що відновлює залежність між x та y за результатами наших спостережень.

Якщо функція диференційована за аргументами , для знаходження величин одержимо систему рівнянь:

Розглянемо важливий випадок, коли функція має вигляд

де k і b — невідомі параметри. У цьому випадку оцінками параметрів лінійної регресії будуть числа та , при яких функція досягає мінімуму.

Тоді

де

У випадку поліноміальної регресії

оцінки невідомих параметрів знаходяться з системи лінійних алгебраїчних рівнянь

де

Якщо значення відомі без похибок, а значення незалежні та рівноточні, то оцінка дисперсії (похибка вимірювань) величини визначається за формулою:

де

Оцінки дисперсій коефіцієнтів визначаються за формулами:

де — визначник системи, а — алгебраїчне доповнення до елемента, який стоїть на діагоналі й має індекс k у визначнику У випадку лінійної регресії

Якщо величини мають нормальний розподіл, то для коефіцієнтів справеджуються такі надійні інтервали:

де — оцінки, отримані методом найменших квадратів, а число знаходиться за таблицею розподілу Стьюдента (таблиця 6 додатка) при числі степенів свободи і

Вибірковий коефіцієнт кореляції визначається за формулою:

У деяких випадках функція яка не є многочленом, може бути зведена до нього заміною змінних. Приклади такої заміни наведено в таблиці.

Початкова функція

До якого вигляду приводиться

Заміна змінної

1.

2.

3.

4.

Коефіцієнт кореляції рангів. У деяких випадках натрапляємо на ознаки, які не піддаються кількісним оцінкам. Тоді кожній оцінці можна поставити у відповідність порядковий номер, який назвемо рангом. Нехай n осіб за якістю A мають ранги а за якістю B , де всі X та Y є перестановками n перших чисел натурального ряду. — різниця рангів.

Тоді коефіцієнт кореляції рангів Спірмена, або коефіцієнт щільності зв’язку між A та B, визначається за формулою:

Є й і інші показники щільності зв’язку між рангами. Якщо не можна визначити рангову відмінність декількох осіб, то беруть середній ранг. У цьому випадку використовують коефіцієнт кореляції рангів Кендела:

де — число об’єднаних рангів для X та Y.