Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
l4.sqvr.docx
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
506.04 Кб
Скачать

3.2. Корреляционная зависимость: Линии регрессии.

Допустим, что существует стохастическая зависимость случайной переменной Y от Х. Зафиксируем некоторое значение х переменной Х. Переменная Y, в силу ее случайной зависимости от Х, может принять любое значение из некоторого множества, причем какое именно – заранее не известно. Поэтому, прежде всего, стараются выяснить, изменяется или нет при изменении Х математическое ожидание Y.

X

Если при изменении X математические ожидания М(Y) изменяются, то говорят, что имеет место корреляционная1 зависимость величины Y от Х.

Примерами корреляционных зависимостей являются рассмотренная выше статистическая зависимость между дозой лекарственного препарата и его содержанием в крови, зависимость между ростом человека и его массой, порядковым номером рождения и мотивацией достижений.

Интересно, существует ли корреляционная зависимость между массой человека и его IQ?

Функция же f(х)=М(Y), описывающая изменение математического ожидания случайной переменной Y при изменении значений переменной Х, называется функцией регрессии Y на Х, а ее график – линией регрессии.

Термин «регрессия» ввёл в математическую статистику Френсис Гальтон. Гальтон был двоюродным братом Чарльза Дарвина по их деду — Эразмусу (Эразму) Дарвину. Семья Гальтон была известной и весьма успешной в сфере изготовления оружия и банкирском деле, в то время как Дарвины отличались в медицине и науке. После выхода книги Происхождение видов своего двоюродного брата Чарльза Дарвина Френсис Гальтон стал биологом. В 1869 вышла книга «Наследственный гений» — венец научной работы Гальтона (В книге проанализирован обширный материал по «выдающимся людям». В рассуждениях он подошел к пониманию феномена нормального распределения признаков в человеческой популяции).

Сэр Фрэнсис Гальтон (англ. Francis Galton; 16 февраля 182217 января 1911) — английский исследователь, географ, антрополог и психолог; основатель дифференциальной психологии и психометрики.

Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему. Гальтон показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции.

Если f(х) – линейная функция, то корреляционную зависимость можно описать с помощью уравнения вида

М(Y/х) =Bх+A, (2)

где А и В – некоторые параметры, а М(Y/х) – условное математическое ожидание наблюдавшихся значений Y, соответствующих Х=х.

Пусть в нашем распоряжении имеется лишь выборка ограниченного объема. Поэтому в этом случае речь может идти об оценке (приближенном выражении) функции регрессии.

В качестве оценок математических ожиданий принимают условные средние, которые находят по данным наблюдений (по выборке). Условным средним ух называют среднее арифметическое наблюдавшихся значений Y, соответствующих Х=х.

Условное математическое ожидание М(Y/х) является функцией от х, следовательно, его оценка, т.е. условное среднее ух, также функция от х; обозначив эту функцию через φ (х), получим уравнение ух = φ(х). Это уравнение называют выборочным уравнением регрессии; функцию φ (х) называют выборочной регрессией, а ее график – выборочной линией регрессии.

Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели. Если функция φ(х) линейная, то выборочное уравнение линейной регрессии Y на Х имеет вид:

yx=𝞺xy x + a (по аналогии с уравнением (2)),

где 𝞺xyвыборочный коэффициент линейной регрессии Y на X, . yxусловное среднее значение y для соответствующих Х=х.

Попробуем провести линию регрессии через облако точек на диаграмме рассеяния.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]