
- •Автономная некоммерческая организация
- •Учебно - методическая разработка
- •1. Иванова в.М., Калинина в.Н., Нешумова л.А., Решетникова и.О. Математическая статистика. 2-е изд., перераб. И доп. – м.: Высш. Школа, 1981. – 371 с., ил. Стр 224-286. Текст лекции
- •1. Корреляционный анализ
- •1.1. О связях функциональных и статистических
- •1.2. Определение формы связи. Понятие регрессии
- •1.3. Основные положения корреляционного анализа
- •1.4. Свойства коэффициента корреляции
- •1.5. Поле корреляции. Вычисление оценок параметров двумерной модели
- •1.6. Проверка гипотезы о значимости коэффициента корреляции
- •1.7. Корреляционное отношение
- •1.8. Понятие о многомерном корреляционном анализе
- •1.9. Ранговая корреляция
- •2. Регрессионный анализ
- •2.1. Основные положения регрессионного анализа
- •2.2. Линейная регрессия
- •2.3. Нелинейная регрессия
- •2.4. Оценка значимости коэффициентов регрессии. Интервальная оценка коэффициентов регрессии
- •2.5. Интервальная оценка для условного математического ожидания
- •2.6. Проверка значимости уравнения регрессии
- •2.7. Многомерный регрессионный анализ
- •2.8. Факторный анализ
- •Приложения
- •Функция Лапласа
- •Слайды для проведения занятия
- •Задание на самостоятельную работу
2. Регрессионный анализ
2.1. Основные положения регрессионного анализа
Основная задача регрессионного анализа — изучение зависимости между результативным признаком Y и наблюдавшимся признаком Х, оценка функции регрессий.
Предпосылки регрессионного анализа:
1) Y — независимые случайные величины, имеющие постоянную дисперсию;
2) X — величины наблюдаемого признака (величины не случайные);
3) условное математическое ожидание М(Y |Х=х) можно представить в виде
(2.1)
Выражение (2.1), как
уже упоминалось в п. 1.2, называется
функцией регрессии (или модельным
уравнением регрессии) Y
на X.
Оценке в этом выражении подлежат
параметры
и
,
называемые коэффициентами регрессии,
а также
—
остаточная дисперсия.
Остаточной дисперсией называется та часть рассеивания результативного признака, которую нельзя объяснить действием наблюдаемого признака; Остаточная дисперсия может служить для оценки точности подбора вида функции регрессии (модельного уравнения регрессии), полноты набора признаков, включенных в анализ. Оценки параметров функции регрессии находят, используя метод наименьших квадратов.
В данном вопросе
рассмотрен линейный регрессионный
анализ. Линейным он называется потому,
что изучаем лишь те виды зависимостей
,
которые линейны по оцениваемым параметрам,
хотя могут быть нелинейны по переменнымX.
Например, зависимости
линейны относительно параметров
,
,
хотя вторая и третья зависимости
нелинейны относительно переменныхх.
Вид зависимости
выбирают, исходя из визуальной оценки
характера расположения точек на поле
корреляции; опыта предыдущих исследований;
соображений профессионального характера,
основанных и знании физической сущности
процесса.
Важное место в линейном регрессионном анализе занимает так называемая «нормальная регрессия». Она имеет место, если сделать предположения относительно закона распределения случайной величины Y. Предпосылки «нормальной регрессии»:
1) Y — независимые случайные величины, имеющие постоянную дисперсию и распределенные по нормальному закону;
2) X — величины наблюдаемого признака (величины не случайные);
3) условное математическое ожидание M(Y\X=x) можно представить в виде (2.1).
В этом случае оценки коэффициентов регрессии — несмещённые с минимальной дисперсией и нормальным законом распределения. Из этого положения следует что при «нормальной регрессии» имеется возможность оценить значимость оценок коэффициентов регрессии, а также построить доверительный интервал для коэффициентов регрессии и условного математического ожидания M(Y\X=x).
2.2. Линейная регрессия
Рассмотрим
простейший случай регрессионного
анализа — модель вида (2.1), когда
зависимость
линейна и
по оцениваемым параметрам, и по переменным.
Оценки параметров модели (2.1)
и
обозначил
и
.
Оценку остаточной дисперсии
обозначим
.
Подставив в формулу (2.1) вместо параметров
их оценки, получим уравнение регрессии
,
коэффициенты которого
и
находят из условия минимума суммы
квадратов отклонений измеренных значений
результативного признака
от вычисленных по уравнению регрессии
или
Составим систему нормальных уравнений: первое уравнение
откуда
второе уравнение
откуда
Итак,
(2.2)
Оценки, полученные
по способу наименьших квадратов, обладают
минимальной дисперсией в классе линейных
оценок. Решая систему (2.2) относительно
и
найдём
оценки параметров
и
:
(2.3)
(2.4)
Остаётся получить
оценку параметра
.
Имеем
(2.5)
где п — количество наблюдений.
Если п
велико, то для упрощения расчётов
наблюдавшиеся данные принята группировать,
т.е. строить корреляционную таблицу.
Пример построения такой таблицы приведен
в п. 1.5. Формулы для нахождения коэффициентов
регрессии по сгруппированным данным
те же, что и для расчёта по несгруппированным
данным, но суммы
заменяют на
где
— частоты
повторений соответствующих значений
переменных. В дальнейшем часто используется
этот наглядный приём вычислений.