Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СМ-Сокр.doc
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
1.16 Mб
Скачать

6.3 Вопросы для самоконтроля

  1. Назовите основные задачи статистического исследования зависимостей.

  2. Что представляет собой функция регрессии случайной величины Y на случайную величину X?

  3. Дайте определение квадрата корреляционного отношения.

  4. Для каких случайных величин квадрат корреляционного отношения совпадает с квадратом коэффициента корреляции?

  5. Что такое “корреляционное поле”?

  6. Как по имеющимся данным рассчитать коэффициент корреляции между двумя случайными величинами?

  7. Как построить доверительный интервал для коэффициента корреляции?

  8. Как проверить значимость коэффициента корреляции?

  9. Какими данными следует располагать, чтобы можно было дать оценку корреляционному отношению?

  10. Что такое частный коэффициент корреляции? В чём его отличие от парного коэффициента корреляции?

Тема 7. Регрессионный анализ

В результате изучения данной темы студент должен иметь представление:

  • о задачах регрессионного анализа;

знать:

  • сущность регрессионного анализа;

и уметь использовать:

  • методы анализа регрессионных моделей.

7.1 Методические рекомендации по изучению данной темы

Сначала ознакомьтесь с основными теоретическими сведениями приведенными выше. Затем тщательно изучите материал, изложенный в главе 8 учебного пособия. Если после изучения учебного пособия вам остались непонятны некоторые вопросы, обратитесь к рекомендуемой литературе. Затем ответьте на вопросы для самоконтроля. Проведите регрессионный анализ для данных представленных в задании 10 контрольной роботы.

7.2 Основные теоретические сведения

Задачи регрессионного анализа

После обнаружения статистических связей между случайными переменными методами корреляционного анализа приступают к математическому описанию интересующих зависимостей. Для этого необходимо:

  1. подобрать класс функций, в котором целесообразно искать наилучшую (в определенном смысле) аппроксимацию интересующей зависимости;

  2. найти оценки неизвестных параметров, входящих в уравнение искомой зависимости;

  3. установить адекватность полученного уравнения искомой зависимости.

Функция регрессии

Функцией регрессии (или регрессией) называется зависимость математического ожидания одной случайной величины от значения, принимаемого другой случайной величиной, образующей с первой двумерную систему случайных величин.

Так функция регрессии Y на X

,

а функция регрессии X на Y

.

Для полного определения функции регрессии необходимо знать условное распределение выходной переменной при фиксированных значениях входной переменной. Поскольку в реальной ситуации такой информацией не располагают, то обычно ограничиваются поиском подходящей аппроксимирующей функции для f(x), основываясь на статистических данных вида (xi,yi), i = 1, …, n. Эти данные являются результатом n независимых наблюдений y1, …, yn случайной величины Y при значениях входной переменной x1, …, xn, т. е. результатом специально организованного эксперимента. В регрессионном анализе предполагается, что значения входной переменной задаются точно.

Говоря о подходящей аппроксимации функции f(x), т.е. модели регрессии, нужно, во-первых задать класс допустимых моделей регрессии, т.е. класс функций, среди которых следует искать наилучшую аппроксимирующую функцию, и во-вторых, выбрать метод, с помощью которого будет находиться наилучшая аппроксимирующая функция из заданного класса. Одним из таких методов является метод наименьших квадратов.

Простая линейная регрессия (общий случай)

Пусть на основании результатов корреляционного анализа было установлено, что между случайными величинами X и Y имеется значимая линейная зависимость. В результате проведенного эксперимента при фиксированных значениях величины X были определены соответствующие значения случайной величины Y. Тогда модель регрессии, называемую простой (одномерной, парной) линейной моделью, можно представить в виде

, i = 1, …, n,

где εi – некоррелированные между собой ошибки, имеющие нулевые математические ожидания и одинаковые дисперсии σ2, a и b – постоянные коэффициенты, которые необходимо оценить по измеренным значениям отклика yi.

Воспользуемся методом наименьших квадратов, которым оценки параметров a и b находят из условия минимизации суммы квадратов отклонений значений yi по вертикали от “истинной” линии регрессии:

.

Для минимизации D следует приравнять к нулю частные производные по a и b. В результате получится система двух уравнений, решение которых дает оценки параметров:

,

.

Эмпирическое уравнение регрессионной прямой X на Y можно записать в виде

.

Несмещенная оценка дисперсии σ2 отклонений от линии регрессии дается выражением

.

Величину s02 часто называют остаточной дисперсией.

Проверка значимости линии регрессии

Полученная оценка b  0 может быть реализацией случайной величины, математическое ожидание которой равно нулю, т.е. может оказаться, что на самом деле никакой регрессионной зависимости нет. Для этого следует проверить гипотезу H0: b = 0 против H1: b  0.

Проверку значимости линии регрессии можно провести с помощью дисперсионного анализа, основанного на следующем тождестве:

.

Величина

 – сумма квадратов отклонений наблюдений относительно среднего значения наблюдений, ее называют полной (общей суммой) квадратов СКП.

 – сумма квадратов отклонений значений линии регрессии относительно среднего наблюдений, ее называют суммой квадратов обусловленной регрессией, СКр.

 – сумма квадратов отклонений наблюдений относительно значений линии регрессии, ее называют остаточной суммой квадратов СК0.

Подчеркнем, что приведенное тождество справедливо только при наличии в модели параметра a.

Вычисления по проверке значимости регрессии проводят в следующей таблице дисперсионного анализа

Источник дисперсии

Суммы квадратов

Степени свободы

Дисперсии (средние квадраты)

F-отношение

регрессия

СКр

1

остаточная

СК0

n-2

полная (общая)

СКП

n-1

Если ошибки εi распределены по нормальному закону, то при справедливости H0: b = 0 статистика распределена по закону Фишера с числом степеней свободы 1 и n-2. Нулевая гипотеза будет отклонена на уровне значимости α, если значение статистики F будет больше α-процентной точки распределения Фишера.

При условии, что ошибки εi имеют нормальное распределение, оценки и , являющиеся линейными комбинациями нормально распределенных величин, тоже распределены нормально с параметрами

;

;

;

;

Поскольку истинное значение дисперсии σ2 неизвестно, его заменяют оценкой s02. Это позволяет обычными методами построить доверительные интервалы для параметров a и b.

Проверка адекватности модели регрессии

Проверка адекватности модели простой линейной регрессии (под адекватностью понимается, что никакая другая модель не дает значимого улучшения в предсказании отклика) может быть осуществлена в случае, если наблюдения отклика проводились при одинаковых значениях переменной X два или более раз. Тогда модель регрессии будет иметь вид

, ; .

Оценки параметров даются иногда выражениями:

,

,

где

; ; .

Можно показать, что при наличии повторных наблюдений отклика остаточную сумму квадратов СК0 можно представить в виде

.

Первый член в правой части – это сумма квадратов “чистых” ошибок, второй член – сумма квадратов неадекватности. Последняя сумма имеет m-2 степеней свободы, следовательно, дисперсия неадекватности

.

Статистикой критерия для проверки гипотезы H0: простая линейная модель адекватна, против гипотезы H1: простая линейная модель неадекватна, является случайная величина

.

При справедливости нулевой гипотезы статистика F имеет распределение Фишера со степенями свободы m-2 и n-m. Гипотеза линейности линии регрессии должна быть отвергнута на уровне значимости α, если полученное значение статистики больше α-процентной точки распределения Фишера с числом степеней свободы m-2 и n-m.

Отметим сходство между суммой квадратов “чистых” ошибок и внутригрупповой суммы квадратов в однофакторном дисперсионном анализе.

Коэффициент детерминации

Иногда для характеристики качества линии регрессии используют выборочный коэффициент детерминации , который показывает, какую часть сумма квадратов, обусловленная регрессией СКр, составляет в полной сумме квадратов СКп:

,

где СК0 – остаточная сумма квадратов.

Чем ближе к единице, тем лучше регрессия аппроксимирует экспериментальные данные, тем теснее наблюдения примыкают к линии регрессии.

Вместо коэффициента детерминации в прошлом использовалась статистика, которой некоторые исследователи отдавали предпочтение. Это так называемая нормированная (приведенная) R2 статистика

,

где p – число параметров линейной модели регрессии.

Применительно к простой линейной регрессии

.

В случае простой линейной регрессии коэффициент R2 равен квадрату коэффициента корреляции r2.