
- •Содержание
- •Введение
- •I.Статистический анализ
- •§1.1. Основные понятия выборочного метода
- •§1.2. Законы распределения непрерывных случайных величин. Нормальное распределение
- •§1.3.Оценка параметров распределения
- •§ 1.4. Статистическая проверка гипотез
- •Тесты для самоконтроля Составьте краткие ответы на следующие вопросы
- •Характеристика тестов
- •II. Корреляционный и регрессионный анализ
- •§2.1. Система случайных величин
- •§ 2.2. Основы корреляционного анализа
- •§ 2.3. Регрессия. Линии среднеквадратической регрессии
- •§ 2.4. Выборочное уравнение регрессии
- •§ 2.5. Основы дисперсионного анализа
- •§ 2.6. Нелинейная корреляционная связь
- •Тесты для самоконтроля Составьте краткие ответы на вопросы
- •Характеристика тестов
- •III.Многомерный статистический анализ
- •§3.1. Основные характеристики многомерной генеральной совокупности
- •§ 3.2. Множественная корреляция
- •§ 3.3. Множественное уравнение регрессии
- •Тесты для самоконтроля
- •Характеристика тестов
- •IV. Статистический анализ в Excel
- •§ 4.1.Очистка информации от засорения
- •§ 4.2. Проверка закона распределения.
- •§ 4.3. Корреляционный анализ
- •§4.4. Регрессионный анализ двумерной модели.
- •§4.5. Регрессионный анализ трехмерной модели.
- •V. Содержание и объем курсовой работы
- •VI. Литература
- •Статистические данные.
- •Варианты заданий к работе « Статистический анализ»
§ 2.3. Регрессия. Линии среднеквадратической регрессии
Основная задача регрессионного анализа – изучение зависимости между результативным признаком Y и факторным признаком X и оценка функции регрессии. В общем случае зависимость Y от X можно представить в таком виде:
Y = g(x) + ε(x),
где g(x) – функция регрессии, а ε(x) – погрешность, отклонение функции регрессии от истинной зависимости. В качестве g(x) обычно берут функцию, минимизирующую математическое ожидание квадрата отклонения Mε2. Параметры g(x) определяют как управляемые переменные задачи оптимизации, в которой необходимо найти такие их значения, при которых целевая функция – сумма квадратов отклонений функции регрессии от Y для всей генеральной совокупности достигает минимума.
Представим одну из величин двумерной случайной величины (X, Y) как функцию другой. Если ограничиться приближенным представлением величины Y в виде линейной функции величины X, то эту зависимость следует представить таким образом:
Y ≈ g(x) = β0 + β1X ,
где β0 и β1 – параметры, подлежащие определению. Для их определения обычно используется метод наименьших квадратов.
Функцию g(x) называют наилучшим приближением Y в смысле метода наименьших квадратов ( МНК ) , если математическое ожидание M [Y – g(X)]2 принимает наименьшее возможное значение, а функцию g(x) называют среднеквадратической регрессией Y на X. Справедлива теорема, из которой следует, что
g(x)= my + ρxyσy/σx ( X - mx) ;
mx = M(X); my = M(Y); σx , σy – средние квадратические отклонения величин; ρxy = μxy/(σx σy) – коэффициент корреляции величин X и Y .
Коэффициент β = ρxyσy/σx называют коэффициентом регрессии Y на X, а прямую
y – my = ρxyσy/σx ( x - mx)
называют прямой среднеквадратической регрессии Y на X.
Величину ошибки, которую допускают при замене Y линейной функцией g(X) , характеризует минимальное значение функции
F ( β0 , β1 ) = M [ Y – β0 – β1X ]2 = σy2( 1 – r2 ).
Эту величину называют остаточной дисперсией случайной величины Y относительно случайной величины X. При ρxy = ±1 остаточная дисперсия равна нулю. В этом случае Y и X связаны линейной функциональной зависимостью.
Аналогично можно получить прямую среднеквадратической регрессии X на Y : x - mx = ρxyσx/σy ( y - my)
и остаточную дисперсию
Dостx = σx2( 1 – r2 )
величины X относительно Y . При r = ±1 обе прямые регрессии совпадают и проходят через точку (mx, my), которую называют центром совместного распределения величин X и Y.
Если обе функции регрессии Y на X M ( Y | x ) = f ( x ) и X на Y
M ( X | y ) = φ ( y ) линейны , то говорят, что X и Y связаны линейной корреляционной зависимостью. Графики линейных функций регрессии – прямые линии, которые совпадают при этом с прямыми среднеквадратической регрессии. Справедлива теорема, которая утверждает, что если двумерная случайная величина распределена нормально, то X и Y связаны линейной корреляционной зависимостью.