- •Введение
- •Лабораторная работа № 1 Первичная обработка статистических данных
- •Основные теоретические сведения
- •1 Выборочный метод
- •2 Сгруппированный и интервальный статистические ряды
- •3 Эмпирическая функция распределения
- •4 Оценки числовых характеристик
- •Контрольные вопросы
- •2 Схема построения доверительных интервалов
- •3 Доверительные интервалы для математического ожидания и дисперсии случайной величины, имеющей нормальное распределение
- •Лабораторная работа № 3
- •2 Основные понятия статистической проверки гипотез
- •3 Применение критерия Пирсона 2 для проверки гипотезы о виде закона распределения случайной величины
- •4 Алгоритм применения критерия 2 для проверки гипотезы о виде закона распределения исследуемой случайной величины
- •2 Проверка гипотез о математическом ожидании случайной величины, имеющей нормальное распределение
- •3 Проверка гипотез равенства двух случайных величин, имеющих нормальное распределение
- •Лабораторная работа № 5 Построение регрессионной модели системы двух случайных величин
- •1 Введение
- •2 Регрессионный анализ
- •3 Метод наименьших квадратов
- •4 Пошаговый регрессионный анализ
- •5 Корреляционный анализ
- •6 Проверка значимости оценок коэффициентов корреляции и детерминации
- •Приложение а (справочное) Работа с пакетом statgraphics Plus for Windows
- •1 Запуск пакета statgraphics Plus
- •2 Создание файла выборок значений исследуемых величин
- •3 Использование существующего файла данных
- •4 Вычисление оценок числовых характеристик и построение гистограммы (столбцовой диаграммы) исследуемой случайной величины
- •5 Печать результатов статистического анализа
- •6 Определение доверительного интервала для математического ожидания и среднеквадратического отклонения случайной величины
- •7 Проверка гипотезы о значении математического ожидания случайной величины
- •8 Проверка гипотезы о значении математического ожидания случайной величины
- •9 Проверка непараметрической гипотезы о виде закона распределения исследуемой случайной величины
- •10 Построение диаграммы рассеяния
- •11 Регрессионный и корреляционный анализ
- •Приложение б (справочное) Критические точки распределения Стьюдента
- •Приложение в (справочное) Критические точки распределения 2
- •Приложение г (справочное) Таблица значений функции Лапласа
- •Приложение д (справочное) Критические точки распределения Фишера
- •Приложение ж (справочное) Критические точки стандартного нормального распределения
- •Приложение и (информационное) Рабочая программа по дисциплине «Теория вероятностей и математическая статистика»
- •1 Цели и задачи дисциплины, её место в учебном процессе
- •1.1 Цель преподавания дисциплины
- •1.2 Задачи изучения дисциплины
- •2.1.2 Одномерные случайные величины
- •2.1.3 Многомерные случайные величины
- •2.1.4 Основные понятия математической статистики
- •3 Учебно-методические материалы
- •Список принятых условных обозначений
- •Список литературы
- •Содержание
2 Регрессионный анализ
Пусть дана выборка значений двумерной с. в. (X,Y)={(x1, y1), (x2, y2) … (xn, yn)}, где n – объем двумерной выборки. Первым шагом в построении эмпирического уравнения регрессии между с. в. является графическое отображение значений двумерной с. в. в виде точек (x1, y1), ..., (xn, yn) на плоскости X-Y, называемое диаграммой рассеяния (корреляционным полем) (рисунок 2).
а) |
|
б) |
|
|
|
|
|
в) |
|
г) |
|
Рисунок 2 – Диаграмма рассеяния, соответствующая линейной (а), экспоненциальной (б), параболической (в) регрессионной зависимости и отсутствию регрессионной зависимости (г) |
Визуальный анализ диаграммы рассеяния и предметная постановка задачи (физический смысл рассматриваемых величин) позволяет сделать предположение о виде уравнения регрессии. Если предполагается, что зависимость между с. в. X и Y линейна (рисунок 2, а), то теоретическая модель регрессионной зависимости между с. в. задается уравнением (1) – теоретической моделью линейной регрессии Y на X:
M[Y | X = x] = + x, (1)
т. е. для каждого Х = хi имеется условное распределение с. в. Y со средним значением ( + xi). Таким образом, для каждого i-го наблюдения справедлива следующая зависимость:
= 0 + 1xi + ei, , (2)
где уi – i-е выборочное значение с. в. Y;
0 – параметр линейной регрессии, требующий определения;
1 – параметр линейной регрессии, требующий определения;
хi – i-е выборочное значение с. в. Х;
ei – ошибка, вызванная отклонением i-го наблюдения с. в. Y от условного среднего М[Y | X = хi]. Ошибки ei обусловливаются упрощением вида зависимости Y от X (без учёта всех влияющих факторов), а также возможной ошибкой в выборе формы регрессии (в действительности она может описываться другим уравнением).
3 Метод наименьших квадратов
Для оценивания параметров уравнения регрессии , ,… наиболее часто применяется метод наименьших квадратов (МНК). Идею МНК продемонстрируем на примере определения параметров линейной регрессионной зависимости вида (1).
Рассмотрим функцию S( , ,…), равную сумме квадратов отклонений выборочных значений yi случайной величины Y от значения , предсказанного уравнением регрессии в точке X = xi (рисунок 3):
. (3)
Фактически эти отклонения в каждой точке xi равны ei .
Рисунок 3 – Отклонения наблюденных значений зависимой случайной величины Y от значений, предсказываемых уравнением регрессии |
|
Для случая линейной регрессии оценки параметров 0 и получаются минимизацией по 0 и суммы квадратов отклонений ei выборочных значений с. в. Y от значений, предсказываемых уравнением регрессии Y на X, т. е. минимизацией функции
.
Из курса математического анализа известно, что для нахождения минимума функции S(, ) необходимо приравнять к нулю частные производные этой функции S (по неизвестным и ) и решить полученную систему уравнений, называемых нормальными:
(4)
Система уравнений (4) имеет единственное решение, если определитель матрицы ее коэффициентов не равен нулю. Полученные значения и , являющиеся решением системы (4), называются оценками параметров регрессии. Для предполагаемой линейной регрессионной зависимости (2) оценки минимизируют ошибку, возникающую при аппроксимации выборки прямой, и вычисляются по формулам:
; ; (5)
; . (6)
В результате оценка уравнения линейной регрессии (эмпирическое уравнение линейной регрессии, прямая, полученная МНК) будет иметь вид: .
В предположении, что значения ошибок {e1, e2,…, en}, возникающих при аппроксимации выборки уравнением линейной регрессии, являются взаимно независимыми случайными величинами с нормальным распределением, нулевым математическим ожиданием и постоянной дисперсией, оценки параметров таких уравнений регрессии (полученные МНК) являются несмещенными, состоятельными и эффективными.
Метод наименьших квадратов применим для оценивания параметров уравнений регрессии произвольного вида (гиперболической, параболической, экспоненциальной, логарифмической и т. д.).