- •1.1.2 Выборка и генеральная совокупность. Типы выборок.
- •1.1.3 Ранжирование (группировка, классификация) данных.
- •1.1.4 Распределение вариант и распределение средних. Выборочные характеристики как оценки характеристик генеральной совокупности. Свойства оценок: несмещенность, состоятельность, эффективность.
- •1.1.5 Оценка стандартного отклонения для распределения средних.
- •1.1.6 Доверительный интервал -1. Интервал для среднего случайной выборки, если генеральное среднее известно
- •1.1.7 Доверительный интервал -2. Интервал для генерального среднего
- •1.1.8 Нулевая гипотеза - 1. Основные понятия.
- •1.1.9 Нулевая гипотеза - 2. Зачем нам два уровня значимости
- •1.1.10 Критерий χ-квадарат.
- •1.2 Двумерные случайные величины
- •1.2.1 Правила вычислений моментов второго порядка
- •1.1.2 Коэффициент корреляции
- •2. Регрессионный анализ
- •2.1 Парная линейная регрессия
- •2.1.1 Простейшая модель – парная линейная регрессия
- •2.1.2 Мера оценки отклонений – метод наименьших квадратов (мнк).
- •2.1.3 Практические вычисления для линейной модели.
- •2.1.4 Условия применимости метода наименьших квадратов
- •2.1.5 Качество оценки переменной y, полученное с помощью уравнения регрессии.
- •2.1.6 Качество модели – f-критерий (критерий Фишера)
- •2.1.7 Оценки ошибок коэффициентов регрессии
- •2.1.8 Проверка гипотез для коэффициентов регрессии
- •2.2 Парная нелинейная регрессия
- •2.2.1 Распространение методов парной линейной регрессии на нелинейные задачи
- •2.2.2 Квадратичная регрессия
2.1.2 Мера оценки отклонений – метод наименьших квадратов (мнк).
Итак, мы располагаем некоторой таблицей данных {xi,yi} (набором точек на плоскости Pi(xi,yi) ), наша цель провести на плоскости прямую таким образом, чтобы она была максимально близка к нашему набору точек.
Пусть уравнение такой прямой имеет вид: – здесь мы через обозначили значения на модельной прямой, мы пометили их знаком «^», чтобы отличать от полученных опытным путём значений yi. Как только мы проведем любую прямую, у нас в каждой точке появятся отклонения (ошибки модели, их называют также ошибками аппроксимации) εi = yi – , наша задача состоит теперь в том, чтобы так подобрать коэффициенты модели b1 и b2, чтобы минимизировать отклонения в совокупности. Проблема в том, как оценить всю совокупность отклонений.
Достаточно очевидно, что сумма отклонений не есть подходящая мера. Ведь достаточно провести горизонтальную прямую на уровне среднего значения , чтобы сумма отклонений стала равна нулю, однако такую прямую трудно считать хорошей моделью. Тут дело в том, что положительные и отрицательные отклонения при таком подходе взаимно гасят друг друга, а наша цель не допустить больших отклонений модели от опытных данных независимо от знака этих отклонений.
Чтобы уничтожить влияние знака, разумно суммировать не сами отклонения εi, а их квадраты, т.е. минимизировать не , а . Принятие такого критерия оптимальности искомой прямой носит название метода наименьших квадратов (МНК), как мы увидим в дальнейшем такой подход действительно дает оптимальные результаты, при соблюдении некоторых условий, которые в реальности достаточно часто действительно выполнены.
Итак, мы можем теперь четко сформулировать задачу. Пусть в результате некоторых опытов мы располагаем набором из n данных для двух величин: {xi,yi}. Найти такие два коэффициента b1 и b2, чтобы сумма квадратов отклонений величин от опытных значений yi была минимальной
(2.2)
Обратим внимание, что в роли неизвестных тут у нас выступают именно параметры искомой прямой b1 и b2, ведь все значения {xi,yi} нам известны. Если мы подставим все величины, входящие в третью сумму в формуле (2.2), и выполним все арифметические действия, то увидим, что функция представляет собой просто многочлен второй степени относительно b1 и b2. Чтобы найти его минимум нужно просто вычислить его частные производные по b1 и b2 и приравнять их нулю. Когда мы это сделаем, то получим два уравнения с двумя неизвестными. Решение этих уравнений дает следующий результат:
(2.3)
Это и есть выражение для коэффициентов линейной регрессии, которые дает метод наименьших квадратов (МНК).
2.1.3 Практические вычисления для линейной модели.
Теперь мы располагаем всем необходимым для того, чтобы построить практическую схему вычислений. Нарисуем таблицу:
xi |
yi |
xi2 |
xi yi |
|
εi |
x1 |
y1 |
x12 |
x1 y1 |
|
ε1 = y1– |
x2 |
y2 |
x22 |
x2 y2 |
|
ε2 =y2– |
x3 |
y3 |
x32 |
x3 y3 |
|
ε3 =y3– |
… |
… |
… |
… |
… |
… |
xn |
yn |
xn2 |
xn yn |
|
εn =yn– |
|
|
|
|
|
|
|
|
|
|
|
|
После заполнения столбцов xi, yi, вычисляем элементы двух следующих столбцов: xi2 и xiyi . Далее, по приведенным в таблице формулам вычисляем Var(x), Cov(x,y), затем b1 и b2, и после этого заполняем два последних столбца