
- •Лекция 1. Основные понятия теории вероятности
- •Вопросы для самопроверки
- •Лекция 2. Теоремы о вероятностях
- •Теорема умножения вероятностей
- •Краткая классификация событий
- •Теорема о полной вероятностей
- •Теорема (формула) Байеса
- •Теорема сложения вероятностей
- •Принцип практической невозможности редких событий
- •Вопросы для самопроверки
- •Лекция 3. Случайные величины
- •Дискретная случайная величина
- •Числовые характеристики случайных величин
- •Характеристики положения
- •Характеристики разброса
- •Характеристики формы
- •Свойства математического ожидания
- •Свойства дисперсии
- •Правило "3-х сигм"
- •Вопросы для самопроверки
- •Лекция 4. Распределение Бернулли, Пуассона, Лапласа Распределение Бернулли
- •Биномиальные коэффициенты
- •Распределение Пуассона
- •Вопросы для самопроверки
- •Лекция 5. Распределение Лапласа
- •И нтегральная теорема Лапласа
- •Три основных формы интегральной теоремы Лапласа
- •Вопросы для самопроверки
- •Лекция 6. Непрерывная случайная величина
- •Нормальный закон распределения Гаусса
- •Показательный или экспоненциальный закон распределения
- •Квантили распределения
- •Вопросы для самопроверки
- •Лекция 7. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •Центральная предельная теорема
- •Композиция распределений случайных величин
- •Функции случайного аргумента
- •Вопросы для самопроверки
- •Лекция 8. Система случайных величин
- •Закон распределения дискретной двумерной случайной величины
- •Характеристики дискретной двумерной случайной величины
- •Закон распределения непрерывной двумерной случайной величины
- •Характеристики непрерывной двумерной величины
- •Двумерный нормальный закон
- •Вопросы для самопроверки
- •Лекция 9. Проблемы математической статистики
- •Способы составления выборочных подсовокупностей
- •Статистичекое оценивание
- •Вопросы для самопроверки
- •Лекция 10. Свойства статистических оценок
- •Оценка параметров распределения
- •Статистические критерии
- •Вопросы для самопроверки
- •Лекция 11. Критерии согласия Критерий согласия Пирсона
- •Критерий согласия Колмогорова – Смирнова
- •Интервальные оценки характеристик и параметров
- •Вопросы для самопроверки
- •Лекция 12. Проверка статистических гипотез Распределение Стьюдента
- •Интервальная оценка для математического ожидания
- •Проверка гипотезы о равенстве центров двух совокупностей
- •Сравнение двух дисперсий
- •Вопросы для самопроверки
- •Лекция 13. Дисперсионный анализ
- •Ранговый дисперсионный анализ Краскала–Уоллиса
- •Время появления реакции в 4-х группах
- •Ранжированнае данные
- •Дополнение к выводу формул Краскала–Уоллиса
- •Вопросы для самопроверки
- •Лекция 14. Регрессионный анализ
- •Метод наименьших квадратов (мнк)
- •Пример расчета мнк-оценок параметров
- •Оценка тесноты принятой формы связи.
- •Однофакторная линейная зависимость
- •Нелинейные двухпараметрические модели
- •Вопросы для самопроверки
- •Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели
- •Оценка значимости корреляционной связи
- •Проверка адекватности модели
- •Коэффициент ранговой корреляции Спирмена
- •Вывод формулы для коэффициента ранговой корреляции Спирмена
- •Вопросы для самопроверки
- •Лекция 16. Линейный регрессионный анализ в стандартизованных переменных
- •Способы составления многофакторных моделей
- •Коэффициенты частной корреляции
- •Вывод формул для дисперсий коэффициентов регрессии и расчетных значений
- •Вопросы для самопроверки
Метод наименьших квадратов (мнк)
Данные обычно имеют вид таблицы значений показателей (х1 , х2 , у), один из которых является результативным (у) и выражается через оставшиеся переменные (х1 , х2), которые иногда называются "факторами".
Предполагается, что форма связи нам известна с точностью до параметров, наилучшие значения которых надо найти по опытным данным (т.е. найти "МНК-оценки параметров"). Для применения метода наименьших квадратов крайне желательно, чтобы параметры входили в форму связи линейным образом, например, так:
– линейная двухфакторная зависимость: у = b0 + b1 x1 + b2 x2 + e;
– квадратичная однофакторная зависимость: у = b0 + b1 x + b2 x2 + e;
– нелинейная двухфакторная зависимость: lnу = b0 + b1 lnx1 + b2 lnx2 + e.
Здесь b0 , b1 , b2 – параметры модели, которые подлежат определению;
е – ошибки (остатки модели).
Далее будем рассматривать базовую линейную зависимость, к которой могут быть сведены многие другие зависимости соответствующими заменами переменных: у = ур + е, где ур = (b0 + b1 x1 + b2 x2)
Условимся
суммирование по всем наблюдениям
обозначать квадратными скобками
(обозначения Гаусса):
;
.
По методу наименьших квадратов (МНК) параметры модели b0 , b1 , b2 следует определять из условия минимума суммы квадратов ошибок по всем наблюдениям [e2] min.
Согласно необходимым условиям экстремума, приравниваем нулю частные производные суммы квадратов ошибок по каждому параметру модели b0 , b1 , b2 . В результате получим такую систему "нормальных" уравнений:
[e] = 0; [ex1] = 0; [ex2] = 0.
При преобразованиях были использованы правила:
.
Название
система "нормальных" уравнений
объясняется терминологией векторного
исчисления. Значения любых переменных
представляют собой
-
мерные векторы: y = (y1 ,
y2 ,
… , yn);
x0 = (1,
1, … , 1); xj = (xj1 ,
xj2 ,
… xjn);
e = (e1 ,
e2 ,
… , en).
Два вектора перпендикулярны (ортогональны,
нормальны), если их скалярное произведение
(сумма значений одноименных компонент)
равно нулю
.
Таким образом,
система нормальных уравнений действительное
представляет собой запись условий
ортогональности (нормальности) вектора
ошибок (е)
к каждому члену модели (1, х1 ,
х2).
Помножим
равенство у = а0х0 + а1х1 + а2х2 + е
(где х0 = 1)
на каждую переменную, которые входят в
это равенство и вычислим средние
полученных выражений по всем наблюдениям.
При этом учтем требование нормальности
(ортогональности) ошибок к каждому члену
модели
Получим:
Первые
три равенства (объединенные фигурной
скобкой) представляют собой систему
нормальных уравнений в развернутой
форме, а из последних двух равенств
получаем выражение для оценки дисперсии
остатка модели
.
Аналогичную формулу имеем для расчета
суммы квадратов ошибок:
[e2] = [y2] – b0 [y] – b1 [yx1] – b2 [yx2].
Таким
образом, мы выразили сумму квадратов
ошибок через уже найденные суммы. Эта
формула понадобится в дальнейшем.
Пример расчета мнк-оценок параметров
Расчеты по методу наименьших квадратов продемонстрируем на оценке параметров квадратичной модели у = b0 + b1 x + b2 x2 + e, которая формально сводится к предыдущей двухфакторной линейной модели заменой переменных х1 = х, х2 = х2 . При этом выясняется, что аргументы х1 , х2 не являются "независимыми" переменными в общепринятом понимании, они могут быть связаны между собой, лишь бы определитель системы нормальных уравнений был отличен от нуля. Кроме того, оказывается, что одной объясняющей переменной в нелинейной модели может соответствовать не один, а сразу несколько членов, необходимых для описания нелинейностей.
О
бычно
форму связи выбирают по виду расположения
эмпирических точек на графике. Например,
данные на рис. 14.3 (эмпирические точки)
явно уклоняются от прямой, видно наличие
оптимума (максимума зависимости); поэтому
сочтено, что квадратичная модель
у = b0 + b1 x + b2 x2 + e
будет более адекватно описывать эту
нелинейную зависимость.
Условия
ортогональности ошибок к каждому члену
квадратичной модели
приводят к следующей системе нормальных
уравнений:
.
Все необходимые суммы подсчитаны в следующей таблице:
|
Данные |
Расчет сумм |
|
|||||||
№ |
x |
у |
х2 |
х3 |
х4 |
ух |
ух2 |
у2 |
ур |
e |
1 |
0 |
12 |
0 |
0 |
0 |
0 |
0 |
144 |
12,114 |
-0,114 |
2 |
1 |
18 |
1 |
1 |
1 |
18 |
18 |
324 |
17,547 |
0,457 |
3 |
2 |
20 |
4 |
8 |
16 |
40 |
80 |
400 |
20,696 |
-0,686 |
4 |
3 |
22 |
9 |
27 |
81 |
66 |
198 |
484 |
21,543 |
0,457 |
5 |
4 |
20 |
16 |
64 |
256 |
80 |
320 |
400 |
20,114 |
-0,114 |
Суммы |
10 |
92 |
30 |
100 |
354 |
204 |
616 |
1752 |
|
0 |
Вычисленные суммы подставляем в систему нормальных уравнений
и находим ее решение: b0 = 12,114; b1 = 6,571; b2 = –1,143.
Рачетные значения yp = 12,114 + 6,571x – 1,143x2 приведены в той же таблице вместе с ошибками е = у – ур . График найденной квадратичной зависимости изображен на рис. 14.3, при этом наблюдается хорошее сглаживание исходных данних.
Убеждаемся, что сумма всех ошибок равняется нулю: [e] = 0.
Данных немного, поэтому подсчитаем сумму квадратов ошибок непосредственно: [e2] = (–0,114)2 + (0,457)2 + (–0,686)2 + (0,457)2 + (–0,114)2 = 0,914.
Для проверки вычислим эту же сумму квадратов по формуле:
[e2] = [y2] – b0 [y] – b1 [yx1] – b2 [yx2] = =1752 ‑ 12,11492 ‑ 6,571204 + 1,143616 = 1,116.
Расхождение в результатах расчета двумя способами объясняется погрешностями в вычислении параметров модели с 3-мя десятичными знаками. Если вычислить эти параметры с 4-мя десятичными знаками, то для суммы квадратов ошибок получим значение [e2] = 0,945, а с 5-ю знаками – уже [e2] = 0,915.