 
        
        - •Лекция 1. Основные понятия теории вероятности
- •Вопросы для самопроверки
- •Лекция 2. Теоремы о вероятностях
- •Теорема умножения вероятностей
- •Краткая классификация событий
- •Теорема о полной вероятностей
- •Теорема (формула) Байеса
- •Теорема сложения вероятностей
- •Принцип практической невозможности редких событий
- •Вопросы для самопроверки
- •Лекция 3. Случайные величины
- •Дискретная случайная величина
- •Числовые характеристики случайных величин
- •Характеристики положения
- •Характеристики разброса
- •Характеристики формы
- •Свойства математического ожидания
- •Свойства дисперсии
- •Правило "3-х сигм"
- •Вопросы для самопроверки
- •Лекция 4. Распределение Бернулли, Пуассона, Лапласа Распределение Бернулли
- •Биномиальные коэффициенты
- •Распределение Пуассона
- •Вопросы для самопроверки
- •Лекция 5. Распределение Лапласа
- •И нтегральная теорема Лапласа
- •Три основных формы интегральной теоремы Лапласа
- •Вопросы для самопроверки
- •Лекция 6. Непрерывная случайная величина
- •Нормальный закон распределения Гаусса
- •Показательный или экспоненциальный закон распределения
- •Квантили распределения
- •Вопросы для самопроверки
- •Лекция 7. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •Центральная предельная теорема
- •Композиция распределений случайных величин
- •Функции случайного аргумента
- •Вопросы для самопроверки
- •Лекция 8. Система случайных величин
- •Закон распределения дискретной двумерной случайной величины
- •Характеристики дискретной двумерной случайной величины
- •Закон распределения непрерывной двумерной случайной величины
- •Характеристики непрерывной двумерной величины
- •Двумерный нормальный закон
- •Вопросы для самопроверки
- •Лекция 9. Проблемы математической статистики
- •Способы составления выборочных подсовокупностей
- •Статистичекое оценивание
- •Вопросы для самопроверки
- •Лекция 10. Свойства статистических оценок
- •Оценка параметров распределения
- •Статистические критерии
- •Вопросы для самопроверки
- •Лекция 11. Критерии согласия Критерий согласия Пирсона
- •Критерий согласия Колмогорова – Смирнова
- •Интервальные оценки характеристик и параметров
- •Вопросы для самопроверки
- •Лекция 12. Проверка статистических гипотез Распределение Стьюдента
- •Интервальная оценка для математического ожидания
- •Проверка гипотезы о равенстве центров двух совокупностей
- •Сравнение двух дисперсий
- •Вопросы для самопроверки
- •Лекция 13. Дисперсионный анализ
- •Ранговый дисперсионный анализ Краскала–Уоллиса
- •Время появления реакции в 4-х группах
- •Ранжированнае данные
- •Дополнение к выводу формул Краскала–Уоллиса
- •Вопросы для самопроверки
- •Лекция 14. Регрессионный анализ
- •Метод наименьших квадратов (мнк)
- •Пример расчета мнк-оценок параметров
- •Оценка тесноты принятой формы связи.
- •Однофакторная линейная зависимость
- •Нелинейные двухпараметрические модели
- •Вопросы для самопроверки
- •Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели
- •Оценка значимости корреляционной связи
- •Проверка адекватности модели
- •Коэффициент ранговой корреляции Спирмена
- •Вывод формулы для коэффициента ранговой корреляции Спирмена
- •Вопросы для самопроверки
- •Лекция 16. Линейный регрессионный анализ в стандартизованных переменных
- •Способы составления многофакторных моделей
- •Коэффициенты частной корреляции
- •Вывод формул для дисперсий коэффициентов регрессии и расчетных значений
- •Вопросы для самопроверки
Метод наименьших квадратов (мнк)
Данные обычно имеют вид таблицы значений показателей (х1 , х2 , у), один из которых является результативным (у) и выражается через оставшиеся переменные (х1 , х2), которые иногда называются "факторами".
Предполагается, что форма связи нам известна с точностью до параметров, наилучшие значения которых надо найти по опытным данным (т.е. найти "МНК-оценки параметров"). Для применения метода наименьших квадратов крайне желательно, чтобы параметры входили в форму связи линейным образом, например, так:
– линейная двухфакторная зависимость: у = b0 + b1 x1 + b2 x2 + e;
– квадратичная однофакторная зависимость: у = b0 + b1 x + b2 x2 + e;
– нелинейная двухфакторная зависимость: lnу = b0 + b1 lnx1 + b2 lnx2 + e.
Здесь b0 , b1 , b2 – параметры модели, которые подлежат определению;
е – ошибки (остатки модели).
Далее будем рассматривать базовую линейную зависимость, к которой могут быть сведены многие другие зависимости соответствующими заменами переменных: у = ур + е, где ур = (b0 + b1 x1 + b2 x2)
Условимся
суммирование по всем наблюдениям
обозначать квадратными скобками
(обозначения Гаусса):  
 ;
;
 
 .
.
По методу наименьших квадратов (МНК) параметры модели b0 , b1 , b2 следует определять из условия минимума суммы квадратов ошибок по всем наблюдениям [e2]  min.
Согласно необходимым условиям экстремума, приравниваем нулю частные производные суммы квадратов ошибок по каждому параметру модели b0 , b1 , b2 . В результате получим такую систему "нормальных" уравнений:
[e] = 0; [ex1] = 0; [ex2] = 0.
При преобразованиях были использованы правила:
 .
.
Название
система "нормальных" уравнений
объясняется терминологией векторного
исчисления. Значения любых переменных
 представляют собой
представляют собой
 -
мерные векторы:  y = (y1 ,
y2 ,
… , yn);
 x0 = (1,
1, … , 1);  xj = (xj1 ,
xj2 ,
… xjn);
 e = (e1 ,
e2 ,
… , en).
Два вектора перпендикулярны (ортогональны,
нормальны), если их скалярное произведение
(сумма значений одноименных компонент)
равно нулю
-
мерные векторы:  y = (y1 ,
y2 ,
… , yn);
 x0 = (1,
1, … , 1);  xj = (xj1 ,
xj2 ,
… xjn);
 e = (e1 ,
e2 ,
… , en).
Два вектора перпендикулярны (ортогональны,
нормальны), если их скалярное произведение
(сумма значений одноименных компонент)
равно нулю 
 .
Таким образом,
система нормальных уравнений действительное
представляет собой запись условий
ортогональности (нормальности) вектора
ошибок (е)
к каждому члену модели (1, х1 ,
х2).
.
Таким образом,
система нормальных уравнений действительное
представляет собой запись условий
ортогональности (нормальности) вектора
ошибок (е)
к каждому члену модели (1, х1 ,
х2).
Помножим
равенство у = а0х0 + а1х1 + а2х2 + е
(где х0 = 1)
на каждую переменную, которые входят в
это равенство и вычислим средние
полученных выражений по всем наблюдениям.
При этом учтем требование нормальности
(ортогональности) ошибок к каждому члену
модели 
 Получим:
 Получим: 
 
Первые
три равенства (объединенные фигурной
скобкой) представляют собой систему
нормальных уравнений в развернутой
форме, а из последних двух равенств
получаем выражение для оценки дисперсии
остатка модели
 
 .
Аналогичную формулу имеем для расчета
суммы квадратов ошибок: 
[e2] = [y2] – b0 [y] – b1 [yx1] – b2 [yx2].
Таким
образом, мы выразили сумму квадратов
ошибок через уже найденные суммы. Эта
формула понадобится в дальнейшем.
.
Аналогичную формулу имеем для расчета
суммы квадратов ошибок: 
[e2] = [y2] – b0 [y] – b1 [yx1] – b2 [yx2].
Таким
образом, мы выразили сумму квадратов
ошибок через уже найденные суммы. Эта
формула понадобится в дальнейшем.
Пример расчета мнк-оценок параметров
Расчеты по методу наименьших квадратов продемонстрируем на оценке параметров квадратичной модели у = b0 + b1 x + b2 x2 + e, которая формально сводится к предыдущей двухфакторной линейной модели заменой переменных х1 = х, х2 = х2 . При этом выясняется, что аргументы х1 , х2 не являются "независимыми" переменными в общепринятом понимании, они могут быть связаны между собой, лишь бы определитель системы нормальных уравнений был отличен от нуля. Кроме того, оказывается, что одной объясняющей переменной в нелинейной модели может соответствовать не один, а сразу несколько членов, необходимых для описания нелинейностей.
О бычно
форму связи выбирают по виду расположения
эмпирических точек на графике. Например,
данные на рис. 14.3 (эмпирические точки)
явно уклоняются от прямой, видно наличие
оптимума (максимума зависимости); поэтому
сочтено, что квадратичная модель
у = b0 + b1 x + b2 x2 + e
будет более адекватно описывать эту
нелинейную зависимость.
бычно
форму связи выбирают по виду расположения
эмпирических точек на графике. Например,
данные на рис. 14.3 (эмпирические точки)
явно уклоняются от прямой, видно наличие
оптимума (максимума зависимости); поэтому
сочтено, что квадратичная модель
у = b0 + b1 x + b2 x2 + e
будет более адекватно описывать эту
нелинейную зависимость.
Условия
ортогональности ошибок к каждому члену
квадратичной модели 
 приводят к следующей системе нормальных
уравнений:
приводят к следующей системе нормальных
уравнений:
 .
 .
Все необходимые суммы подсчитаны в следующей таблице:
| 
 | Данные | Расчет сумм | 
 | |||||||
| № | x | у | х2 | х3 | х4 | ух | ух2 | у2 | ур | e | 
| 1 | 0 | 12 | 0 | 0 | 0 | 0 | 0 | 144 | 12,114 | -0,114 | 
| 2 | 1 | 18 | 1 | 1 | 1 | 18 | 18 | 324 | 17,547 | 0,457 | 
| 3 | 2 | 20 | 4 | 8 | 16 | 40 | 80 | 400 | 20,696 | -0,686 | 
| 4 | 3 | 22 | 9 | 27 | 81 | 66 | 198 | 484 | 21,543 | 0,457 | 
| 5 | 4 | 20 | 16 | 64 | 256 | 80 | 320 | 400 | 20,114 | -0,114 | 
| Суммы | 10 | 92 | 30 | 100 | 354 | 204 | 616 | 1752 | 
 | 0 | 
Вычисленные суммы подставляем в систему нормальных уравнений
 
и находим ее решение: b0 = 12,114; b1 = 6,571; b2 = –1,143.
Рачетные значения yp = 12,114 + 6,571x – 1,143x2 приведены в той же таблице вместе с ошибками е = у – ур . График найденной квадратичной зависимости изображен на рис. 14.3, при этом наблюдается хорошее сглаживание исходных данних.
Убеждаемся, что сумма всех ошибок равняется нулю: [e] = 0.
Данных немного, поэтому подсчитаем сумму квадратов ошибок непосредственно: [e2] = (–0,114)2 + (0,457)2 + (–0,686)2 + (0,457)2 + (–0,114)2 = 0,914.
Для проверки вычислим эту же сумму квадратов по формуле:
[e2] = [y2] – b0 [y] – b1 [yx1] – b2 [yx2] = =1752 ‑ 12,11492 ‑ 6,571204 + 1,143616 = 1,116.
Расхождение в результатах расчета двумя способами объясняется погрешностями в вычислении параметров модели с 3-мя десятичными знаками. Если вычислить эти параметры с 4-мя десятичными знаками, то для суммы квадратов ошибок получим значение [e2] = 0,945, а с 5-ю знаками – уже [e2] = 0,915.
