- •Лекция 1. Основные понятия теории вероятности
- •Вопросы для самопроверки
- •Лекция 2. Теоремы о вероятностях
- •Теорема умножения вероятностей
- •Краткая классификация событий
- •Теорема о полной вероятностей
- •Теорема (формула) Байеса
- •Теорема сложения вероятностей
- •Принцип практической невозможности редких событий
- •Вопросы для самопроверки
- •Лекция 3. Случайные величины
- •Дискретная случайная величина
- •Числовые характеристики случайных величин
- •Характеристики положения
- •Характеристики разброса
- •Характеристики формы
- •Свойства математического ожидания
- •Свойства дисперсии
- •Правило "3-х сигм"
- •Вопросы для самопроверки
- •Лекция 4. Распределение Бернулли, Пуассона, Лапласа Распределение Бернулли
- •Биномиальные коэффициенты
- •Распределение Пуассона
- •Вопросы для самопроверки
- •Лекция 5. Распределение Лапласа
- •И нтегральная теорема Лапласа
- •Три основных формы интегральной теоремы Лапласа
- •Вопросы для самопроверки
- •Лекция 6. Непрерывная случайная величина
- •Нормальный закон распределения Гаусса
- •Показательный или экспоненциальный закон распределения
- •Квантили распределения
- •Вопросы для самопроверки
- •Лекция 7. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •Центральная предельная теорема
- •Композиция распределений случайных величин
- •Функции случайного аргумента
- •Вопросы для самопроверки
- •Лекция 8. Система случайных величин
- •Закон распределения дискретной двумерной случайной величины
- •Характеристики дискретной двумерной случайной величины
- •Закон распределения непрерывной двумерной случайной величины
- •Характеристики непрерывной двумерной величины
- •Двумерный нормальный закон
- •Вопросы для самопроверки
- •Лекция 9. Проблемы математической статистики
- •Способы составления выборочных подсовокупностей
- •Статистичекое оценивание
- •Вопросы для самопроверки
- •Лекция 10. Свойства статистических оценок
- •Оценка параметров распределения
- •Статистические критерии
- •Вопросы для самопроверки
- •Лекция 11. Критерии согласия Критерий согласия Пирсона
- •Критерий согласия Колмогорова – Смирнова
- •Интервальные оценки характеристик и параметров
- •Вопросы для самопроверки
- •Лекция 12. Проверка статистических гипотез Распределение Стьюдента
- •Интервальная оценка для математического ожидания
- •Проверка гипотезы о равенстве центров двух совокупностей
- •Сравнение двух дисперсий
- •Вопросы для самопроверки
- •Лекция 13. Дисперсионный анализ
- •Ранговый дисперсионный анализ Краскала–Уоллиса
- •Время появления реакции в 4-х группах
- •Ранжированнае данные
- •Дополнение к выводу формул Краскала–Уоллиса
- •Вопросы для самопроверки
- •Лекция 14. Регрессионный анализ
- •Метод наименьших квадратов (мнк)
- •Пример расчета мнк-оценок параметров
- •Оценка тесноты принятой формы связи.
- •Однофакторная линейная зависимость
- •Нелинейные двухпараметрические модели
- •Вопросы для самопроверки
- •Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели
- •Оценка значимости корреляционной связи
- •Проверка адекватности модели
- •Коэффициент ранговой корреляции Спирмена
- •Вывод формулы для коэффициента ранговой корреляции Спирмена
- •Вопросы для самопроверки
- •Лекция 16. Линейный регрессионный анализ в стандартизованных переменных
- •Способы составления многофакторных моделей
- •Коэффициенты частной корреляции
- •Вывод формул для дисперсий коэффициентов регрессии и расчетных значений
- •Вопросы для самопроверки
Оценка тесноты принятой формы связи.
Ввиду ортогональности ошибок к каждому члену модели [e] = 0; [ex1] = 0; [ex2] = 0 ошибки будут также ортогональны к расчетным значениям [eур] = 0, где ур = b0 + b1 x1 + b2 x2 .
Выражение у = ур + е представляет собой разложение "полного сигнала" (у) на две компоненты – детерминированную часть (ур), которая определяется моделью (уравнением регрессии; в конечном итоге, – объясняющими переменными х1 , х2) и ошибку (е), которая моделью не определяется. Оказывается, что точно такое же разложение имеет сумма квадратов отклонений SSy = SSp + SSe.
Покажем это. Ввиду ортогональности ошибок к свободному члену модели [e] = 0 получается, что . Преобразуем полную (общую) сумму квадратов отклонений:
.
Удвоенная сумма равна нулю ввиду ортогональности ошибок к расчетным значениям [eур] = 0 и свободному члену модели [e] = 0 .
Мы получили разложение общей суммы квадратов отклонений (SSy ) на две компоненты, одна из которых определяется моделью (SSр ), а другая (SSе) моделью не определяется SSy = SSр + SSе, или в относительных единицах: . Относительный вклад детерминированной части называется "коэффициентом детерминации":
.
Коэффициент детерминации изменяется от 0 до 1 (0 R2 1).
Действительно, коэффициент детерминации есть отношение сумм квадратов, которые не могут быть отрицательными; с другой стороны коэффициент детерминации не может быть больше единицы, т.к. .
Если коэффициент детерминации равен нулю, то равна нулю сумма квадратов , следовательно, равны нулю все ее члены, откуда для любых значений аргументов х1 , х2 расчетные значения будут одинаковыми , следовательно, отсутствует корреляционная зависимость выбранной формы связи.
Если коэффициент детерминации равен единице, то равна нулю сумма квадратов SSe = [e2], следовательно, равны нулю все ее члены, иными словами, никаких ошибок нет, каждому значению аргументов х1 , х2 соответствует единственное расчетное значение ур . Однозначное соответствие между множеством значений объясняющих переменных и множеством значений результативной переменной является функциональной зависимостью.
Чем ближе коэффициент детерминации к единице, тем ближе найденная корреляционная зависимость к функциональной.
Коэффициент детерминации R2 показывает, какая часть полной изменчивости определяется выбранной регрессионной моделью. Принято извлекать корень квадратный из коэффициента детерминации . Характеристика R называется "коэффициентом корреляции": "коэффициентом парной корреляции", если модель линейная однофакторная, или "коэффициентом множественной корреляции" – во всех остальных случаях..
Для рассмотренного выше примера аппроксимации данных квадратичной моделью была вычислена сумма квадратов ошибок SSe = 0,914; из таблицы расчета сумм выписываем также n = 5, [y] = 92, [y2] = 1752, откуда получаем значение общей суммs квадратов .
Вычисляем коеффициент детерминации
,
т .е. в данном примере 98,5% изменчивости у объсняется квадратичной зависимостью от х. Коэффициент (множественной) корреляции здесь равен .
В отличие от "индекса детерминации" (другой меры тесноты корреляционной связи, введенной в предыдущей лекции о дисперсионном анализе), при равенстве нулю коэффициента детерминации еще нельзя утверждать, что корреляционной связи нет вообще. На рис. 14.4 изображена функциональная (т.е. наиболее тесная) квадратичная зависимость, которую ошибочно попытались аппроксимировать линейной моделью. Ввиду симметрии расположения заданных точек, наилучшая линейная модель получилась в виде , для которой R2 = 0.