
- •Лекция 1. Основные понятия теории вероятности
- •Вопросы для самопроверки
- •Лекция 2. Теоремы о вероятностях
- •Теорема умножения вероятностей
- •Краткая классификация событий
- •Теорема о полной вероятностей
- •Теорема (формула) Байеса
- •Теорема сложения вероятностей
- •Принцип практической невозможности редких событий
- •Вопросы для самопроверки
- •Лекция 3. Случайные величины
- •Дискретная случайная величина
- •Числовые характеристики случайных величин
- •Характеристики положения
- •Характеристики разброса
- •Характеристики формы
- •Свойства математического ожидания
- •Свойства дисперсии
- •Правило "3-х сигм"
- •Вопросы для самопроверки
- •Лекция 4. Распределение Бернулли, Пуассона, Лапласа Распределение Бернулли
- •Биномиальные коэффициенты
- •Распределение Пуассона
- •Вопросы для самопроверки
- •Лекция 5. Распределение Лапласа
- •И нтегральная теорема Лапласа
- •Три основных формы интегральной теоремы Лапласа
- •Вопросы для самопроверки
- •Лекция 6. Непрерывная случайная величина
- •Нормальный закон распределения Гаусса
- •Показательный или экспоненциальный закон распределения
- •Квантили распределения
- •Вопросы для самопроверки
- •Лекция 7. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •Центральная предельная теорема
- •Композиция распределений случайных величин
- •Функции случайного аргумента
- •Вопросы для самопроверки
- •Лекция 8. Система случайных величин
- •Закон распределения дискретной двумерной случайной величины
- •Характеристики дискретной двумерной случайной величины
- •Закон распределения непрерывной двумерной случайной величины
- •Характеристики непрерывной двумерной величины
- •Двумерный нормальный закон
- •Вопросы для самопроверки
- •Лекция 9. Проблемы математической статистики
- •Способы составления выборочных подсовокупностей
- •Статистичекое оценивание
- •Вопросы для самопроверки
- •Лекция 10. Свойства статистических оценок
- •Оценка параметров распределения
- •Статистические критерии
- •Вопросы для самопроверки
- •Лекция 11. Критерии согласия Критерий согласия Пирсона
- •Критерий согласия Колмогорова – Смирнова
- •Интервальные оценки характеристик и параметров
- •Вопросы для самопроверки
- •Лекция 12. Проверка статистических гипотез Распределение Стьюдента
- •Интервальная оценка для математического ожидания
- •Проверка гипотезы о равенстве центров двух совокупностей
- •Сравнение двух дисперсий
- •Вопросы для самопроверки
- •Лекция 13. Дисперсионный анализ
- •Ранговый дисперсионный анализ Краскала–Уоллиса
- •Время появления реакции в 4-х группах
- •Ранжированнае данные
- •Дополнение к выводу формул Краскала–Уоллиса
- •Вопросы для самопроверки
- •Лекция 14. Регрессионный анализ
- •Метод наименьших квадратов (мнк)
- •Пример расчета мнк-оценок параметров
- •Оценка тесноты принятой формы связи.
- •Однофакторная линейная зависимость
- •Нелинейные двухпараметрические модели
- •Вопросы для самопроверки
- •Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели
- •Оценка значимости корреляционной связи
- •Проверка адекватности модели
- •Коэффициент ранговой корреляции Спирмена
- •Вывод формулы для коэффициента ранговой корреляции Спирмена
- •Вопросы для самопроверки
- •Лекция 16. Линейный регрессионный анализ в стандартизованных переменных
- •Способы составления многофакторных моделей
- •Коэффициенты частной корреляции
- •Вывод формул для дисперсий коэффициентов регрессии и расчетных значений
- •Вопросы для самопроверки
Вопросы для самопроверки
1. Сформулируйте задачу регрессионного анализа.
2. Что такое "линия регрессии" и "уравнение регрессии"?
3. Что такое "сопряженные" уравнения и линии регрессии?
4. В чем заключается принцип наименьших квадратов?
5. Как составляется "система нормальных уравнений"?
6. Что такое "коэффициент детерминации"?
7. Чем "коэффициент детерминации" отличается от "индекса детерминации"? Перечислите их свойства.
8. Опишите наиболее распространенные двухпараметрические нелинейные зависимости.
9. Как графически проверить правильность выбора формы связи?
Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели
В регрессионной модели "полный сигнал" – наблюдаемые значения у – разлагается на две компоненты: "полезный сигнал" – расчетные значения ур , которые определяются моделью (значениями аргументов х1 , х2), и "помеху" – ошибки модели е
у = ур + е,
где (например, для двухфакторной линейной модели) yp = b0 + b1x1 + b2x2 .
В предыдущей лекции (лекция 14 об основах регрессионного анализа) было показано, что точно такое же разложение имеет общая сумма квадратов отклонений SSy = SSp + SSe. Покажем, что такое же разложение имеет также число степеней свободы dfy = dfp + dfe.
dfy = n – 1,
т.к. на n
отклонений
наложена одна связь – сумма всех этих
отклонений равна нулю
(центральное свойство среднего).
dfе = n – 1 – m,
где m
– число объясняющих переменных. Для
определения параметров модели принимаются
условия ортогональности ошибок к каждому
члену модели [e] = 0,
[ex1] = 0,
[ex2] = 0
– это связи, наложенные на отклонения
ошибок от их среднего значения. Обычно
в модели число определяемых параметров
на единицу превышает число аргументов
из-за обязательного наличия в модели
свободного члена b0
(кстати, наличие в модели свободного
члена приводит к равенству нулю среднего
значения ошибки
и равенству средних
).
Для
числа степеней свободы расчетных
значений должно получиться
dfp = dfy – dfe = (n – 1) – (n –1 – m) = m.
Рассмотрим отклонения расчетных значений
от среднего значения:
.
При преобразовании было использовано
первое уравнение нормальной системы
(см. предыдущую лекцию)
– следствие условия [e] = 0.
Напоминаем, что в регрессионном анализе
все объясняющие переменные xj
считаются не случайными, поэтому
оказалось, что все отклонения расчетных
значений от своего среднего
являются разными линейными комбинациями
m
случайных величин bj
с не случайными коэффициентами
.
Отсюда следует, что независимыми могут
быть только m
таких
комбинаций,
т.е. dfp = m.
Для проверки значимости модели заполним таблицу дисперсионного анализа 1, причем выразим суммы квадратов SSp = R2SSy и SSe = (1 – R2)SSy через общую сумму квадратов SSy и коэффициент детерминации R2.
Таблица дисперсионного анализа 1 для оценки значимости модели
Источник изменчивости |
Суммы квадратов |
ЧСС |
Средние квадраты |
Дисперсионное отношение |
Регрессия |
SSp = R2SSy |
dfp = m |
MSp = SSp / dfp |
Fp = MSp / MSe |
Остаток модели |
SSe = (1 – R2)SSy |
dfe = n – 1 – m |
MSe = SSe / dfe |
|
Общая |
|
dfy = n – 1 |
|
|
Получено следующее выражение для дисперсионного отношения Фишера
,
которое надо сравнивать с табличными значениями F0,05(dfp; dfe) и F0,01(dfp; dfe).
Для одномерного случая (m = 1) ЧСС dfp = 1 и дисперсионное отношение
надо
сравнивать с табличными значениями
,
где =0,05
и 0,01. Интересно, что для линейной
однофакторной зависимости мера тесноты
связи
и характеристика ее значимости Fp
получаются одинаковыми для обеих
сопряженных моделей.
Регрессионная модель считается значимой, если вычисленное значение дисперсионного отношения будет больше верхней границы Fp > F0,01 ; модель признается незначимой, если Fp < F0,05 .