
- •Лекция 1. Основные понятия теории вероятности
- •Вопросы для самопроверки
- •Лекция 2. Теоремы о вероятностях
- •Теорема умножения вероятностей
- •Краткая классификация событий
- •Теорема о полной вероятностей
- •Теорема (формула) Байеса
- •Теорема сложения вероятностей
- •Принцип практической невозможности редких событий
- •Вопросы для самопроверки
- •Лекция 3. Случайные величины
- •Дискретная случайная величина
- •Числовые характеристики случайных величин
- •Характеристики положения
- •Характеристики разброса
- •Характеристики формы
- •Свойства математического ожидания
- •Свойства дисперсии
- •Правило "3-х сигм"
- •Вопросы для самопроверки
- •Лекция 4. Распределение Бернулли, Пуассона, Лапласа Распределение Бернулли
- •Биномиальные коэффициенты
- •Распределение Пуассона
- •Вопросы для самопроверки
- •Лекция 5. Распределение Лапласа
- •И нтегральная теорема Лапласа
- •Три основных формы интегральной теоремы Лапласа
- •Вопросы для самопроверки
- •Лекция 6. Непрерывная случайная величина
- •Нормальный закон распределения Гаусса
- •Показательный или экспоненциальный закон распределения
- •Квантили распределения
- •Вопросы для самопроверки
- •Лекция 7. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •Центральная предельная теорема
- •Композиция распределений случайных величин
- •Функции случайного аргумента
- •Вопросы для самопроверки
- •Лекция 8. Система случайных величин
- •Закон распределения дискретной двумерной случайной величины
- •Характеристики дискретной двумерной случайной величины
- •Закон распределения непрерывной двумерной случайной величины
- •Характеристики непрерывной двумерной величины
- •Двумерный нормальный закон
- •Вопросы для самопроверки
- •Лекция 9. Проблемы математической статистики
- •Способы составления выборочных подсовокупностей
- •Статистичекое оценивание
- •Вопросы для самопроверки
- •Лекция 10. Свойства статистических оценок
- •Оценка параметров распределения
- •Статистические критерии
- •Вопросы для самопроверки
- •Лекция 11. Критерии согласия Критерий согласия Пирсона
- •Критерий согласия Колмогорова – Смирнова
- •Интервальные оценки характеристик и параметров
- •Вопросы для самопроверки
- •Лекция 12. Проверка статистических гипотез Распределение Стьюдента
- •Интервальная оценка для математического ожидания
- •Проверка гипотезы о равенстве центров двух совокупностей
- •Сравнение двух дисперсий
- •Вопросы для самопроверки
- •Лекция 13. Дисперсионный анализ
- •Ранговый дисперсионный анализ Краскала–Уоллиса
- •Время появления реакции в 4-х группах
- •Ранжированнае данные
- •Дополнение к выводу формул Краскала–Уоллиса
- •Вопросы для самопроверки
- •Лекция 14. Регрессионный анализ
- •Метод наименьших квадратов (мнк)
- •Пример расчета мнк-оценок параметров
- •Оценка тесноты принятой формы связи.
- •Однофакторная линейная зависимость
- •Нелинейные двухпараметрические модели
- •Вопросы для самопроверки
- •Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели
- •Оценка значимости корреляционной связи
- •Проверка адекватности модели
- •Коэффициент ранговой корреляции Спирмена
- •Вывод формулы для коэффициента ранговой корреляции Спирмена
- •Вопросы для самопроверки
- •Лекция 16. Линейный регрессионный анализ в стандартизованных переменных
- •Способы составления многофакторных моделей
- •Коэффициенты частной корреляции
- •Вывод формул для дисперсий коэффициентов регрессии и расчетных значений
- •Вопросы для самопроверки
Вопросы для самопроверки
1. Что такое "совокупность", "генеральная совокупность", "выборка"?
2. Что такое "репрезентативность"? Приведите примеры отсутствия репрезентативности.
3. Перечислите основные проблемы математической статистики.
4. Как составляются представительные выборки данных?
5. Что такое "статистические оценки". Перечислите основные статистические оценки характеристик и функций распределения.
6. Напишите сравнительные формулы для характеристик случайной величины и для их статистистических оценок.
7. Как составляется интервальный вариационный ряд?
8. Что такое "гистограмма"? Как она строится и преобразуется при укрупнении интервалов?
9. Что такое "полигон" для непрерывной случайной величины? Чему равняется его площадь? Что означает часть площади полигона (гистограммы) на определенном интервале варьирования случайной величины?
10. Что такое "кумулята"? Как она строится для непрерывной случайной величины? Для дискретной случайной величины?
12. Как с помощью кумуляты находятся значения (оценки) квартилей?
13. Что показывает блочная диаграмма Тьюкки?
Лекция 10. Свойства статистических оценок
Доброкачественные оценки должны быть "состоятельными", "несмещенными" и "эффективными".
Оценка
b
генеральной характеристики
называется состоятельной,
если при увеличении объема выборки она
приближается к своей генеральной
характеристике:
.
Если это свойство не выполняется, оценка
является дефектной. Несостоятельными
оценками пользоваться нельзя.
Все наши предыдущие оценки были состоятельными.
Доказано,
что (на основании закона больших чисел)
относительная частота стремится к
вероятности, а среднее стремится к
математическому ожиданию
,
.
Иными словами, эти оценки – состоятельные.
Но тогда будут состоятельными все оценки, основанные на замене вероятностей на относительные частоты, а математических ожиданий – на средние.
Так,
для оценки дисперсии
в пределе (n )
получаем:
.
Оценка b генеральной характеристики называется несмещенной, если М(b) = . Несмещенные оценки не имеют систематических ошибок (смещений).
Ранее
уже было доказано (в разделе о распределении
среднего Xcp),
что
.
Первую формулу теперь можно трактовать
так: выборочное среднее есть несмещенная
оценка математического ожидания.
Н
а
рис. 10.1 изображено рассеяние
исходных данных вокруг своего центра
М(х).
Предполагается, что из этих данных
случайным образом отбираются по n
элементов в различные выборки и
вычисляются их средние. Средние различных
случайных выборок рассеяны вокруг
своего центра
.
Оказывается, что центр группировки
выборочных средних совпадает с центром
группировки исходных данных
.
Систематического смещения нет.
О
днако
выборочная оценка дисперсии уже не
обладает несмещенностью, она состоятельна,
но систематически занижена
(см. рис. 10.2). Дело в том, что в генеральной
дисперсии рассматриваются отклонения
от центра совокупности, а в выборочной
оценке – от центра выборки, а это не
одно и то же:
,
.
Выведем формулу для расчета несмещенной оценки дисперсии.
Записываем формулы для дисперсии исходной случайной величины X, для дисперсии средних Xср и для оценки дисперсии :
Вычисляем математическое ожидание от (определяем центр группировки выборочных оценок дисперсии):
.
При
преобразованиях мы дважды использовали
факт несмещенности оценки математического
ожидания и в одном месте заменили
на
,
а в другом месте,
наоборот, заменили М(х)
на
.
Получилось, что центр группировки
выборочных оценок дисперсии
всегда меньше свого предельного значения
(генеральной дисперсии). Эта систематическая
ошибка уменьшается с увеличением объема
выборки (т.к. оценка дисперсии –
состоятельная).
Продолжаем
преобразования. Используем формулу для
дисперсии среднего:
.
Введем поправку
на несмещенность и получим несмещенную
оценку дисперсии в виде:
.
Здесь
–
сумма квадратов
n
отклонений значений xi
от центра выборки (SS
– summa of square – сумма квадратов). Однако
не все n
отклонений
являются независимыми – их сумма всегда
равна нулю (нулевое или центральное
свойство среднего). Следовательно,
независимых отклонений будет на единицу
меньше, последнее отклонение всегда
можно найти из выражения
.
Введем понятие "числа степеней
свободы", которое равно разности
количества значений случайной величины
и числа наложенных на них линейных
связей: ЧСС = dfx = n –
l (df
– degree of fridom – степени свободы); сейчас
у нас одна связь – центральное свойство
среднего, поэтому dfx = n –
1. Обычная оценка дисперсии равна
отношению суммы квадратов (отклонений)
к общему числу наблюдений, а несмещенная
оценка дисперсии равна отношению суммы
квадратов к числу степеней свободы.
Несмещенная оценка дисперсии состоятельная и не имеет систематической ошибки. Это хорошо. К сожалению, за все приходится платить. Для несмещенных оценок дисперсии не выполняется важнейшее свойство дисперсии: несмещенная оценка дисперсии суммы независимых случайных величин больше не равна сумме оценок дисперсий отдельных слагаемых. Поэтому в той или иной форме используются оба вида оценок дисперсии (в англо-американской научной литературе обозначение закреплено за несмещенной оценкой дисперсии, но параллельно с ней оперируют с суммами квадратов SSx , которые пропорциональны обычным оценкам дисперсии).
Оценка
b
генеральной характеристики
называется эффективной,
если она имеет наименьшую дисперсию:
.
Оценка – случайная величина, она зависит от состава случайной выборки. Если оценка неэффективная, то ее дисперсия недопустимо велика, что приводит к нестабильности результатов оценивания. Ошибка оценивания слагается из случайной ошибки и систематического смещения. Мы пытаемся использовать несмещенные оценки, для которых систематического смещения нет. Однако при этом иногда непомерно возрастает случайный разброс несмещенной оценки, из-за чего такая оценка оказывается явно неразумной (бывает даже, что оценка получается с противоположным знаком). Для пользователя слабым утешением является соображение о том, что явная ошибка оценивания является чисто случайной. Надо искать компромисс, можно допустить небольшую систематическую ошибку, лишь бы при этом суммарная ошибка оценивания была небольшой. Иными словами, пусть оценка будет немного смещенной, но более эффективной.
В регрессионном анализе несмещенные оценки параметров модели (по образному выражению К. Доугерти, оценки "инструментов экономического воздействия") получают в результате решения системы уравнений с корреляционной матрицей. Теоретически эта система всегда совместна (т.е. всегда имеет решение). Однако когда определитель системы линейных уравнений равен нулю (вырождение), то решение совмесной системы становится неединственным, а стандартные числовые алгоритмы решения просто не работают. Еще хуже, когда определитель нулю не равен, но близок к нему. Тогда формально будет получено единственное решение, но оно оказывается нестабильным настолько, что часто не имеет разумной интерпретации. Предложено к диагональным элементам корреляционной матрицы (они равны единице) добавлять малый параметр (число порядка 0,01 ‑ 0,05). Решение такой измененной системы уже будет стабильным, т.е. существенно уменьшается дисперсия случайной ошибки (этот эффект легко заметить, произведя серию решений с последовательно увеличивающимся параметром). Однако при добавлении малого параметра система-то уже становится другой (пусть близкой, но другой). Появляется систематическое смещение между решениями исходной и измененной системами уравнений. Иными словами, оценки параметров модели теряют свойство несмещенности, но становятся более эффективными, в результате чего общая (суммарная) ошибка существенно снижается.