
- •1.1.2 Выборка и генеральная совокупность. Типы выборок.
- •1.1.3 Ранжирование (группировка, классификация) данных.
- •1.1.4 Распределение вариант и распределение средних. Выборочные характеристики как оценки характеристик генеральной совокупности. Свойства оценок: несмещенность, состоятельность, эффективность.
- •1.1.5 Оценка стандартного отклонения для распределения средних.
- •1.1.6 Доверительный интервал -1. Интервал для среднего случайной выборки, если генеральное среднее известно
- •1.1.7 Доверительный интервал -2. Интервал для генерального среднего
- •1.1.8 Нулевая гипотеза - 1. Основные понятия.
- •1.1.9 Нулевая гипотеза - 2. Зачем нам два уровня значимости
- •1.1.10 Критерий χ-квадарат.
- •1.2 Двумерные случайные величины
- •1.2.1 Правила вычислений моментов второго порядка
- •1.1.2 Коэффициент корреляции
- •2. Регрессионный анализ
- •2.1 Парная линейная регрессия
- •2.1.1 Простейшая модель – парная линейная регрессия
- •2.1.2 Мера оценки отклонений – метод наименьших квадратов (мнк).
- •2.1.3 Практические вычисления для линейной модели.
- •2.1.4 Условия применимости метода наименьших квадратов
- •2.1.5 Качество оценки переменной y, полученное с помощью уравнения регрессии.
- •2.1.6 Качество модели – f-критерий (критерий Фишера)
- •2.1.7 Оценки ошибок коэффициентов регрессии
- •2.1.8 Проверка гипотез для коэффициентов регрессии
- •2.2 Парная нелинейная регрессия
- •2.2.1 Распространение методов парной линейной регрессии на нелинейные задачи
- •2.2.2 Квадратичная регрессия
1.1.5 Оценка стандартного отклонения для распределения средних.
Если мы рассмотрим распределение
средних, то очевидно в силу несмещенности
оценки µ (матожидания или генерального
среднего) через выборочное среднее
,
матожидание в распределении средних
будет совпадать с µ:
.
Но возникаете вопрос об оценке стандартного
отклонения для распределения средних.
Можно показать, что стандартное отклонение
для распределения средних убывает
пропорционально корню из размера
выборки:
значит и точно такая же связь должна
наблюдаться между оценками стандартного
отклонения для двух распределений:
распределения вариант и распределения
средних, а именно
(1.4)
Т.е. располагая всего одной
выборкой объема n
мы можем получить несмещенную оценку
стандартного отклонения для генеральной
совокупности s
и несмещенную оценку стандартного
отклонения для распределения выборочных
средних
1.1.6 Доверительный интервал -1. Интервал для среднего случайной выборки, если генеральное среднее известно
Предположим, что нам известно генеральное среднее µ, и мы сделали выборку достаточно большую для того, чтобы утверждать, что распределение средних для выборок такого объема близко к нормальному.
Среднее для такой выборки есть одна точка (варианта) в распределении выборочных средних. Мы можем также используя данные нашей выборки вычислить , которая является оценкой корня из дисперсии для распределения выборочных средних.
Но матожидание для распределения средних совпадает с генеральным средним µ.
Теперь используя µ и в качестве матожидания и стандартного отклонения для распределения средних, мы можем оценить вероятность попадания среднего нашей выборки в любой интервал, для чего можно воспользоваться функцией Лапласа (интегралом вероятностей).
Так мы можем утверждать, что вероятность того, что среднее для нашей выборки с заданным объемом n находится в интервале (µ − , µ + ) c вероятностью 68,3%.
Действительно, концы интервала (µ − , µ + ) соответствуют значениям аргумента функции Лапласа8: (–1) и +1. Из таблицы находим, что значение этой функции для х = 1 составляет Ф(1) = 0,841. Значит Ф(−1) = 1−Ф(1) = 1−0,841 = 0,159, а вероятность попасть в интервал (−1, 1) соответственно будет равно: Р = 0,841 − 0,159 ≈ 0,683 = 68,3%.
Соответственно, вероятность оказаться в интервале (µ − 2 , µ + 2 ) составит примерно 95,5%.
Обычно используются круглые значения не для коэффициента с, а для вероятности: 95% и 99%, они соответствуют значениям множителя с перед : 1,96 и 2,58 соответственно.
1.1.7 Доверительный интервал -2. Интервал для генерального среднего
Целью наших рассмотрений является получение оценки генерального среднего µ при условии, что располагаем мы всего лишь одной выборкой.
Мы ранее получили следующий результат: если значение генерального среднего равно µ, а оценка стандартного отклонения для распределения средних равна , то среднее произвольной выборки данного объема будет:
- находится в интервале (µ − 1,96 , µ + 1,96 ) с вероятностью 95%
- находится в интервале (µ − 2,58 , µ + 2,58 ) с вероятностью 99%.
Однако разобранная нами ситуация не реальна, в действительности ведь все обстоит прямо наоборот: реально мы располагаем средним одной выборки и оценкой стандартного отклонения для распределения средних , а интервал, в котором расположено генеральное среднее µ нам как раз необходимо найти.
Для этого попробуем осознать тот факт, что фраза: «Число х принадлежит интервалу (а – ε, а + ε)» эквивалентна утверждению «расстояние между числами а и х меньше, чем ε».
Но это означает, что утверждения «Число х принадлежит интервалу (а – ε, а + ε)» и «Число а принадлежит интервалу (х – ε, х + ε)» также эквивалентны, т.е. всегда либо оба они верны, либо оба они ложны – принцип взаимности. Соответственно и утверждения «среднее находится в интервале (µ − 1,96 , µ + 1,96 )» и «генеральное среднее µ находится в интервале ( − 1,96 , + 1,96 )» также эквивалентны.
Таким образом, мы можем подвести итог.
Пусть мы сделали выборку объёма n из генеральной совокупности, причем этот объём достаточно велик для того, чтобы мы могли считать, что распределение выборочных средних при таком объёме выборки близко к нормальному.
Для этой выборки мы подсчитали выборочное среднее и .
Тогда мы можем утверждать, что генеральное среднее µ :
- находится в интервале ( − 1,96 , + 1,96 ) с вероятностью 95%
- находится в интервале ( − 2,58 , + 2,58 ) с вероятностью 99%.
Т.е. сделав всего одну выборку и подсчитав и мы получаем интервальную оценку для среднего генеральной совокупности – что и было нашей целью.
Интервалы типа ( − с , + с ), где с – числовой коэффициент, называются доверительными интервалами, а соответствующие им вероятности доверительными вероятностями.
Часто вместо доверительных вероятностей используют величины, дополняющие их до 100% (до единицы – если вероятности выражены в десятичных дробях, а не в процентах), такие величины называются уровнями значимости. Так доверительной вероятности в 95% (в дробях – 0,95), отвечает уровень значимости в 5% (0,05).
Сделаем еще одно важное замечание. Для больших выборок характер распределения средних всегда близок к нормальному. Но если сами варианты распределены нормально, оказывается распределение средних можно описать точно.
В этом случае они подчиняются так называемому распределению Стьюдента. Характер распределения Стьюдента зависит от объема выборки. Для выборок, содержащих 50 и более вариант, различия между распределениями Гаусса и Стьюдента уже практически не существенны. Для не очень больших объемов выборки в этом случае применяют несколько иной способ нахождения доверительного интервала.
По специальным таблицам распределения Стьюдента определяют величины коэффициентов с, которые обеспечивают попадание в интервал ( − с , + с ) с вероятностями 95% и 99% (уровни значимости в 5% и в 1%).
В таблицах приводятся величины этих коэффициентов в зависимости от объема выборки.