- •Экзаменационный билет № 1
- •Основные задачи теории выборки
- •Экзаменационный билет № 3
- •Экзаменационный билет № 4
- •Доверительная вероятность
- •Средняя квадратическая и предельная ошибки выборки
- •Статистическая гипотеза и общая схема ее проверки
- •Бесповторный отбор:
- •Проверка гипотезы о равенстве дисперсий двух генеральных совокупностей
- •Статистическая и корреляционная зависимости между переменными
- •Коэффициент корреляции и его свойства
- •Основные задачи теории корреляции и регрессионного анализа
- •Парная регрессия
Бесповторный отбор:
Бесповторный отбор, то есть попавшая единица в выборку не возвращается в совокупность, из которой производится дальнейший отбор.
1. Рассчитаем среднюю ошибку выборки:
(8.7)
где N-это объем генеральной совокупности; n-объем выборки из генеральной совокупности; - взвешенная дисперсия ( жилой площади, приходящейся на 1 человека)
1. Определяем предельную ошибку выборки с вероятностью 0,954 по формуле (8.5):
2. Установим границы генеральной средней по формуле (8.6):
С вероятностью 0,954 можно сделать заключение, что среднее число школ приходящихся на одного человека находиться в пределах от 18,3 до 19,7.
Проверка гипотезы о равенстве дисперсий двух генеральных совокупностей
Пусть из двух нормально распределенных генеральных совокупностей извлечены выборки объема и соответственно. По этим выборкам вычислены несмещенные оценки дисперсий и . Для проверки нулевой гипотезы о равенстве дисперсий генеральных совокупностей против одной из альтернативных ( – двусторонняя критическая область, или – односторонняя критическая область) используется случайная величина
,
здесь в числителе дроби стоит максимальная оценка дисперсии из и , в знаменателе – минимальная. Если нулевая гипотеза верна, то статистика распределена по закону Фишера-Снедекора как отношение двух случайных величин, имеющих распределение и ( – число степеней свободы числителя; – число степеней свободы знаменателя).
Действительно, если , для определенности будем полагать , то
где , .
По таблице распределения Фишера-Снедекора (прил. 5) для заданного уровня значимости определяется критическое значение статистики для двусторонней критической области и – для односторонней критической области.
Вычисленное значение статистики сравнивается с критическим. Если , то при уровне значимости нулевую гипотезу считают непротиворечащей опытным данным. Если же , то нулевая гипотеза отвергается в пользу конкурирующей.
Пример 4.9. Проведены измерения пульса у больных, подвергнутых некоторой лечебной процедуре, а также у больных контрольной группы. Статистическая обработка результатов показала, что несмещенная оценка дисперсии частоты пульса больных первой группы составила (уд/мин)2, у больных второй группы – (уд/мин)2. Предполагая, что значения пульса у подобных больных распределены по нормальному закону, при уровне значимости проверить значимость различия между оценками дисперсий.
Решение. Итак, необходимо проверить нулевую гипотезу относительно альтернативной . Поскольку исправленная выборочная дисперсия значений пульса у больных первой группы превышает соответствующую оценку для больных второй группы, то по формуле для статистики получим:
Поскольку альтернативная гипотеза задает двустороннюю критическую область, число степеней свободы числителя равно , а знаменателя – для по таблице распределения Фишера-Снедекора (прил. 5) найдем критическое значение статистики: .
Экспериментальное значение критерия меньше критического (попало в область принятия нулевой гипотезы), следовательно, проверяемая гипотеза не противоречит опытным данным, и при уровне значимости наблюдаемое различие в оценках дисперсии следует считать незначимым.
Экзаменационный билет № 12
Вариационный ряд
Вариационный ряд — это упорядоченное распределение единиц совокупности чаще по возрастающим (реже убывающим) значениям признака и подсчет числа единиц с тем или иным значением признака. Когда численность единиц совокупности большая, ранжированный ряд становится громоздким, его построение занимает длительное время. В такой ситуации вариационный ряд строится с помощью группировки единиц совокупности по значениям изучаемого признака.
Существуют следующие формы вариационного ряда:
-
Ранжированный ряд представляет собой, перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.
-
Дискретный вариационный ряд — это таблица, состоящая из двух строк или граф: конкретных значений варьирующего признака х и числа единиц совокупности с данным значение f — признака частот. Он строится тогда, когда признак принимает наибольшее число значений.
-
Интервальный ряд.
Проверка гипотезы о законе распределения совокупности
Проверка гипотезы о законе распределения генеральной совокупности по критерию Пирсона (критерий c2)
При объеме выборки для проверки гипотезы о законе распределения используют критерий c2 (критерий Пирсона, критерий согласия). Он применяется для группированных данных (как при построении гистограммы), когда в каждом интервале находится не менее 5 измерений (иначе интервал называется малонаселенным). Если число измерений в интервале оказывается меньше 5, тогда он объединяется с соседним.
Современный взгляд на этот вопрос заключается в следующем: не должно быть «пустых» интервалов [8].
Если рассматривать частоту i-го интервала как случайную величину, то – число появлений «успеха» в независимых испытаниях, где под «успехом» понимается попадание случайной величины в -й интервал. Таким образом, вероятность «успеха» равна , а случайная величина имеет биномиальное распределение с параметрами и . В частности, . Рассмотрим статистику c2 – функцию от случайных величин , определяемую формулой
,
где – число данных в i-м интервале (), – теоретическая вероятность попадания случайной величины в i-й интервал, – объем выборки, – число интервалов.
Можно показать, что, если закон распределения генеральной совокупности подобран правильно, то с ростом случайную величину можно считать распределенной по распределению с числом степеней свободы ; – числом параметров проверяемого закона распределения, вычисленных по выборке. Следует обратить внимание на то, что число степеней свободы – это число независимых слагаемых в сумме , т. е. общее число слагаемых минус число наложенных уравнений связи. В общем случае по выборке оценивают параметров. Еще одно уравнение связи вполне очевидно: сумма всех вероятностей равна 1 (если первый и последний интервалы полуоткрытые) или некоторому числу, меньшему 1 (но известному). В случае нормального распределения , так как по выборке оцениваются два параметра распределения – математическое ожидание и дисперсия. В случае распределения Пуассона , так как математическое ожидание и дисперсия его равны, по выборке определяется один параметр.
Итак, критерий согласия c2 имеет вид
. (4.2)
Вычисленное по формуле (4.2) значение сравнивается с табличным (критическим, прил. 3) при выбранном одностороннем уровне значимости . Если , то гипотеза о виде распределения не отвергается, в противном случае она отвергается, и строится новая гипотеза – предполагается другой закон.
Статистика c2 лишь приближенно имеет распределение (при справедливой нулевой гипотезе), причем для этого необходим не только большой объем выборки , но и достаточно большое число интервалов . Строгого решения вопроса о числе интервалов и необходимом объеме выборки нет. На практике критерием (4.2) пользуются и при довольно малых (10–15) и (40–50). При этом необходимо помнить, что в этом случае критерий (4.2) обладает повышенной вероятностью ошибки первого рода (признать неверной проверяемую нулевую гипотезу, когда она верна). Поэтому в таких ситуациях, когда выводы о законе распределения по критериям Колмогорова и Пирсона окажутся противоречащими друг другу, предпочтение должно быть отдано критерию Колмогорова.
Экзаменационный билет № 13
Средняя арифметическая, дисперсия и среднее квадратическое отклонение дискретного вариационного ряда.
Простая средняя арифметическая — Равна отношению суммы индивидуальных значений признака к количеству признаков в совокупности
Представим это в виде следующей формулы:
-
— цена за единицу продукции;
-
— количество (объем) продукции;
Взвешенная средняя арифметическая — равна отношению (суммы произведений значения признака к частоте повторения данного признака) к (сумме частот всех признаков).Используется, когда варианты исследуемой совокупности встречаются неодинаковое количество раз.
Дисперсия в статистике находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:
1. Простая дисперсия (для несгруппированных данных) вычисляется по формуле:
2. Взвешенная дисперсия (для вариационного ряда):
где n - частота (повторяемость фактора Х)
Среднее квадратичное отклонение определяется как обобщающая характеристика размеров вариации признака в совокупности. Оно равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической, т.е. корень из дисперсии и может быть найдена так:
1. Для первичного ряда:
2. Для вариационного ряда:
Преобразование формулы среднего квадратичного отклонени приводит ее к виду, более удобному для практических расчетов:
Среднее квадратичное отклонение определяет на сколько в среднем отклоняются конкретные варианты от их среднего значения, и к тому же является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, и поэтому хорошо интерпретируется.