![](/user_photo/2706_HbeT2.jpg)
- •Экзаменационный билет № 1
- •Основные задачи теории выборки
- •Экзаменационный билет № 3
- •Экзаменационный билет № 4
- •Доверительная вероятность
- •Средняя квадратическая и предельная ошибки выборки
- •Статистическая гипотеза и общая схема ее проверки
- •Бесповторный отбор:
- •Проверка гипотезы о равенстве дисперсий двух генеральных совокупностей
- •Статистическая и корреляционная зависимости между переменными
- •Коэффициент корреляции и его свойства
- •Основные задачи теории корреляции и регрессионного анализа
- •Парная регрессия
Бесповторный отбор:
Бесповторный отбор, то есть попавшая единица в выборку не возвращается в совокупность, из которой производится дальнейший отбор.
1. Рассчитаем среднюю ошибку выборки:
(8.7)
где
N-это объем генеральной совокупности;
n-объем выборки из генеральной
совокупности; -
взвешенная дисперсия
(
жилой
площади, приходящейся на 1 человека)
1. Определяем предельную ошибку выборки с вероятностью 0,954 по формуле (8.5):
2. Установим границы генеральной средней по формуле (8.6):
С вероятностью 0,954 можно сделать заключение, что среднее число школ приходящихся на одного человека находиться в пределах от 18,3 до 19,7.
Проверка гипотезы о равенстве дисперсий двух генеральных совокупностей
Пусть
из двух нормально распределенных
генеральных совокупностей извлечены
выборки объема и
соответственно.
По этим выборкам вычислены несмещенные
оценки дисперсий
и
.
Для проверки нулевой гипотезы о равенстве
дисперсий генеральных совокупностей
против
одной из альтернативных (
–
двусторонняя критическая область,
или
–
односторонняя критическая область)
используется случайная величина
,
здесь
в числителе дроби стоит максимальная
оценка дисперсии из и
,
в знаменателе – минимальная. Если
нулевая гипотеза верна, то
статистика
распределена
по закону Фишера-Снедекора как отношение
двух случайных величин, имеющих
распределение
и
(
–
число степеней свободы числителя;
–
число степеней свободы знаменателя).
Действительно,
если ,
для определенности будем полагать
,
то
где ,
.
По
таблице распределения Фишера-Снедекора
(прил. 5) для заданного уровня
значимости определяется
критическое значение статистики
для
двусторонней критической области и
–
для односторонней критической области.
Вычисленное
значение статистики сравнивается
с критическим. Если
,
то при уровне значимости
нулевую
гипотезу считают непротиворечащей
опытным данным. Если же
,
то нулевая гипотеза отвергается в пользу
конкурирующей.
Пример
4.9. Проведены
измерения пульса у больных,
подвергнутых некоторой лечебной
процедуре, а также у
больных
контрольной группы. Статистическая
обработка результатов показала, что
несмещенная оценка дисперсии частоты
пульса больных первой группы
составила
(уд/мин)2,
у больных второй группы –
(уд/мин)2.
Предполагая, что значения пульса у
подобных больных распределены по
нормальному закону, при уровне
значимости
проверить
значимость различия между оценками
дисперсий.
Решение. Итак,
необходимо проверить нулевую
гипотезу относительно
альтернативной
.
Поскольку исправленная выборочная
дисперсия значений пульса у больных
первой группы превышает соответствующую
оценку для больных второй группы, то по
формуле для статистики
получим:
Поскольку
альтернативная гипотеза задает
двустороннюю критическую область, число
степеней свободы числителя равно ,
а знаменателя –
для
по
таблице распределения Фишера-Снедекора
(прил. 5) найдем критическое значение
статистики:
.
Экспериментальное
значение критерия меньше критического
(попало в область принятия нулевой
гипотезы), следовательно, проверяемая
гипотеза не противоречит опытным данным,
и при уровне значимости наблюдаемое
различие в оценках дисперсии следует
считать незначимым.
Экзаменационный билет № 12
Вариационный ряд
Вариационный ряд — это упорядоченное распределение единиц совокупности чаще по возрастающим (реже убывающим) значениям признака и подсчет числа единиц с тем или иным значением признака. Когда численность единиц совокупности большая, ранжированный ряд становится громоздким, его построение занимает длительное время. В такой ситуации вариационный ряд строится с помощью группировки единиц совокупности по значениям изучаемого признака.
Существуют следующие формы вариационного ряда:
-
Ранжированный ряд представляет собой, перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.
-
Дискретный вариационный ряд — это таблица, состоящая из двух строк или граф: конкретных значений варьирующего признака х и числа единиц совокупности с данным значение f — признака частот. Он строится тогда, когда признак принимает наибольшее число значений.
-
Интервальный ряд.
Проверка гипотезы о законе распределения совокупности
Проверка гипотезы о законе распределения генеральной совокупности по критерию Пирсона (критерий c2)
При
объеме выборки для
проверки гипотезы о законе распределения
используют критерий c2 (критерий
Пирсона, критерий согласия). Он применяется
для группированных данных (как при
построении гистограммы), когда в каждом
интервале находится не менее 5 измерений
(иначе интервал называется малонаселенным).
Если число измерений в интервале
оказывается меньше 5, тогда он объединяется
с соседним.
Современный взгляд на этот вопрос заключается в следующем: не должно быть «пустых» интервалов [8].
Если
рассматривать частоту i-го
интервала как случайную величину, то –
число появлений «успеха» в
независимых
испытаниях, где под «успехом» понимается
попадание случайной величины
в
-й
интервал. Таким образом, вероятность
«успеха» равна
,
а случайная величина
имеет
биномиальное распределение с
параметрами
и
.
В частности,
.
Рассмотрим статистику c2 –
функцию от случайных величин
,
определяемую формулой
,
где –
число данных в i-м
интервале (
),
–
теоретическая вероятность попадания
случайной величины
в i-й
интервал,
–
объем выборки,
–
число интервалов.
Можно
показать, что, если закон распределения
генеральной совокупности подобран
правильно, то с ростом
случайную
величину
можно
считать распределенной по распределению
с
числом степеней свободы
;
–
числом параметров проверяемого закона
распределения, вычисленных
по выборке.
Следует обратить внимание на то, что
число степеней свободы – это число
независимых слагаемых в сумме
,
т. е. общее число слагаемых минус число
наложенных уравнений связи. В общем
случае по выборке оценивают
параметров.
Еще одно уравнение связи вполне очевидно:
сумма всех вероятностей
равна
1 (если первый и последний интервалы
полуоткрытые) или некоторому числу,
меньшему 1 (но известному). В случае
нормального распределения
,
так как по выборке оцениваются два
параметра распределения – математическое
ожидание и дисперсия. В случае распределения
Пуассона
,
так как математическое ожидание и
дисперсия его равны, по выборке
определяется один параметр.
Итак, критерий согласия c2 имеет вид
. (4.2)
Вычисленное
по формуле (4.2) значение сравнивается
с табличным (критическим, прил. 3) при
выбранном одностороннем уровне
значимости .
Если
,
то гипотеза о виде распределения не
отвергается, в противном случае она
отвергается, и строится новая гипотеза
– предполагается другой закон.
Статистика c2 лишь
приближенно имеет распределение (при
справедливой нулевой гипотезе), причем
для этого необходим не только большой
объем выборки
,
но и достаточно большое число интервалов
.
Строгого решения вопроса о числе
интервалов и необходимом объеме выборки
нет. На практике критерием (4.2) пользуются
и при довольно малых
(10–15)
и
(40–50).
При этом необходимо помнить, что в этом
случае критерий (4.2) обладает повышенной
вероятностью ошибки первого рода
(признать
неверной проверяемую нулевую гипотезу,
когда она верна). Поэтому в таких
ситуациях, когда выводы о законе
распределения по критериям Колмогорова
и Пирсона окажутся противоречащими
друг другу, предпочтение должно быть
отдано критерию Колмогорова.
Экзаменационный билет № 13
Средняя арифметическая, дисперсия и среднее квадратическое отклонение дискретного вариационного ряда.
Простая средняя арифметическая — Равна отношению суммы индивидуальных значений признака к количеству признаков в совокупности
Представим это в виде следующей формулы:
-
— цена за единицу продукции;
-
— количество (объем) продукции;
Взвешенная средняя арифметическая — равна отношению (суммы произведений значения признака к частоте повторения данного признака) к (сумме частот всех признаков).Используется, когда варианты исследуемой совокупности встречаются неодинаковое количество раз.
Дисперсия в статистике находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:
1. Простая дисперсия (для несгруппированных данных) вычисляется по формуле:
2. Взвешенная дисперсия (для вариационного ряда):
где n - частота (повторяемость фактора Х)
Среднее квадратичное отклонение определяется как обобщающая характеристика размеров вариации признака в совокупности. Оно равно квадратному корню из среднего квадрата отклонений отдельных значений признака от средней арифметической, т.е. корень из дисперсии и может быть найдена так:
1. Для первичного ряда:
2. Для вариационного ряда:
Преобразование формулы среднего квадратичного отклонени приводит ее к виду, более удобному для практических расчетов:
Среднее квадратичное отклонение определяет на сколько в среднем отклоняются конкретные варианты от их среднего значения, и к тому же является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, и поэтому хорошо интерпретируется.