Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
2
Добавлен:
27.11.2024
Размер:
901.97 Кб
Скачать

ТЕМА 1. ОСНОВЫ ВЫБОРОЧНОГО МЕТОДА И ЭЛЕМЕНТЫ СТАТИСТИЧЕСКИЙ ТЕОРИИ ОЦЕНИВАНИЯ

Лекция 1. Основные понятия математической статистики.

Вариационные ряды

Математическая статистика – раздел математики, изучающий методы сбора, систематизации и обработки наблюдений с целью выявления статистических закономерностей.

Генеральной совокупностью называется вся подлежащая изучению совокупность объектов (наблюдений). Выборочной совокупностью, или просто выборкой, называется совокупность случайно отобранных из генеральной совокупности объектов.

Объемом совокупности (выборочной или генеральной) называется число объектов в этой совокупности. Различные наблюдаемые значения признака называют вариантами (обозначаются хi). Числа, показывающие,

сколько раз встречаются варианты в совокупности, называются частотами

(обозначаются ni). Тогда объем выборки можно определить как n=∑ni.

Отношение частот к объему выборки wi=ni/n называют относительными частотами. Последовательность вариант, записанных в порядке возрастания или убывания с соответствующими им частотами (или относительными частотами) называется вариационным рядом. Вариационный ряд называется

дискретным, если любые его варианты отличаются на постоянную величину, и непрерывным (интервальным), если его значения могут отличаться одно от другого на сколь угодно малую величину.

Группировка состоит в том, что область на оси x, куда попали значения x1,...,xn, разбивают на интервалы I1,...,Ik и подсчитывают частоту попадания значений величины в каждый интервал. Проще всего взять интервалы одинаковой длины. Число интервалов k следует брать не очень большим,

чтобы после группировки ряд не был громоздким, и не очень малым, чтобы

не потерять особенности распределения признака. Обычно берут от 6 до 11

интервалов. Согласно формуле Серджеса рекомендуемое число интервалов k = 1 + 3,322 lg n. (1.1)

Величину интервала h можно вычислить по формуле

h 1 3,322 lg n ,

(1.2)

 

xm ax xm in

 

где xmax – xmin – разность между наибольшим и наименьшим значением в выборке (ее размах).

За начало первого интервала рекомендуется брать величину

хнач = xmin – 0,5h.

(1.3)

Для наглядности представления вариационного ряда строят различные

графики статистического распределения, в частности, полигон и гистограмму. Полигон, как правило, служит для изображения дискретного вариационного ряда, и представляет собой ломаную, в которой концы отрезков имеют координаты (xi, ni) или (xi, wi). Гистограмма служит для изображения интервальных вариационных рядов и представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака (x i–1, xi), и высотами, равными частотам ni

(или относительным частотам wi) интервалов. Если соединить середины верхних оснований прямоугольников отрезками прямой, то можно получить полигон того же распределения.

Числовые характеристики выборки.

Средней величиной называют показатель, который характеризует обобщенное значение признака или группы признаков в исследуемой совокупности.

Среднее линейное отклонение ̅вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности. Эта величина определяется как средняя арифметическая из абсолютных значений отклонений от средней.

Дисперсия - средний квадрат отклонений индивидуальных значений признака от его средней величины.

Для вычисления среднего значения выборки и дисперсии интервальную таблицу выборки заменяют на дискретную. В качестве принимаемых значений указывают середины интервалов группировки. В

таблице 1 приведены формулы, по которым в зависимости от описания данных выборки вычисляются среднее значение и разброс выборки.

Таблица 1

 

 

 

 

 

Вариационный

Задана таблица частот

Задана таблица

 

 

 

 

 

 

 

ряд задан

 

 

относительных частот

 

 

 

 

 

 

 

 

 

вариационного ряда

 

 

 

 

последовательностью

вариационного ряда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Среднее значение

 

 

1

 

n

 

 

 

 

1

 

k

 

 

 

 

 

 

 

 

 

 

k

 

 

m j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

 

 

 

 

 

 

 

 

 

x j m j

 

 

 

x j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

выборки x

 

 

 

 

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑| − ̅|

 

 

 

 

 

 

∑| − ̅|

 

∑| − ̅|

 

Среднее линейное

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

̅=

 

 

 

 

 

 

 

 

 

 

̅=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

̅

 

̅=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

отклонение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

2

 

 

1

 

k

 

 

 

 

 

 

 

 

 

k

 

m j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

x i

 

 

 

 

 

x2j m j

 

 

 

 

 

 

 

 

x2j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

x2

 

 

 

 

 

 

 

 

 

x

Дисперсия

 

x

 

 

 

 

 

n

 

 

 

 

 

 

n

 

(разброс)

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

j 1

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

1 k

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

m j

 

 

2

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x j

 

 

 

 

 

 

выборки S

 

 

 

 

 

x i x

 

 

 

 

 

(x j

x)

 

m i

x)

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

 

 

 

n j 1

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Среднее квадратическое отклонение – квадратный корень из

дисперсии.

Мода — это наиболее часто встречающийся вариант ряда. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал (по максимальной частоте), а затем

— значение модальной величины признака по формуле:

 

 

 

 

 

 

 

 

0

= 0

+

 

 

 

−1

 

(1.4)

(

 

)+(

)

 

 

 

 

−1

 

+1

 

 

где: М0 — значение моды

x0 — нижняя граница модального интервала h — величина интервала

fm — частота модального интервала

Sm-1

fm-1 — частота интервала, предшествующего модальному fm+1 — частота интервала, следующего за модальным

Медиана — это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.

Для дискретного вариационного ряда медиана ищется по формуле:

 

 

+

+1

 

 

 

 

2

 

2

, если − четное

 

 

= {

 

 

2

 

 

(1.5)

 

,

если − нечетное

 

 

 

 

 

 

+1

 

 

 

 

 

 

 

 

2

 

 

 

 

При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем — значение медианы по формуле:

 

 

 

 

= +

2

−1

,

(1.6)

 

 

 

0

 

 

 

 

 

 

 

 

где: Me — искомая медиана

x0 — нижняя граница интервала, который содержит медиану h— величина интервала

— сумма частот или число членов ряда

- сумма накопленных частот интервалов, предшествующих

медианному

fm — частота медианного интервала

Лекция 2. Точечное статистическое оценивание

Очень часто параметры распределения вероятностей являются моментами распределения (или функциями от них). Моменты являются

важными вероятностными характеристиками распределения.

Таблица 2

 

Дискретное

Непрерывное

 

распределение

распределение

Начальный момент

a l xli pi

a l xl f x dx

порядка l

 

 

Центральный момент

l

l

bl x a1 f x dx

порядка l

bl xi a1 pi

lim →∞

 

Первый начальный момент а1 – это математическое ожидание

распределения, второй центральный момент b2 – это дисперсия.

 

Статистической оценкой

неизвестного параметра θ генеральной

 

 

 

 

 

 

совокупности называют функцию наблюдений над случайной величиной X:

 

=

(

,

, … , ). Поскольку X1, X2, …, Xn – случайные величины, то и

 

 

1

2

 

 

оценка

 

также является случайной величиной, в отличие от оцениваемого

 

 

 

 

 

 

параметра θ. Оценка

называется несмещенной, если ее математическое

 

 

ожидание равно оцениваемому параметру, т.е. М( )=θ. В противном случае

 

 

 

 

 

оценка называется

смещенной.

Несмещенная

оценка

называется

 

 

 

 

 

эффективной, если

она имеет

наименьшую

дисперсию

среди всех

возможных несмещенных оценок параметра θ, вычисленных по выборкам

одного и того же объема Оценка называется состоятельной, если она

сходится по вероятности к оцениваемому параметру:

(| − | < ) = 1 для любого ε > 0.

Метод моментов – метод получения оценок параметров, который состоит в том, что если оцениваемый параметр распределения является функцией от моментов распределения (в самом простом случае сам является моментом), то в эту функцию просто подставляются эмпирические значения моментов, а полученное значение берется в качестве оценки для параметра.

Генеральной средней ̅ конечной генеральной совокупности называют среднее арифметическое значений признака генеральной совокупности. Пусть из генеральной совокупности объема n отобрана

случайная выборка X1, X2, ..., Xn . Выборочная средняя ̅ (математическое

В

ожидание) является несмещенной и состоятельной оценкой генеральной средней.

Выборочная дисперсия является смещенной оценкой генеральной дисперсии.

Несмещенной оценкой генеральной дисперсии является исправленная выборочная дисперсия

В случае, когда генеральная дисперсия D = σ2
величиной, то точность оценки δ находится по формуле
= , ,

 

= 2 =

 

 

 

(2.1)

 

 

 

 

−1

 

 

 

 

Если в качестве оценки параметра предлагается число – точка на координатной оси, то оценка называется точечной. Оценки, рассмотренные выше – точечные.

 

Лекция 3. Интервальные оценки параметров распределения

 

Интервальной оценкой параметра θ называют числовой интервал

( (1)

, (2)), который с заданной вероятностью γ накрывает неизвестное

 

 

значение параметра θ. Такой интервал называется доверительным, а

вероятность γ называется доверительной вероятностью, или надежностью оценки.

Границы доверительного интервала и его длина находятся по выборочным данным, и являются случайными величинами. Величина доверительного интервала уменьшается с ростом объема выборки n и

увеличивается с ростом доверительной вероятности γ. Если количественный

признак генеральной совокупности

X имеет нормальное распределение, то

доверительный интервал для математического ожидания имеет вид

̅ ( ̅− ; ̅+ )

(2.2)

В

В

 

является известной

(2.3)

где число t определяется из равенства Φ(t) = γ/2, т.е. по таблице функции Лапласа (приложение 1) находят значение аргумента t, которому

соответствует значение функции Лапласа γ/2.

В случае, когда генеральная дисперсия неизвестна, а известна лишь ее

исправленная выборочная оценка

= 2 ,

то точность оценки δ находится

 

 

 

 

 

 

по формуле

 

 

 

 

 

 

=

(1− ;

−1)

,

 

(2.4)

 

 

 

 

 

 

 

 

 

где значение числа T(1 – γ; n –1) определяется по таблице критических точек распределения Стьюдента (приложение 2) при уровне вероятности

α=1– γ и числе степеней свободы n–1.

Доверительный интервал для среднеквадратического отклонения σ нормального распределения имеет вид

 

 

 

 

 

 

 

 

 

(

√ −1

;

√ −1

) ,

(2.5)

 

 

2

 

 

 

1

 

 

где значения χ12, χ22 находятся по таблице критических точек

распределения χ2 (приложение 3)

при числе

степеней свободы n–1 и

уровнях вероятности (1 + γ) /2 и (1 – γ) /2 соответственно.

ТЕМА 2. МЕТОДЫ СТАТИСТИЧЕСКОЙ ПРОВЕРКИ

ГИПОТЕЗ

Лекция 4. Основные понятия теории проверки гипотез

Статистической гипотезой называется любое предположение о виде неизвестного распределения или о параметрах закона распределения.

Выдвинутую гипотезу называют нулевой (основной) гипотезой Н0. Если выдвинутая гипотеза Н0 будет отвергнута, то имеет место противоречащая ей гипотеза Н1, которая называется конкурирующей (альтернативной).

Для проверки нулевой гипотезы используют специально подобранную случайную величину (статистический критерий). После выбора критерия множество всех его возможных значений разбивают на два подмножества:

одно из них содержит значения критерия, при которых нулевая гипотеза отвергается (критическая область), а другое содержит те значения критерия,

при которых гипотеза принимается (область принятия гипотезы). Если наблюдаемое значение критерия принадлежит критической области, то нулевую гипотезу отвергают в пользу конкурирующей гипотезы; если наблюдаемое значение критерия принадлежит области принятия гипотезы, то нулевую гипотезу принимают.

Критическими точками Ккр называют точки, отделяющие критическую область от области принятия гипотезы.

Лекция 5. Критерии проверки гипотез

Рассмотрим способы проверки некоторых наиболее часто

встречающихся гипотез.

3.1. Гипотеза о равенстве генеральной средней нормальной

совокупности заданному числовому значению.

Пусть генеральная совокупность Х распределена нормально, причем

имеются основания

предполагать, что

генеральная средняя этой

совокупности ̅равна некоторому значению а.

 

Предполагаем,

что дисперсия генеральной совокупности D = σ2

известна (например,

может быть найдена теоретически, или вычислена по

выборке большого объема). Кроме того, по произведенной выборке объема n

найдена выборочная средняя х̅в. Требуется по выборочной средней при заданном уровне значимости α проверить нулевую гипотезу Н0: ̅= а. Для этого необходимо вычислить наблюдаемое значение критерия

 

 

 

 

( ̅− )√

 

 

 

 

 

 

=

 

 

 

.

(3.1)

 

 

 

 

 

 

набл

 

 

 

 

 

 

 

 

 

 

 

 

1)

При конкурирующей гипотезе Н1:

̅ ≠ а критическую точку Uкр

находим

по таблице

функции

Лапласа (приложение 1) из условия Φ(Uкр) =

(1 – α)/2. Если |Uнабл| < Uкр,

то принимается нулевая гипотеза. В противном

случае нулевую гипотезу отвергают.

 

 

2)

При конкурирующей гипотезе Н1:

̅ > а критическую точку Uкр

находим по таблице функции Лапласа из условия Φ(U кр) = (1 – 2α) /2. Если

Uнабл < Uкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

3) При конкурирующей гипотезе Н1: ̅< а критическую точку Uкр

находим по таблице функции Лапласа из условия Φ(Uкр) = (1 – 2α)/2.

Нулевая гипотеза принимается, если Uнабл > –Uкр. В противном случае нулевую гипотезу отвергают.

Предположим теперь, что дисперсия генеральной совокупности D = σ2

неизвестна, а известна только ее исправленная выборочная оценка = s2.

Для того, чтобы при заданном уровне значимости α проверить нулевую гипотезу Н0: ̅= а, нужно вычислить наблюдаемое значение критерия

 

 

( ̅− )√

 

 

 

=

 

(3.2)

 

 

набл

 

 

 

 

 

 

1)При конкурирующей гипотезе Н1: ̅≠ а критическую точку Tкр(α, n–

1)находим по таблице критических точек распределения Стьюдента

(приложение 2) при n–1 степенях свободы и вероятности α. Если |Tнабл| < Tкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

2)При конкурирующей гипотезе Н1: ̅> а критическую точку Tкр (2α, n

1 находим по таблице критических точек распределения Стьюдента при n

1 степенях свободы и вероятности 2α. Если Tнабл < Tкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

3)При конкурирующей гипотезе Н1: ̅< а критическую точку Tкр(2α, n

–1) находим по таблице критических точек распределения Стьюдента при n

–1 степенях свободы и вероятности 2α. Если T набл > –T кр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

3.2 Гипотеза о равенстве двух средних нормальных генеральных

совокупностей.

 

 

Пусть генеральные совокупности Х1 и Х2

распределены нормально,

причем генеральные средние этих совокупностей

̅ и

̅ неизвестны. По

 

1

2

произведенным выборкам объемов n1 и n2 найдены выборочные средние ̅

1

и ̅ .

2

Предполагаем, что дисперсии обеих генеральных совокупностей известны, и равны 12 и 22 . Требуется при заданном уровне значимости α

проверить нулевую гипотезу Н0: ̅= ̅. Вычисляем наблюдаемое значение

1 2

критерия

 

 

̅ − ̅

 

 

=

В1

 

В2

 

.

(3.3)

 

 

 

 

 

набл

2

2

 

 

 

 

 

 

1

+

2

 

 

 

 

1

2

 

 

 

 

 

 

1) При конкурирующей гипотезе Н1: ̅

̅ критическую точку Uкр

1

2

находим по таблице функции Лапласа из условия Φ(Uкр) = (1 – α)/2. Если

|Uнабл| < Uкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

2) При конкурирующей гипотезе Н1:

̅ >

̅

критическую

точку

 

1

2

 

 

Uкр находим по таблице функции Лапласа из условия

Φ(Uкр) = (1 – 2α)/2.

Если Uнабл < Uкр, то принимается нулевая гипотеза. В противном случае

нулевую гипотезу отвергают.

 

 

 

 

3) При конкурирующей гипотезе Н1: ̅ < ̅ критическую точку Uкр

1

2

 

 

 

находим по таблице функции Лапласа из условия Φ(Uкр) = (1 – 2α)/2.

Если

Uнабл > –U кр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

Предположим теперь, что дисперсии обеих генеральных

совокупностей

неизвестны,

а известны

 

только

их исправленные

выборочные оценки

= 2

и

= 2

,

а выборки

имеют небольшой

 

1

1

2

2

 

 

 

объем (меньше 30). Предполагается, что дисперсии двух генеральных

совокупностей одинаковы. В этом случае нужно

вычислить наблюдаемое

значение критерия

 

 

 

 

 

 

 

 

 

 

 

 

̅ − ̅

 

 

 

 

 

 

 

набл =

 

в1

в2

 

 

 

 

 

 

( 3.4)

 

 

 

 

 

 

 

 

 

2

2

 

1 1

 

 

 

( 1−1) 1+( 2−1) 2

 

 

 

 

 

 

1+ 2−2

 

(

1

+

2

)

 

1) При конкурирующей гипотезе

Н1: ̅

̅ критическую точку

 

 

 

 

 

1

2

Tкр(α, n1+n2–2) находим по таблице критических точек распределения Стьюдента (приложение 2) при n1+n2–2 степенях свободы и вероятности α.

Если |Tнабл|< Tкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

2) При конкурирующей гипотезе Н1: ̅ >

̅ критическую точку

1

2

Tкр(2α, n1+ n2 – 2) находим по таблице критических точек распределения