Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
0
Добавлен:
27.11.2024
Размер:
771.24 Кб
Скачать

Министерство образования и науки Российской Федерации Саратовский государственный технический университет

Балаковский институт техники, технологии и управления

ПРИМЕНЕНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ДЛЯ

АНАЛИЗА ВЫБОРОЧНЫХ ДАННЫХ

Методические указания к выполнению практической работы по курсу «Математическая статистика и прогнозирование»

для студентов направления «Информационные системы и технологии» всех форм обучения

Одобрено

редакционно-издательским советом

Балаковского института техники,

технологии и управления

Балаково 2015

ВВЕДЕНИЕ

Цель работы: научиться выполнять проверку статистических гипотез с использованием MS Excel.

ОСНОВНЫЕ ПОНЯТИЯ

Статистической гипотезой называется любое предположение о виде неизвестного распределения или о параметрах закона распределения.

Выдвинутую гипотезу называют нулевой (основной) гипотезой Н0. Если выдвинутая гипотеза Н0 будет отвергнута, то имеет место противоречащая ей гипотеза Н1, которая называется конкурирующей (альтернативной).

Для проверки нулевой гипотезы используют специально подобранную случайную величину (статистический критерий). После выбора критерия множество всех его возможных значений разбивают на два подмножества:

одно из них содержит значения критерия, при которых нулевая гипотеза отвергается (критическая область), а другое содержит те значения критерия,

при которых гипотеза принимается (область принятия гипотезы). Если наблюдаемое значение критерия принадлежит критической области, то нулевую гипотезу отвергают в пользу конкурирующей гипотезы; если наблюдаемое значение критерия принадлежит области принятия гипотезы, то нулевую гипотезу принимают.

Критическими точками Ккр называют точки, отделяющие критическую область от области принятия гипотезы.

Рассмотрим способы проверки некоторых наиболее часто встречающихся гипотез.

1. Гипотеза о равенстве генеральной средней нормальной

совокупности заданному числовому значению.

Пусть генеральная совокупность Х распределена нормально, причем имеются основания предполагать, что генеральная средняя этой совокупности ̅равна некоторому значению а.

2

̅< а критическую точку Uкр
условия Φ(Uкр) = (1 – 2α)/2. > –Uкр. В противном случае

Предполагаем, что дисперсия генеральной совокупности D = σ2

известна (например, может быть найдена теоретически, или вычислена по выборке большого объема). Кроме того, по произведенной выборке объема n

найдена выборочная средняя х̅в. Требуется по выборочной средней при заданном уровне значимости α проверить нулевую гипотезу Н0: ̅= а. Для этого необходимо вычислить наблюдаемое значение критерия

 

 

 

 

( ̅− )√

 

 

 

 

 

 

=

 

 

 

.

(1)

 

 

 

 

 

 

набл

 

 

 

 

 

 

 

 

 

 

 

 

1)

При конкурирующей гипотезе Н1:

̅ ≠ а критическую точку Uкр

находим

по таблице

функции

Лапласа (приложение 1) из условия Φ(Uкр) =

(1 – α)/2. Если |Uнабл| < Uкр,

то принимается нулевая гипотеза. В противном

случае нулевую гипотезу отвергают.

 

 

2)

При конкурирующей гипотезе Н1:

̅ > а критическую точку Uкр

находим по таблице функции Лапласа из условия Φ(U кр) = (1 – 2α) /2. Если

Uнабл < Uкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

3) При конкурирующей гипотезе Н1:

находим по таблице функции Лапласа из Нулевая гипотеза принимается, если Uнабл

нулевую гипотезу отвергают.

Предположим теперь, что дисперсия генеральной совокупности D = σ2

неизвестна,

а известна только

ее исправленная выборочная оценка

= s2.

 

 

 

 

 

 

 

 

 

Для того,

чтобы при заданном уровне значимости α

проверить нулевую

гипотезу Н0: ̅= а, нужно вычислить наблюдаемое значение критерия

 

 

 

 

 

 

 

 

 

 

( ̅− )√

 

 

 

 

 

 

=

 

 

 

(2)

 

 

 

 

 

 

 

 

набл

 

 

 

 

 

 

 

 

 

 

 

1)При конкурирующей гипотезе Н1: ̅≠ а критическую точку Tкр(α, n–

1)находим по таблице критических точек распределения Стьюдента (приложение 2) при n–1 степенях свободы и вероятности α. Если |Tнабл| <

3

Tкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

2)При конкурирующей гипотезе Н1: ̅> а критическую точку Tкр (2α, n

1 находим по таблице критических точек распределения Стьюдента при n

1 степенях свободы и вероятности 2α. Если Tнабл < Tкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

3)При конкурирующей гипотезе Н1: ̅< а критическую точку Tкр(2α, n

–1) находим по таблице критических точек распределения Стьюдента при n

–1 степенях свободы и вероятности 2α. Если T набл > –T кр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу

отвергают.

 

 

 

2 Гипотеза о равенстве двух средних нормальных

генеральных

совокупностей.

 

 

 

Пусть генеральные совокупности Х1 и Х2

распределены нормально,

причем генеральные средние этих совокупностей

̅ и

̅

неизвестны. По

 

1

2

 

произведенным выборкам объемов n1 и n2 найдены выборочные средние ̅

1

и ̅ .

2

Предполагаем, что дисперсии обеих генеральных совокупностей известны, и равны 12 и 22 . Требуется при заданном уровне значимости α

проверить нулевую гипотезу Н0: ̅= ̅. Вычисляем наблюдаемое значение

1 2

критерия

 

 

̅ − ̅

 

 

=

В1

 

В2

 

.

(3)

 

 

 

 

 

набл

2

2

 

 

 

 

 

 

1

+

2

 

 

 

 

1

2

 

 

 

 

 

 

1) При конкурирующей гипотезе Н1: ̅

̅ критическую точку Uкр

 

1

 

2

 

находим по таблице функции

Лапласа из условия Φ(Uкр) = (1 – α)/2. Если

|Uнабл| < Uкр, то принимается нулевая гипотеза. В противном случае нулевую

гипотезу отвергают.

 

 

 

 

2) При конкурирующей

гипотезе Н1:

̅ > ̅

критическую точку

 

 

1

2

 

Uкр находим по таблице функции Лапласа из условия

Φ(Uкр) = (1 – 2α)/2.

 

4

 

 

 

Если Uнабл < Uкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

3) При конкурирующей гипотезе Н1: ̅ < ̅ критическую точку Uкр

 

1

2

 

находим по таблице функции Лапласа из условия Φ(Uкр) = (1 – 2α)/2. Если

Uнабл > –U кр, то принимается нулевая гипотеза. В противном случае нулевую

гипотезу отвергают.

 

 

Предположим теперь, что дисперсии обеих генеральных

совокупностей

неизвестны, а известны

только

их исправленные

выборочные оценки

= 2

и

= 2

, а выборки имеют небольшой

1

1

2

2

 

объем (меньше 30). Предполагается, что дисперсии двух генеральных

совокупностей одинаковы. В этом случае нужно

вычислить наблюдаемое

значение критерия

 

 

 

 

 

 

 

 

 

 

 

 

̅

− ̅

 

 

 

 

 

 

 

набл =

 

в1

в2

 

 

 

 

 

 

(4)

 

 

 

 

 

 

 

 

 

2

2

1 1

 

 

 

( 1−1) 1+( 2−1) 2

 

 

 

 

 

1+ 2−2

(

1

+

2

)

 

1) При конкурирующей гипотезе

 

Н1: ̅

̅ критическую точку

 

 

 

 

1

2

Tкр(α, n1+n2–2) находим по таблице критических точек распределения Стьюдента (приложение 2) при n1+n2–2 степенях свободы и вероятности α.

Если |Tнабл|< Tкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

2) При конкурирующей гипотезе Н1: ̅ >

̅ критическую точку

1

2

Tкр(2α, n1+ n2 – 2) находим по таблице критических точек распределения Стьюдента при n1+n2–2 степенях свободы и вероятности 2α. Если Tнабл < Tкр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

3) При конкурирующей гипотезе Н1: ̅ <

̅ критическую точку

1

2

Tкр(2α, n1 + n2 – 2) находим по таблице критических точек распределения Стьюдента при n1+n2–2 степенях свободы и вероятности 2α. Если Tнабл > –T кр, то принимается нулевая гипотеза. В противном случае нулевую гипотезу отвергают.

5

3 Критерий согласия Пирсона

Критерием согласия называется критерий проверки гипотезы о предпола-

гаемом законе неизвестного распределения.

Пусть по выборке объема п получено эмпирическое распределение:

Варианты xi

x1

x2

xk

 

 

 

 

 

Частоты ni

n1

n2

nk

 

 

 

 

 

С помощью критерия Пирсона можно проверить гипотезу о различных законах распределения генеральной совокупности (равномерном,

нормальном, показательном и др.). Для этого в предположении о конкретном виде распределения вычисляются теоретические частоты , и в качестве критерия выбирается случайная величина

2 = ∑ ( −)2,

имеющая закон распределения χ2 с числом степеней свободы k = s – 1 – r, где s – число частичных интервалов выборки, r – число параметров предполагаемого распределения. Критическая область выбирается

правосторонней, и граница ее при заданном уровне значимости α

2

( , )находится по таблице критических точек распределения χ2.

кр

 

Теоретические частоты вычисляются для заданного закона распределения как количества элементов выборки, которые должны были попасть в каждый интервал, если бы случайная величина имела выбранный закон распределения, параметры которого совпадают с их точечными оценками по выборке.

В частности, для проверки гипотезы о нормальном законе распределения

= ∙ , где

 

 

 

− ̅

 

 

−̅

 

 

п – объем выборки,

= Ф (

+1

 

) − Ф (

 

 

), xi и xi + 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

левая и

правая

границы i-го интервала, ̅

- выборочное

среднее, s

 

 

 

 

 

 

 

 

 

 

 

 

исправленное среднее квадратическое отклонение.

Поскольку

нормальное

распределение характеризуется двумя параметрами, число степеней свободы

k = n – 3.

6

ТРЕБОВАНИЯ БЕЗОПАСНОСТИ ТРУДА

При выполнении практической работы необходимо соблюдать общие правила техники безопасности:

использовать ПК только в соответствии с их назначением;

не размещать на корпусе ПК посторонние предметы (тетради, книги,

карандаши и т.п.);

оберегать ПК от толчков, ударов, сотрясений;

немедленно поставить в известность оператора ИВЦ об обнаружении задымления, загорания, пожара;

немедленно сообщить оператору ИВЦ обо всех неисправностях в работе ПК.

ТЕХНОЛОГИЯ ВЫПОЛНЕНИЯ РАБОТЫ

Задание 1. Проверка гипотезы о предполагаемом законе неизвестного распределения

Смоделируйте нормально распределенную совокупность, пользуясь инструментом Генерация случайных чисел пакета Анализ данных (рис. 1) из

1000 элементов с средним значением 12 и стандартным отклонением 0,25 (рис. 2).

7

Рис. 1 Выбор инструмента Генерация случайных чисел

Рис.2 Формирование нормально распределенной совокупности

Сформируйте случайную выборку из 200 элементов для этой совокупности (рис. 3), пользуясь инструментом Выборка пакета Анализ данных. Используя критерий хи-квадрат, проверим, действительно ли выборка сделана из нормально распределенной генеральной совокупности.

Рис.3 Формирование случайной выборки

8

В качестве точечных оценок математического ожидания и дисперсии примите соответствующие выборочные характеристики. Найдите их,

используя инструмент Описательная статистика пакета Анализ данных.

С помощью инструмента Гистограмма найдите опытные частоты ni.

При использовании критерия хи-квадрат количество опытных значений в каждом интервале должно быть не менее пяти. Если в каком-то интервале их меньше, то интервалы объединяют. Например, если в промежутке от 4 до 6

оказалось три значения, а в промежутке от 6 до 8 – четыре, то вводится новый интервал от 4 до 8 с семью значениями. С учетом этого перестройте таблицу частот вручную. На рис. 4 в колонках Карман Частота показаны данные, полученные автоматически, в колонках Границы Опытные частоты данные пересчитаны частично вручную.

Рис. 4 Формирование интервального вариационного ряда Расчетные частоты вычисляются через вероятности попадания нормально распределенной величины в соответствующий интервал:

 

 

− ̅

 

− ̅

= Ф (

+1

 

) − Ф (

 

 

)

 

 

 

 

 

 

 

 

 

 

 

 

9

где функция стандартного нормального распределения Ф(х) вычисляется с помощью встроенной статистической функции НОРМРАСП. Аргументы этой функции (рис. 5): x - граница интервала, вводится адрес соответствующей ячейки; среднее и стандартное_отклвводятся абсолютные адреса характеристик, полученных с помощью Описательной статистики;

значение интегральный = 1 (истина), в противном случае (ложь) вычисляется не функция распределения, а его плотность.

Рис.5 Статистическая функция НОРМРАСП На рис. 4 вычисленные значения этой функции рассчитаны в колонке

НОРМРАСП. Вероятности рi (колонка Вероятности) вычисляются как разности между значениями НОРМРАСП в последующей и предыдущей строках. В последней колонке подсчитаны расчетные частоты i (n = 200),

для этого в ячейку N2 вводим формулу =M2*$I$17 и копируем ее на диапазон N3: N12.

Для вычисления статистики хи-квадрат в Excel встроена функция ХИ2ТЕСТ

(фактический интервал, ожидаемый интервал). В качестве фактического интервала вводятся опытные частоты, в качестве ожидаемого – расчетные

(рис. 6).

10