
- •«Тверской государственный технический университет»
- •4 5 5 7 9 10 10 13 17 21 21 25 29 34 34 41 44 51 55 Содержание
- •Введение
- •Раздел 1. Расчет статистических характеристик технологических параметров и их взаимосвязи
- •Раздел 2. Сравнение результатов двух групп испытаний
- •Двухвыборочный t-тест для средних
- •Раздел 3. Дисперсионный анализ
- •Раздел 4. Регрессионный анализ
- •Раздел 5. Решение задач оптимизации
- •Библиографический список
Раздел 2. Сравнение результатов двух групп испытаний
Работа № 4
Проверка гипотезы о равенстве дисперсий
На практике задача сравнения дисперсий возникает, если требуется сравнить точность приборов, инструментов, самих методов измерений и т.д. Очевидно, предпочтительнее тот прибор, инструмент или метод, который обеспечивает наименьшее рассеивание результатов измерений, т.е. наименьшую дисперсию.
Пусть генеральные совокупности X и
Y распределены нормально. По
независимым выборкам объемов
и
,извлеченным
из этих совокупностей, определены
статистические оценки дисперсий
и
:
.
Требуется по этим дисперсиям при заданном уровне значимости а проверить нулевую гипотезу, состоящую в том, что генеральные дисперсии рассматриваемых совокупностей равны между собой.
Если окажется, что нулевая гипотеза справедлива, т.е. генеральные дисперсии одинаковы, то различие вычисленных дисперсий незначимо и объясняется случайными причинами, в частности, случайным отбором объектов выборки. Например, если различие вычисленных дисперсий результатов измерений, выполненных двумя приборами, оказалось незначимым, то приборы имеют одинаковую точность.
Если нулевая гипотеза будет отвергнута, т.е. генеральные дисперсии окажутся неодинаковыми, то различие вычисленных дисперсий значимо и не может быть объяснено случайными причинами, а является следствием того, что сами генеральные дисперсии различны. Например, если различие вычисленных дисперсий результатов измерений, произведенных двумя приборами, оказалось значимым, то точность приборов различна.
Критическая область строится в зависимости от вида конкурирующей гипотезы, при этом рассматривают два случая.
1. Нулевая гипотеза
.
Конкурирующая гипотеза
.
Вычисляется наблюдаемое значение критерия (отношение большей дисперсии к меньшей):
.
(1)
По таблице критических точек распределения
Фишера (Приложение 1) по заданному уровню
значимости
и числам степеней свободы
,
(
– число степеней свободы большей
дисперсии) определяют критическую точку
.
Если
,
то нет оснований отвергнуть нулевую
гипотезу. Если
,
нулевую гипотезу отвергают.
2. Нулевая гипотеза
Конкурирующая гипотеза
Вычисляется наблюдаемое значение критерия по формуле (1).
Критическую точку
определяют по уровню значимости
(т.к. критическая область двусторонняя).
Если , оснований отвергнуть нулевую гипотезу нет. Если , нулевую гипотезу отвергают.
Для измерения значимости рассматриваемого
критерия (например,
)
при отклонении нулевой гипотезы
используется вероятность значимости
,
которая определяет вероятность
принадлежности критерия множеству
области значимости в предположении,
что верна нулевая гипотеза
.
В этом случае выборка согласуется с
нулевой гипотезой
,
когда вероятность значимости в
определенном смысле велика, и не
согласуется, когда эта вероятность
мала.
Чем меньше значение
,
тем сильнее это свидетельствует против
гипотезы
.
С помощью вероятности значимости
измеряют так называемую степень недоверия
к основной гипотезе
.
Она представляет собой дополнительную
к вероятности значимости величину
.
Близкая к нулю вероятность значимости
интерпретируется как близость степени
недоверия к единице, т.е. как очень
сильный довод против гипотезы
.
Близкая же к единице вероятность
значимости показывает, что степень
недоверия близка к нулю, т.е. доводы
против
слабы, что фактически указывает на
согласие выборки с гипотезой
.
Вероятность значимости для первого
случая проверки гипотезы определяется
как
,
для второго случая
с использованием таблиц критических
точек распределения Фишера.
Пример 4. Имеются две независимые выборки из генеральных совокупностей Х и Y.
X |
6,63 |
6,64 |
4,56 |
9,73 |
11,56 |
14,99 |
14,77 |
6,33 |
4,61 |
5,73 |
Y |
5,05 |
5,84 |
5,74 |
6,44 |
7,09 |
9,82 |
9,11 |
7,50 |
2,89 |
6,55 |
При уровне значимости
проверить нулевую гипотезу
о равенстве генеральных дисперсий при
конкурирующей гипотезе
.
Решение
Рассчитываем средние значения выборок:
.
Рассчитываем статистические оценки дисперсий:
Вычисляем наблюдаемое значение критерия
.
По таблице критических точек распределения
Фишера (Приложение 1) по заданному уровню
значимости
и числам степеней свободы
и
определяем критическую точку
.
Так как , нулевую гипотезу о равенстве генеральных дисперсий отвергаем.
Вероятность значимости определяется
по таблице критических точек распределения
Фишера:
,
при этом используем следующие данные
таблицы:
|
|
|
|
|
3,19 |
|
5,35 |
В пакете Анализ данных инструмент Двухвыборочный F-тест для дисперсий применяется для сравнения дисперсий двух генеральных совокупностей. Решим пример 4, используя инструмент Двухвыборочный F-тест для дисперсий (рис. 4).
Алгоритм действий следующий:
1
.
Подготовка листа рабочей
книги MS
Excel
для вычислений. Переменные задачи
находятся
в ячейках В1:К2;
2. Сервис | Анализ данных | Двухвыборочный F-тест для дисперсий | ОК;
3. Интервал переменной 1: В1:К1;
4. Интервал переменной 2: В2:К2;
5. Альфа: 0,05;
6. Выходной интервал: А4;
7. ОК.
Excel представит решение, показанное на рис. 5., где (как пример для выборки X):
среднее –
;
дисперсия –
;
наблюдения –
;
df –
;
F – ;
P(F<=f) одностороннее – вероятность значимости;
F критическое одностороннее
–
.
При использовании данного F-теста рассчитывается только односторонний критерий, т.е. соответствующий первому случаю проверки гипотезы. Чтобы использовать двусторонний критерий, надо уровень значимости уменьшить в два раза и использовать полученное значение для двустороннего критерия.
Работа № 5
Проверка гипотезы о равенстве средних при разных дисперсиях
Парный двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок из одной генеральной совокупности. При этом равенство дисперсий не предполагается.
При такой организации выборок возможна корреляционная зависимость выборочных случайных величин X и Y. Для оценки зависимости этих случайных величин рассчитывают выборочный коэффициент корреляции
.
Требуется проверить нулевую гипотезу
.
Другими словами, необходимо установить,
значимо или незначимо различаются
статистические оценки
и
,
вычисленные по выборкам объемом n
из одной генеральной совокупности.
Проверка статистической гипотезы
проводится следующим образом: вычисляют
разности выборочных значений
и
Полученный ряд разностей
считается
выборкой объемом n.
Рассчитывают характеристики новой выборки:
;
.
Вычисляют средние значения
,
опытное значение критерия
,
число степеней свободы
.
Критическая область строится в зависимости от вида конкурирующей гипотезы, при этом рассматриваются три случая:
1. Нулевая гипотеза .
Конкурирующая гипотеза
.
В этом случае строят двустороннюю
критическую область. Вычисляют опытное
значение критерия
,
определяют число степеней свободы. По
таблице критических точек распределения
Стьюдента (Приложение 2), по заданному
уровню значимости
а
и числу степеней свободы k
определяют критическую точку
.
Если
,
оснований отвергнуть нулевую гипотезу
нет. Если
,
нулевую гипотезу отвергают.
2. Нулевая гипотеза .
Конкурирующая гипотеза
.
В этом случае строят правостороннюю критическую область.
Вычисляют опытное значение критерия и число степеней свободы. Критическую точку определяют по уровню значимости .
Если
,
оснований отвергнуть нулевую гипотезу
нет.
Если
,
нулевую гипотезу отвергают.
3. Нулевая гипотеза .
Конкурирующая гипотеза
.
В этом случае строят левостороннюю критическую область. Т.к. распределение Стьюдента симметрично, то критическую точку определяют как и во втором случае, только со знаком «минус».
Если
,
оснований отвергнуть нулевую гипотезу
нет.
Если
,
нулевую гипотезу отвергают.
По результатам проверки статистических гипотез можно вычислить совокупную дисперсию двух выборок
.
Пример 5. Необходимо сравнить
работу двух штангенциркулей, используемых
для проверки размеров некоторых деталей.
Из партии была сделана случайная выборка
объемом
и проведены замеры обоими приборами.
Результаты замеров представлены в табл.
2.
Таблица 2
Штангенциркуль № 1, |
76,10 |
76,20 |
76,00 |
76,04 |
76,10 |
76,08 |
76,18 |
76,02 |
76,12 |
76,06 |
Штангенциркуль № 2, |
76,20 |
76,00 |
76,25 |
76,02 |
76,18 |
76,06 |
76,04 |
76,25 |
76,00 |
76,10 |
|
0,10 |
-0,20 |
0,25 |
-0,02 |
0,08 |
-0,02 |
-0,14 |
0,23 |
-0,12 |
0,04 |
Необходимо при уровне значимости
определить
имеются ли существенные различия между
штангенциркулями № 1 и № 2, т.е. проверить
нулевую гипотезу
,
при конкурирующей гипотезе
.
Решение
По условию задачи имеем две зависимые случайные выборки, т.к. размер каждой детали из выборки измерялся как первым, так и вторым прибором. Степень зависимости выборок оценим по величине коэффициента корреляции
.
Вычисляем разности (см. табл. 2.). Определяем среднее и дисперсию полученных разностей:
;
.
Рассчитываем средние значения:
,
опытное значение критерия
и число степеней свободы
.
По таблице критических точек распределения
Стьюдента (Приложение 2), по
и
определяем
критическую точку
.
Т.к. , нет оснований отвергнуть нулевую гипотезу. Это означает, что штангенциркули существенно не отличаются друг от друга.
Вероятность значимости рассчитывается
следующим образом: по опытному значению
критерия
,
с помощью таблиц распределения Стьюдента
по числу степеней свободы
определяем вероятность (интерполируя
табличные данные):
– двусторонняя вероятность значимости;
– односторонняя вероятность значимости.
В пакете Анализ данных инструмент Парный двухвыборочный t-тест для средних используется для проверки гипотезы о различии средних для двух выборок данных. В нем не предполагается равенство дисперсий генеральных совокупностей, из которых выбраны данные. Парный тест используется, когда имеется естественная парность наблюдений в выборках.
В категории Входные данные необходимо
указать, кроме Интервалов переменной
1 и 2, Гипотетическую среднюю разность
(для данного теста Excel использует вместо
формулы
зависимость
), а также значение Альфа – уровень
значимости
(рис. 6).
Рассмотрим работу пакета анализа для проверки гипотезы о различии между средними.
Решим пример 5, используя инструмент Парный двухвыборочный t-тест для средних.
Алгоритм действий следующий.
1. Подготовка листа рабочей книги MS Excel для вычислений. Переменные задачи находятся в ячейках В1:К2;
2. Сервис | Анализ данных | Парный двухвыборочный t-тест для средних | ОК;
3. Интервал переменной 1: В1:К1;
4. Интервал переменной 2: В2:К2;
5. Гипотетическая средняя разность: 0 (значение по умолчанию);
6. Альфа: 0,01;
7. Выходной интервал: А4;
8. ОК.
Excel представит решение, показанное на рис. 7., где (пример для штангенциркуля № 1):
среднее – ;
дисперсия – ;
наблюдения – n;
корреляция Пирсона – ;
гипотетическая разность средних – ;
df – число степеней свободы ;
t – статистика – ;
P(T<=t) одностороннее – односторонняя вероятность значимости;
t критическое одностороннее – ;
P(T<=t) двухстороннее – двухсторонняя вероятность значимости;
t критическое двухстороннее – .