- •Томашевский а.В., Рысиков в.П. Учебное пособие компьютерные технологии статистической обработки данных
- •Введение
- •1.Краткая характеристика основных пакетов статистической обработки
- •1.1. Общие представления
- •1.2. Ввод данных в пакете statistica
- •1.3.Контрольные вопросы и задания
- •1.3.1.Вопросы
- •1.3.2. Задания
- •2. Начальная статистическая обработка данных
- •2.1. Понятие о генеральной совокупности и выборке
- •2.2. Случайные величины и их характеристики
- •2.3. Распределения случайных величин
- •2.4. Компьютерные технологии начальной статистической обработки
- •2.5. Контрольные вопросы и задания
- •2.5.1.Вопросы
- •2.5.2. Задание
- •3. Проверка статистических гипотез
- •3.1. Основные положения
- •3.2. Проверка гипотезы о законе распределения
- •3.3. Проверка гипотез о равенстве дисперсий и математических ожиданий
- •3.4. Компьютерные технологии проверки статистических гипотез
- •3.5. Контрольные вопросы и задания
- •3.5.1.Вопросы
- •3.5.2. Задания
- •4. Корреляционный анализ
- •4.1. Основные положения
- •4.2. Корреляционное поле
- •4.3. Выборочный коэффициент корреляции.
- •4.4. Корреляционное отношение
- •4.5. Частные коэффициенты корреляции.
- •4.6. Ранговая корреляция.
- •4.7. Компьютерные технологии корреляционного анализа
- •4.8. Контрольные вопросы и задания
- •4.8.1.Вопросы
- •4.8.2. Задания
- •5. Регрессионный анализ
- •5.1. Основные положения
- •5.2. Компьютерные технологии регрессионного анализа
- •5.3. Контрольные вопросы и задания
- •5.3.1.Вопросы
- •5.3.2. Задания
- •6. Дисперсионный анализ
- •6.1. Основные положения
- •6.2. Однофакторный дисперсионный анализ
- •6.3 Двухфакторный дисперсионный анализ
- •6.5. Контрольные вопросы и задания
- •6.5.1.Вопросы
- •5.3.2. Задания
- •7. Планирование эксперимента
- •7.1. Основные положения
- •7.2. Полный факторный эксперимент
- •7.3 Центральное композиционное планирование
- •7.5. Контрольные вопросы и задания
- •7.5.1.Вопросы
- •7.5.2. Задания
- •Приложение статистические таблицы Функция стандартного нормального распределения
- •Критические точки распределения Стьюдента
- •Критические точки распределения 2
- •Рекомендована література
3.4. Компьютерные технологии проверки статистических гипотез
ИСПОЛЬЗОВАНИЕ ВСТРОЕНЫХ СТАТИСТИЧЕСКИХ ФУНКЦИЙ И ПАКЕТА АНАЛИЗА Microsoft Excel.. Для проверки статистических гипотез могут быть использованы следующие встроенные функции:
ТТЕСТ – для определения вероятности того, что две выборки взяты из генеральных совокупностей с одинаковым математическим ожиданием;
ZTECT – для определения вероятности того, что выборка взята из определенной нормально-распределенной генеральной совокупности. Можно использовать эту функцию, чтобы оценить вероятность того, что конкретное наблюдение взято из конкретной генеральной совокупности
СТЬЮДРАСП – для расчета критических значений распределения Стьюдента (t-распредления).
НОРМРАСП - возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения.
ДОВЕРИТ - возвращает доверительный интервал для среднего определенной нормально распределенной генеральной совокупности.
ФТЕСТ - возвращает одностороннюю вероятность того, что дисперсии выборок различаются.
ХИ2ТЕСТ - возвращает значение для распределения хи-квадрат (используется как критическое значение c2-критерий Пирсона).
В средствах статистического анализа, которые вызываются командой Анализ данных меню Сервис, для проверки статистических гипотез предлагаются следующие инструменты.
Двухвыборочный F-тест для дисперсии. Позволяет проверить гипотезу о равенстве дисперсий для двух выборок.
Парный двухвыборочный t-тест для средних. Для проверки гипотезы о равенстве средних для двух выборок с помощью t-критерия при условии равенства объема выборок.
Двухвыборочный t-тест с одинаковыми дисперсиями. Двухвыборочный t-тест Стьюдента служит для проверки гипотезы о равенстве средних для двух выборок при условии равенства дисперсий .
Двухвыборочный t-тест с разными дисперсиями. Двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок при условии неоднородности дисперсий.
Вид окон для t-тестов аналогичен как и для F-тест.
Z-тест. Двухвыборочный z-тест для средних с известными дисперсиями. Используется для проверки гипотезы о различии между средними двух генеральных совокупностей при условии, что дисперсии известны, но гипотезы об их однородности не проверялись.
проверка статистических гипотез в пакете STATISTICA.
Рассмотрим на примере проверки гипотез об однородности средних и дисперсий двух выборок.
Шаг 1. Ввести или импортировать (например, из Excel) исходные данные в рабочую книгу (Workbook) системы STATISTICA. При проверки гипотез в отношении двух выборок вводятся два массива (группы) данных. При необходимости можно ввести название для таблицы и изменить название столбца.
Шаг 2. Щелкнуть по кнопке Start menu …, расположенной в левом нижнем углу окна приложения и в появившемся меню выбрать Statistics ® Basic Statistics and Tables ®
t-test, independent, by variables.
Шаг 3. В появившемся окне T-Test for Independent Samples by Variables после щелчка по кнопке Variables (Groups) - указать на столбцы с первой и второй выборкой.
Шаг 4. Для проверки гипотез об однородности дисперсий и средних выбирается кнопка Summary:T-tests
Шаг 5. После щелчка по кнопке Summary:T-tests появляется окно с значениями средних, среднеквадратичных, объемами выборок и результатами проверки гипотез - расчетными значениями t-критерия и F -критерия.
Пример 3.4.1. В таблицах 3.4.1 и 3.4.2 приведены две выборки с результатами измерений на тестовых кристаллах емкости МОП–структур в режиме обогащения (в пФ). Выборки взяты из двух опытных партий, изготовленных при разных технологических режимах.
Таблица 3.4.1
-
1
2
3
4
5
6
7
8
9
10
1
451
460
417
456
460
412
447
464
423
435
2
447
466
460
503
458
443
457
474
476
471
3
445
470
476
448
430
488
518
435
447
490
4
466
454
453
466
444
447
460
461
429
448
5
431
468
417
426
470
484
485
500
430
449
6
420
468
487
435
464
456
448
508
458
422
7
473
430
468
472
440
474
442
491
466
461
8
458
437
440
464
434
442
464
411
459
447
9
449
449
457
438
437
447
443
434
473
486
10
396
468
487
412
476
435
435
461
444
452
Таблица 3.4.2
-
1
2
3
4
5
6
7
8
9
10
1
670
663
638
640
662
652
657
692
698
677
2
710
699
717
665
653
652
687
677
666
706
3
709
680
694
697
670
674
668
716
646
685
4
666
662
681
674
666
662
667
678
675
644
5
653
660
677
666
716
672
702
625
724
654
6
658
664
668
688
672
665
695
644
672
682
7
672
687
708
654
639
680
648
685
691
661
8
646
658
657
682
701
659
655
669
705
680
9
668
711
647
709
655
688
673
646
720
677
10
687
667
673
662
687
684
678
660
670
683
Ставятся задачи.
Определить закон распределения для случайной величины - емкость МОП–структуры в режиме обогащения. Изменяется ли этот закон при разных технологических режимах.
Существенно ли различие между дисперсиями выборок.
Существенно ли различие между средними выборок.
Решение с помощью Microsoft Excel. Для определения закона распределения построим гистограммы для 1-ой и 2-ой выборок с помощью технологии, описанной в 2.4.
По виду гистограмм можно предположить нормальный закон распределения, но приложение Excel не предоставляет средства для проверки статистической гипотезы о нормальном законе.
Осуществить проверку гипотезы о виде закона распределения можно с помощью модуля Descriptive Statistics пакета STATISTICA, для чего импортируем исходные данные из таблиц 3.4.1, 3.4.2 в систему STATISTICA.
и вызовем модуль Descriptive Statistics (по технологии описанной в 2.4), в котором выберем вкладку Normality.
На вкладке Normality активизируем флажок Kolmogorov-Smirnov & Lilliefors test for normality и щелкаем по кнопке Histograms. Выводятся окна, в которых приведены значения K-S d (для 1-ой выборки d=0,04616, для 2-ой выборки d=0,06590) и по значению d рассчитываем значение критерия Колмогорова-Смирнова l=n1/2 d.
Получим для 1-ой выборки l==0,4616, что позволяет принять гипотезу о нормальном законе распределения с доверительной вероятностью равной 0,9840, для 2-ой выборки l==0,6590 и гипотеза принимается с доверительной вероятностью 0,7764. (Для оценки доверительной вероятности использовалась таблица , приложения ).
Таким образом, случайная величина - емкость МОП–структуры в режиме обогащения подчиняется нормальному закону распределения с доверительной вероятностью не менее 0,7764 и этот закон не изменяется при изменении технологического режима.
Для ответа на вопрос существенно ли различие между дисперсиями выборок используем двухвыборочный F-тест для дисперсии приложения Excel.
-
Двухвыборочный F-тест для дисперсии
Переменная 1
Переменная 2
Среднее
454,3039
674,3605
Дисперсия
504,9464
434,4266
Наблюдения
100,0000
100,0000
df
99,0000
99,0000
F
1,1623
P(F<=f) одностор.
0,2278
F критическое
1,3941
Из приведенных выше результатов двухвыборочного F-тест рассчитанное значение F-критерия 1,1623 меньше F критического, равного 1,3941, и гипотеза об незначимом различии (однородности) дисперсий принимается.
Для ответа на вопрос существенно ли различие между средними выборок используем двухвыборочный t-тест с одинаковыми дисперсиями. приложения Excel.
-
Двухвыборочный t-тест с одинаковыми дисперсиями
Переменная 1
Переменная 2
Среднее
454,3039
674,3605
Дисперсия
504,9464
434,4266
Наблюдения
100
100
Объед. дисперсия
469,6865
Гипотет.разн.сред.
0,0000
df
198
t-статистика
-71,7985
P(T<=t) одностор.
0,0000
t критич. одностор.
1,6526
P(T<=t) двухстор.
0,0000
t критич. двухстор.
1,9720
Из приведенных выше результатов двухвыборочный t-тест с одинаковыми дисперсиями рассчитанное значение t -критерия -71,7985 намного больше t-критического, равного1,6526 для односторонней критической области и равного 1,6526 для двухсторонней критической области, и принимается гипотеза о существенном различии между средними с доверительной вероятностью близкой к 1.
Также, вопрос о наличии существенного различия между дисперсиями выборок можно решить с помощью пакета STATISTICA. Использование технологии проверки статистических гипотез в пакете STATISTICA (шаги 1 – 5) привело к следующим результатам
Значения t- и F-критериев полностью совпадают с полученными в с помощью Microsoft Excel.
