Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Компьютерные технологии статистической обработки данных.doc
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
3.92 Mб
Скачать

3.4. Компьютерные технологии проверки статистических гипотез

ИСПОЛЬЗОВАНИЕ ВСТРОЕНЫХ СТАТИСТИЧЕСКИХ ФУНКЦИЙ И ПАКЕТА АНАЛИЗА Microsoft Excel.. Для проверки статистических гипотез могут быть использованы следующие встроенные функции:

ТТЕСТ – для определения вероятности того, что две выборки взяты из генеральных совокупностей с одинаковым математическим ожиданием;

ZTECT – для определения вероятности того, что выборка взята из определенной нормально-распределенной генеральной совокупности. Можно использовать эту функцию, чтобы оценить вероятность того, что конкретное наблюдение взято из конкретной генеральной совокупности

СТЬЮДРАСП – для расчета критических значений распределения Стьюдента (t-распредления).

НОРМРАСП - возвращает нормальную функцию распределения для указанного среднего и стандартного отклонения.

ДОВЕРИТ - возвращает доверительный интервал для среднего определенной нормально распределенной генеральной совокупности.

ФТЕСТ - возвращает одностороннюю вероятность того, что дисперсии выборок различаются.

ХИ2ТЕСТ - возвращает значение для распределения хи-квадрат (используется как критическое значение c2-критерий Пирсона).

В средствах статистического анализа, которые вызываются командой Анализ данных меню Сервис, для проверки статистических гипотез предлагаются следующие инструменты.

Двухвыборочный F-тест для дисперсии. Позволяет проверить гипотезу о равенстве дисперсий для двух выборок.

Парный двухвыборочный t-тест для средних. Для проверки гипотезы о равенстве средних для двух выборок с помощью t-критерия при условии равенства объема выборок.

Двухвыборочный t-тест с одинаковыми дисперсиями. Двухвыборочный t-тест Стьюдента служит для проверки гипотезы о равенстве средних для двух выборок при условии равенства дисперсий .

Двухвыборочный t-тест с разными дисперсиями. Двухвыборочный t-тест Стьюдента используется для проверки гипотезы о равенстве средних для двух выборок при условии неоднородности дисперсий.

Вид окон для t-тестов аналогичен как и для F-тест.

Z-тест. Двухвыборочный z-тест для средних с известными дисперсиями. Используется для проверки гипотезы о различии между средними двух генеральных совокупностей при условии, что дисперсии известны, но гипотезы об их однородности не проверялись.

проверка статистических гипотез в пакете STATISTICA.

Рассмотрим на примере проверки гипотез об однородности средних и дисперсий двух выборок.

Шаг 1. Ввести или импортировать (например, из Excel) исходные данные в рабочую книгу (Workbook) системы STATISTICA. При проверки гипотез в отношении двух выборок вводятся два массива (группы) данных. При необходимости можно ввести название для таблицы и изменить название столбца.

Шаг 2. Щелкнуть по кнопке Start menu …, расположенной в левом нижнем углу окна приложения и в появившемся меню выбрать Statistics ® Basic Statistics and Tables ®

t-test, independent, by variables.

Шаг 3. В появившемся окне T-Test for Independent Samples by Variables после щелчка по кнопке Variables (Groups) - указать на столбцы с первой и второй выборкой.

Шаг 4. Для проверки гипотез об однородности дисперсий и средних выбирается кнопка Summary:T-tests

Шаг 5. После щелчка по кнопке Summary:T-tests появляется окно с значениями средних, среднеквадратичных, объемами выборок и результатами проверки гипотез - расчетными значениями t-критерия и F -критерия.

Пример 3.4.1. В таблицах 3.4.1 и 3.4.2 приведены две выборки с результатами измерений на тестовых кристаллах емкости МОП–структур в режиме обогащения (в пФ). Выборки взяты из двух опытных партий, изготовленных при разных технологических режимах.

Таблица 3.4.1

 

1

2

3

4

5

6

7

8

9

10

1

451

460

417

456

460

412

447

464

423

435

2

447

466

460

503

458

443

457

474

476

471

3

445

470

476

448

430

488

518

435

447

490

4

466

454

453

466

444

447

460

461

429

448

5

431

468

417

426

470

484

485

500

430

449

6

420

468

487

435

464

456

448

508

458

422

7

473

430

468

472

440

474

442

491

466

461

8

458

437

440

464

434

442

464

411

459

447

9

449

449

457

438

437

447

443

434

473

486

10

396

468

487

412

476

435

435

461

444

452

Таблица 3.4.2

 

1

2

3

4

5

6

7

8

9

10

1

670

663

638

640

662

652

657

692

698

677

2

710

699

717

665

653

652

687

677

666

706

3

709

680

694

697

670

674

668

716

646

685

4

666

662

681

674

666

662

667

678

675

644

5

653

660

677

666

716

672

702

625

724

654

6

658

664

668

688

672

665

695

644

672

682

7

672

687

708

654

639

680

648

685

691

661

8

646

658

657

682

701

659

655

669

705

680

9

668

711

647

709

655

688

673

646

720

677

10

687

667

673

662

687

684

678

660

670

683

Ставятся задачи.

  • Определить закон распределения для случайной величины - емкость МОП–структуры в режиме обогащения. Изменяется ли этот закон при разных технологических режимах.

  • Существенно ли различие между дисперсиями выборок.

  • Существенно ли различие между средними выборок.

Решение с помощью Microsoft Excel. Для определения закона распределения построим гистограммы для 1-ой и 2-ой выборок с помощью технологии, описанной в 2.4.

По виду гистограмм можно предположить нормальный закон распределения, но приложение Excel не предоставляет средства для проверки статистической гипотезы о нормальном законе.

Осуществить проверку гипотезы о виде закона распределения можно с помощью модуля Descriptive Statistics пакета STATISTICA, для чего импортируем исходные данные из таблиц 3.4.1, 3.4.2 в систему STATISTICA.

и вызовем модуль Descriptive Statistics (по технологии описанной в 2.4), в котором выберем вкладку Normality.

На вкладке Normality активизируем флажок Kolmogorov-Smirnov & Lilliefors test for normality и щелкаем по кнопке Histograms. Выводятся окна, в которых приведены значения K-S d (для 1-ой выборки d=0,04616, для 2-ой выборки d=0,06590) и по значению d рассчитываем значение критерия Колмогорова-Смирнова l=n1/2 d.

Получим для 1-ой выборки l==0,4616, что позволяет принять гипотезу о нормальном законе распределения с доверительной вероятностью равной 0,9840, для 2-ой выборки l==0,6590 и гипотеза принимается с доверительной вероятностью 0,7764. (Для оценки доверительной вероятности использовалась таблица , приложения ).

Таким образом, случайная величина - емкость МОП–структуры в режиме обогащения подчиняется нормальному закону распределения с доверительной вероятностью не менее 0,7764 и этот закон не изменяется при изменении технологического режима.

Для ответа на вопрос существенно ли различие между дисперсиями выборок используем двухвыборочный F-тест для дисперсии приложения Excel.

Двухвыборочный F-тест для дисперсии

 

Переменная 1

Переменная 2

Среднее

454,3039

674,3605

Дисперсия

504,9464

434,4266

Наблюдения

100,0000

100,0000

df

99,0000

99,0000

F

1,1623

P(F<=f) одностор.

0,2278

F критическое

1,3941

 

Из приведенных выше результатов двухвыборочного F-тест рассчитанное значение F-критерия 1,1623 меньше F критического, равного 1,3941, и гипотеза об незначимом различии (однородности) дисперсий принимается.

Для ответа на вопрос существенно ли различие между средними выборок используем двухвыборочный t-тест с одинаковыми дисперсиями. приложения Excel.

Двухвыборочный t-тест с одинаковыми дисперсиями

 

Переменная 1

Переменная 2

Среднее

454,3039

674,3605

Дисперсия

504,9464

434,4266

Наблюдения

100

100

Объед. дисперсия

469,6865

Гипотет.разн.сред.

0,0000

df

198

t-статистика

-71,7985

P(T<=t) одностор.

0,0000

t критич. одностор.

1,6526

P(T<=t) двухстор.

0,0000

t критич. двухстор.

1,9720

 

Из приведенных выше результатов двухвыборочный t-тест с одинаковыми дисперсиями рассчитанное значение t -критерия -71,7985 намного больше t-критического, равного1,6526 для односторонней критической области и равного 1,6526 для двухсторонней критической области, и принимается гипотеза о существенном различии между средними с доверительной вероятностью близкой к 1.

Также, вопрос о наличии существенного различия между дисперсиями выборок можно решить с помощью пакета STATISTICA. Использование технологии проверки статистических гипотез в пакете STATISTICA (шаги 1 – 5) привело к следующим результатам

Значения t- и F-критериев полностью совпадают с полученными в с помощью Microsoft Excel.