- •Томашевский а.В., Рысиков в.П. Учебное пособие компьютерные технологии статистической обработки данных
- •Введение
- •1.Краткая характеристика основных пакетов статистической обработки
- •1.1. Общие представления
- •1.2. Ввод данных в пакете statistica
- •1.3.Контрольные вопросы и задания
- •1.3.1.Вопросы
- •1.3.2. Задания
- •2. Начальная статистическая обработка данных
- •2.1. Понятие о генеральной совокупности и выборке
- •2.2. Случайные величины и их характеристики
- •2.3. Распределения случайных величин
- •2.4. Компьютерные технологии начальной статистической обработки
- •2.5. Контрольные вопросы и задания
- •2.5.1.Вопросы
- •2.5.2. Задание
- •3. Проверка статистических гипотез
- •3.1. Основные положения
- •3.2. Проверка гипотезы о законе распределения
- •3.3. Проверка гипотез о равенстве дисперсий и математических ожиданий
- •3.4. Компьютерные технологии проверки статистических гипотез
- •3.5. Контрольные вопросы и задания
- •3.5.1.Вопросы
- •3.5.2. Задания
- •4. Корреляционный анализ
- •4.1. Основные положения
- •4.2. Корреляционное поле
- •4.3. Выборочный коэффициент корреляции.
- •4.4. Корреляционное отношение
- •4.5. Частные коэффициенты корреляции.
- •4.6. Ранговая корреляция.
- •4.7. Компьютерные технологии корреляционного анализа
- •4.8. Контрольные вопросы и задания
- •4.8.1.Вопросы
- •4.8.2. Задания
- •5. Регрессионный анализ
- •5.1. Основные положения
- •5.2. Компьютерные технологии регрессионного анализа
- •5.3. Контрольные вопросы и задания
- •5.3.1.Вопросы
- •5.3.2. Задания
- •6. Дисперсионный анализ
- •6.1. Основные положения
- •6.2. Однофакторный дисперсионный анализ
- •6.3 Двухфакторный дисперсионный анализ
- •6.5. Контрольные вопросы и задания
- •6.5.1.Вопросы
- •5.3.2. Задания
- •7. Планирование эксперимента
- •7.1. Основные положения
- •7.2. Полный факторный эксперимент
- •7.3 Центральное композиционное планирование
- •7.5. Контрольные вопросы и задания
- •7.5.1.Вопросы
- •7.5.2. Задания
- •Приложение статистические таблицы Функция стандартного нормального распределения
- •Критические точки распределения Стьюдента
- •Критические точки распределения 2
- •Рекомендована література
6.3 Двухфакторный дисперсионный анализ
Двухфакторный дисперсионный анализ применяется в случае, когда предполагается, что изменчивость наблюдаемых значений исследуемой случайной величины х обусловлена двумя факторами. Условно обозначим эти факторы А и В. Наблюдения xijk связываются со значениями факторов Аi и Вj,
индекс к- означает параллельные наблюдения. Различаются две разновидности двухфакторного дисперсионного анализа. Это дисперсионный анализ с пересекающимися факторами и дисперсионный анализ с группировкой.
Если классификация наблюдений по фактору В имеет один и тот же смысл для всех значений фактора А, то это классификация для двухфакторного анализа с пересекающимися факторами. Пример двухфакторной классификации с пересекающимися факторами - пусть изделия в процессе изготовления проходят через установки типа А (фактор А) и затем через установки типа В (фактор В), и изделия, прошедшее через определенную установку типа А попадают на все имеющиеся установки типа В.
Если наблюдения представлены таким образом, что значения, соответствующие классификации В сгруппированы к определенному значению классификации А, то это классификация двухфакторного анализа с группировкой. Пример двухфакторной классификации с группировкой - вся продукция разбивается на партии (классификация А), каждая партия состоит из пластин (классификация В) на каждой пластине производится ряд параллельных замеров.
Суммарный разброс Q значений исследуемой случайной величины обусловлен следующими причинами:
-фактором А;
-фактором В;
-взаимодействием АВ;
-неучтенными факторами.
Если для оценки суммарного разброса используется сумма квадратов отклонений, то
Q=QA+QB+QAB+QW; (6.3.1),
где: QA+QB+QAB+QW - суммы квадратов отклонений, обусловленных действием факторов А,В, взаимодействием АВ и неучтенными факторами W.
Оценка влияния на общий разброс факторов, которым соответствует классификация А,В,В(А),(А внутри В), взаимодействия АВ производится с помощью критерия Фишера. Формулы для расчета F- критерия приведены в таблицах 6.3.1, 6.3.2. Вычисление средних производится по следующим формулам:
(6.3.2),
где: xijk - к-ое параллельное наблюдение, которое принадлежит i-му уровню класса А и j-му уровню класса В, при к=1,n; i=1,nA; j=1,nB.
Полученные вычисленные значения F- критерия сравниваются с критическим значением F -распределения, взятых для числа степеней свободы, соответствующего среднему квадрату. Например, F(A)=S2A/S2W соответствуют числа степеней свободы k1=nА-1, k2=nАnВ(n-1).
Заключение о существенном влиянии на общую дисперсию исследуемого вида классификации делается для уровня значимости α , если FF1,2 где: F1,2 – процентная точка (критическое значение) распределения Фишера.
Таблица двухфакторного дисперсионного анализа при классификация с пересекающимися факторами.
Таблица 6.3.1
Источник дисперсии |
Сумма квадратов |
Число ст. cвободы |
Средний квадрат |
F-критерий |
Классификация А |
|
nA-1 |
|
|
Классификация В |
|
nB-1 |
|
|
Взаимодействие |
|
(nA-1)( nB-1) |
|
|
Внутри групп
|
|
nA nB (n-1)
|
|
|
Полная сумма квадратов |
|
nA nB n-1 |
|
Таблица двухфакторного дисперсионного анализа при классификация с группировкой.
Таблица 6.3.2
Источник дисперсии |
Сумма квадратов |
Число ст. cвободы |
Средний квадрат |
F-критерий |
Классификация А |
|
nA-1 |
|
|
Классификация В внутри А |
|
nA(nB-1) |
|
|
Внутри групп
|
|
nA nB (n-1)
|
|
|
Полная сумма квадратов |
|
nA nB n-1 |
|
6.4. Компьютерные технологии дисперсионного анализа
ИСПОЛЬЗОВАНИЕ ПАКЕТА АНАЛИЗА Microsoft Excel..
Инструменты дисперсионного анализа доступны через команду Анализ данных меню Сервис. Существует несколько видов дисперсионного анализа. Требуемый вариант выбирается с учетом числа факторов и имеющихся выборок из генеральной совокупности.
Однофакторный дисперсионный анализ. Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности.
Двухфакторный дисперсионный анализ с повторениями.Представляет собой более сложный вариант дисперсионного анализа с несколькими выборками для каждой группы данных, называемый также дисперсионным анализом при классификация с группировкой.
Двухфакторный дисперсионный анализ без повторения.Представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу, называемый также дисперсионным анализом при классификация с пересекающимися факторами.
Пример 6.4.1. . Поставлена задача - оценить стабильность операции “вплавление” технологического процесса изготовления транзисторов средней мощности, контролируемой по параметру αf - коэффициенту усиления по току на частоте f. Для исследования после “вплавления” взято 10 выборок по 30 блоков с транзисторной структурой. Результаты измерений параметра αf на блоках, приведены в таблице 6.4.1.
Таблице 6.4.1.
-
№ измерен.
Номер выборки
1
2
3
4
5
6
7
8
9
10
1
0,82
0,79
0,80
0,80
0,79
0,83
0,84
0,81
0,84
0,79
2
0,82
0,79
0,78
0,79
0,77
0,82
0,82
0,76
0,83
0,82
3
0,81
0,81
0,80
0,78
0,81
0,85
0,86
0,81
0,84
0,80
4
0,83
0,84
0,79
0,75
0,75
0,85
0,86
0,79
0,83
0,76
5
0,76
0,82
0,76
0,82
0,77
0,82
0,83
0,83
0,80
0,80
6
0,76
0,78
0,83
0,78
0,76
0,84
0,86
0,84
0,84
0,80
7
0,82
0,84
0,80
0,83
0,73
0,76
0,86
0,77
0,84
0,81
8
0,78
0,80
0,81
0,79
0,72
0,83
0,86
0,81
0,83
0,80
9
0,82
0,83
0,81
0,76
0,71
0,82
0,86
0,80
0,83
0,76
10
0,83
0,79
0,80
0,80
0,79
0,80
0,86
0,80
0,83
0,82
11
0,80
0,81
0,82
0,73
0,80
0,79
0,82
0,79
0,82
0,80
12
0,79
0,85
0,82
0,79
0,75
0,81
0,85
0,81
0,84
0,80
13
0,79
0,77
0,79
0,81
0,76
0,86
0,83
0,78
0,83
0,79
14
0,80
0,83
0,83
0,80
0,77
0,85
0,85
0,82
0,82
0,82
15
0,80
0,83
0,81
0,77
0,76
0,83
0,87
0,83
0,82
0,79
16
0,79
0,82
0,79
0,79
0,79
0,81
0,85
0,80
0,86
0,79
17
0,79
0,80
0,79
0,79
0,72
0,81
0,88
0,79
0,85
0,78
18
0,81
0,83
0,79
0,79
0,80
0,84
0,80
0,82
0,84
0,82
19
0,79
0,78
0,79
0,77
0,75
0,77
0,83
0,80
0,81
0,78
20
0,82
0,79
0,81
0,81
0,78
0,82
0,83
0,77
0,86
0,79
21
0,82
0,85
0,82
0,78
0,82
0,84
0,83
0,79
0,86
0,82
22
0,78
0,80
0,82
0,78
0,78
0,82
0,81
0,83
0,85
0,81
23
0,80
0,82
0,79
0,79
0,76
0,82
0,87
0,81
0,83
0,79
24
0,78
0,80
0,78
0,81
0,74
0,81
0,87
0,78
0,86
0,82
25
0,80
0,80
0,80
0,78
0,77
0,79
0,82
0,78
0,82
0,80
26
0,79
0,81
0,78
0,77
0,80
0,80
0,83
0,83
0,85
0,80
27
0,81
0,83
0,82
0,75
0,75
0,83
0,81
0,81
0,83
0,83
28
0,79
0,81
0,77
0,80
0,78
0,81
0,84
0,77
0,83
0,79
29
0,78
0,80
0,83
0,75
0,79
0,83
0,80
0,81
0,85
0,82
30
0,77
0,84
0,80
0,78
0,79
0,78
0,86
0,81
0,80
0,76
Решение. Предлагается использовать метод однофакторного дисперсионного анализа.
Обозначим х параметр αf , которым оценивают стабильность операции “вплавление”.
В результате предварительного статистического анализа установлено, что х – это нормально - распределенная случайная величина. Наблюдения за ходом технологического процесса осуществляется с помощью выборок, которые берутся через определенные постоянные промежутки времени. Стабильность техпроцесса может оцениваться величиной вклада в общий разброс значений х разброса, обусловленного неоднородностью выборочных средних. Гипотеза об однородности средних и проверяется методом однофакторного дисперсионного анализа.
Данные выборочных наблюдений из таблицы 6.4.1 обработаны с помощью инструмента «однофакторный дисперсионный анализ» из пакета анализа microsoft excel. Результаты обработки приведены в таблицах 6.4.2, 6.4.3
Таблице 6.4.2.
-
ИТОГИ
Группы
Счет
Сумма
Среднее
Дисперсия
Столбец 1
30
23,90076
0,79669
0,00047
Столбец 2
30
24,25154
0,80838
0,00043
Столбец 3
30
23,83703
0,79457
0,00053
Столбец 4
30
23,35077
0,77836
0,00048
Столбец 5
30
22,92961
0,76432
0,00071
Столбец 6
30
24,69176
0,82306
0,00060
Столбец 7
30
25,31971
0,84399
0,00046
Столбец 8
30
24,14639
0,80488
0,00047
Столбец 9
30
24,69011
0,82300
0,00027
Столбец 10
30
24,03924
0,80131
0,00038
Таблице 6.4.3.
Дисперсионный анализ |
||||||
Источник вариации |
SS |
df |
MS |
F |
P-Значение |
F критическое |
Между группами |
0,141749 |
9 |
0,0157498 |
32,79 |
1,9413E-39 |
1,912 |
Внутри групп |
0,139283 |
290 |
0,0004803 |
|
|
|
|
|
|
|
|
|
|
Итого |
0,281031 |
299 |
|
|
|
|
Вычисленное значение F- критерия равно 32,79 и оно намного больше критического, равного 1,912, следовательно то с приняты уровнем значимости делается вывод о существенном влиянии на общую дисперсию разброса выборочных средних. Процесс нестабилен. Можно оценить вклад разброса средних в общий разброс, исходя из того, что Q=QA+QW. Примем полную сумму квадратов отклонений хij от общего среднего за 100%, вклад QA и QW составляют приблизительно по 50%.
дисперсионный анализ в пакете STATISTICA
Шаг 1. Ввести или импортировать (например, из Excel) исходные данные в рабочую книгу (Workbook) системы STATISTICA, выделить их, ввести название таблицы исходных данных и названия переменных.
Шаг 2. Щелкнуть по кнопке Start menu …, расположенной в левом нижнем углу окна приложения и в появившемся меню выбрать Statistics ® ANOVA. После чего появляется окно General ANOVA/MANOVA - Quick Tab
Шаг 3. После выбора строки One-way ANOVA появляется соответствующее окно с помощью которого выбираются зависимые (dependent variable(s) ) и группирующие (categorical predictor variables) переменные.
Шаг 4. Затем щелкнуть по кнопке OK и появляется окно ANOVA Results - Quick ,
где выбрать кнопку All effects, после чего и появляется окно Multivariate Tests of Significance с результатами анализа.
Пример 6.4.2. В качестве примера используем исходные данные социологического опроса рекламного исследования из файла Adstudy.sta, который находится в папке Examples и поставляется вместе с системой statistica. Данные представляют собой оценки респондентов (мужчин и женщин) качества двух рекламных роликов – ADVERT:1=Coce, ADVERT:2=Pepsi . Привлекательность роликов оценивалась по различным шкалам, ограничимся 9-ью шкалами (с Measur 1 по Measur 9). В каждой из шкал респонденты выставляли баллы от 0 до 7.
Проведя дисперсионный анализ согласно шагам 1 – 4 , получим окно Multivariate Tests of Significance с результатами, отражающими влияние факторов «пол» и «ролик».
