
- •«Тверской государственный технический университет»
- •4 5 5 7 9 10 10 13 17 21 21 25 29 34 34 41 44 51 55 Содержание
- •Введение
- •Раздел 1. Расчет статистических характеристик технологических параметров и их взаимосвязи
- •Раздел 2. Сравнение результатов двух групп испытаний
- •Двухвыборочный t-тест для средних
- •Раздел 3. Дисперсионный анализ
- •Раздел 4. Регрессионный анализ
- •Раздел 5. Решение задач оптимизации
- •Библиографический список
Раздел 3. Дисперсионный анализ
Дисперсионный анализ – это статистический метод анализа результатов наблюдений, зависящих от различных, одновременно действующих факторов, выбор наиболее важных факторов оценка их влияния. Суть анализа заключается в разложении общей вариации случайной величины на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия.
Факторами обычно называют внешние условия, влияющие на эксперимент.
Это, например, температура и время, тип оборудования и т.п. Нас интересуют факторы, действие которых значительно и поддается проверке. В условиях эксперимента факторы могут варьировать, благодаря чему можно исследовать влияние контролируемого фактора на эксперимент. В этом случае говорят, что фактор варьирует на разных уровнях или имеет несколько уровней. В зависимости от количества факторов, включенных в анализ, различают классификацию: по одному признаку – однофакторный анализ, по двум признакам – двухфакторный анализ и многостороннюю классификацию – перекрестную классификацию, изучением которой занимается многофакторный анализ.
|Для проведения дисперсионного анализа необходимо соблюдать следующие условия: результаты наблюдений должны быть независимыми случайными величинами, имеющими нормальное распределение и одинаковую дисперсию. Только в этом случае можно оценить значимость полученных оценок дисперсий и математических ожиданий и построить доверительные интервалы.
Работа № 7
Однофакторный дисперсионный анализ
На практике возможен случай, когда на
автоматической линии несколько агрегатов
(прессов) параллельно выполняют некоторую
операцию. Для правильного планирования
последующей обработки важно знать,
насколько однотипны средние размеры
изделий, получаемые на параллельно
работающих линиях. Здесь имеет место
лишь один фактор, влияющий на размер
изделий, – пресса, на которых они
изготовляются. Исследователя интересует,
насколько существенно влияние этого
фактора на размеры изделия. Предположим,
что совокупности размеров изделий,
изготовленных на каждом прессе, имеют
нормальное распределение и равные
дисперсии. Имеем m
прессов, следовательно, m
совокупностей или уровней, на которых
произведено
наблюдений. Для простоты рассуждений
положим, что
.
Размеры изделий, составляющие
наблюдений
на
м
уровне, обозначим
.
Тогда все наблюдения можно представить
в виде таблицы, которую назовем матрицей
наблюдений (табл. 4).
Таблица 4
Уровень |
Наблюдения |
|||||
1 |
2 |
|
j |
|
n |
|
1 |
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
Предположим, что для i-го
уровня n наблюдений
имеют среднюю
,
равную сумме общей средней
и вариации ее, обусловленной i-м
уровнем фактора, т.е.
.
Тогда одно наблюдение можно представить
в следующем виде:
,
где
– общая средняя,
– эффект, обусловленный i-м уровнем
фактора,
– вариация результатов внутри отдельного
уровня.
Член
характеризует влияние всех не учтенных
моделью факторов. Согласно общей задаче
дисперсионного анализа, нужно оценить
существенность влияния фактора
на размеры изделий. Общую вариацию
переменной
можно разложить на части, одна из которых
характеризует влияние фактора
,
другая – влияние неучтенных факторов.
Для этого необходимо найти оценку общей
средней
и оценки средних по уровням
.
Очевидно, что оценкой
является средняя арифметическая n
наблюдений i-го уровня,
т.е.
.
Звездочка в индексе при х означает,
что наблюдения фиксированы на i-ом
уровне.
Основное тождество дисперсионного анализа можно представить следующим образом:
;
или
.
И Слагаемое
,
является суммой квадратов разностей
между средними уровней и средней всей
совокупности наблюдений. Эта сумма
называется суммой квадратов отклонений
между группами и характеризует
расхождение между уровнями. Величину
называют также рассеиванием по
факторам, т.е. рассеиванием за счет
исследуемого фактора. Слагаемое
является суммой квадратов разностей
между отдельными наблюдениями и средней
i-го уровня. Эта сумма
называется суммой квадратов отклонений
внутри группы и характеризует
расхождение между наблюдения i-го
уровня. Величину
называют также остаточным рассеиванием,
т.е. рассеиванием за счет неучтенных
факторов. Наконец, SS называется общей
или полной суммой квадратов отклонений
отдельных наблюдений от общей средней
.
Зная суммы квадратов SS,
и
,
можно найти оценку
соответствующих
дисперсий: общей, межгрупповой и
внутригрупповой (табл. 5 ).
Тогда для проверки гипотезы о том, что
влияние всех уровней фактора
одинаково, вычисляют статистику. Затем
по таблице F-распределения
(Приложение 1) для уровня значимости
с
и
степенями свободы находят критическое
значение
.
Если
,
то нулевая гипотеза отвергается и
делается заключение о существенном
влиянии уровней фактора
.
При
нет основания отвергать нулевую гипотезу
и считают, что влияние уровней фактора
несущественно.
Сравнивая межгрупповую и остаточную дисперсии, по величине их отношения судят, насколько сильно проявляется влияние уровней факторов.
Однофакторный дисперсионный анализ удобно представить в виде табл. 5.
Таблица 5
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Оценка дисперсий |
Межгрупповая |
|
|
|
Внутригрупповая |
|
|
|
Полная (общая) |
|
|
|
Пример 7. На комбинате строительных материалов имеется четыре пресса для формования силикатного кирпича. От каждого пресса отобрано по пять образцов и проведены испытания по определению предела прочности при сжатии (табл. 6). Требуется выяснить, существенно ли влияние различных прессов на величину предела прочности при сжатии.
Таблица 6
Номер пресса |
Предел прочности при сжатии, кгс/см2 |
||||
1 |
200 |
140 |
170 |
145 |
165 |
2 |
190 |
150 |
210 |
150 |
150 |
3 |
230 |
190 |
200 |
190 |
200 |
4 |
150 |
170 |
150 |
170 |
180 |
Решение
В данном случае
.
Среднюю арифметическую каждой строки
вычисляем по формуле
.
Имеем:
.
Найдем среднюю арифметическую всей совокупности:
.
Вычислим величины, необходимые для построения табл. 5 и занесем в табл. 7.
Таблица 7
Компоненты дисперсии |
Сумма квадратов |
Число степеней свободы |
Оценка дисперсий |
Межгрупповая |
4980 |
3 |
1660,0 |
Внутригрупповая |
7270 |
16 |
454,4 |
Полная (общая) |
12250 |
19 |
644,7 |
Вычислим статистику:
.
По таблице F-распределения
(приложение 1) находим значение
при
и
степенях свободы и уровне значимости
.
Имеем
.
Вычисленное значение
меньше табличного, поэтому можно
утверждать, что нулевая гипотеза не
отвергается, а это значит, что различие
между кирпичом от разных прессов не
влияет на величину предела прочности
при сжатии.
В пакете Анализ данных инструмент Однофакторный дисперсионный анализ используется для проверки гипотезы о сходстве средних значений двух или более выборок, принадлежащих одной и той же генеральной совокупности.
Рассмотрим работу пакета для проведения однофакторного дисперсионного анализа.
Решим пример 7, используя инструмент Однофакторный дисперсионный анализ (рис. 10).
Алгоритм действий следующий:
1. Подготовка листа рабочей книги MS Excel для вычислений (рис. 11).
2. Сервис | Анализ данных | Однофакторный дисперсионный анализ | ОК;
3. Входной интервал: A2:F5;
4. Группирование: по строкам;
5. Поставить флажок в поле Метки в первом столбце;
6. Альфа: 0,01;
7. Выходной интервал: А8;
8. ОК.
Excel представит решение, показанное на рис. 11.
Результаты представлены в виде двух таблиц.
1. В таблице Итоги представлены промежуточные данные расчетов для каждой партии (Группы): число образцов (Счет), суммы величин прочности при сжатии (Сумма), среднее арифметическое величин прочности при сжатии (Среднее), дисперсия прочности при сжатии (Дисперсия).
2. В таблице Дисперсионный анализ
представлены собственно результаты
дисперсионного анализа: компоненты
дисперсии (Источник вариации), суммы
квадратов (SS), число степеней свободы
,
средний квадрат (MS), статистика
,
вероятность значимости (Р-значение),
статистика
(F
критическое). Вероятность значимости
(Р – значение) определяется так же,
как при рассмотрении двухвыборочного
F-теста для дисперсий.
Работа № 8
Двухфакторный дисперсионный анализ без повторений
Если на результативный признак влияет несколько факторов одновременно, то следует использовать многофакторный анализ. Дисперсионный анализ в этом случае имеет свои особенности, так как необходимо учитывать взаимодействия между факторами.
Рассмотрим задачу оценки влияния двух одновременно действующих факторов. Предположим, что имеется несколько однотипных агрегатов и несколько видов сырья. Требуется выяснить, значимо ли влияние различных агрегатов и качества сырья в партиях на качество получаемых изделий. Это типичная задача двухфакторного дисперсионного анализа.
Считаем, что предпосылки дисперсионного анализа выполнены. Пусть фактор А – влияние настройки агрегата, фактор В – влияние качества сырья. Имеем r агрегатов, следовательно, r уровней фактора А, и v партий сырья, следовательно, v уровней фактора В. Матрицу наблюдений можно представить в виде табл. 8.
Таблица 8.
Агрегаты i |
Партии сырья j |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Пересечение i-го уровня фактора А с j-м уровнем фактора В образует ij-ю ячейку, в которую записывают наблюдения, полученные при одновременном исследовании факторов А и В на i-м и j-м уровнях.
Для простоты можно предположить, что в
ячейке содержится только одно наблюдение
.
Предположим также, что между факторами
А и В нет взаимодействия и что
на i-м уровне фактора
А наблюдения имеют среднюю
,
а на j-м уровне фактора
В наблюдения – среднюю
.
Тогда одно наблюдение можно представить
в виде
,
(4)
где
– общая средняя;
– эффект, обусловленный влиянием i-го
уровня фактора A;
эффект, обусловленный влиянием j-го
уровня фактора В;
– вариация результатов внутри отдельной
ячейки (в случае одного наблюдения
вариация равна нулю).
Оценками
являются соответственно общая средняя
и средние по уровням
.
Оценки общей дисперсии можно получить из основного тождества дисперсионного анализа. В двухфакторном дисперсионном анализе общая сумма квадратов отклонений от общей средней раскладывается согласно формуле (4) уже не на две, а на три части: часть общей суммы квадратов, обусловленную влияем фактора А, часть, обусловленную влиянием фактора В, и часть, обусловленную влиянием неучтенных факторов. С помощью дисперсионных отношений можно выяснить, насколько, существенно влияние каждой из этих частей.
(5)
Слагаемое
представляет собой сумму квадратов
разностей между средними по строкам и
общим средним и характеризует изменение
признака по фактору А. Слагаемое
представляет собой сумму квадратов
разностей между средними по столбцам
и общим средним и характеризует изменение
признака по фактору В. Слагаемое
называется остаточной суммой квадратов
и характеризует влияние неучтенных
факторов. Сумма SS называется общей
или полной суммой квадратов отклонений
отдельных наблюдений от общей средней.
Оценки дисперсий:
,
,
(6)
,
.
В двухфакторном анализе для выяснения
значимости влияния факторов А и В
на исследуемый признак сравнивают
дисперсии по факторам с остаточной
дисперсией. Вычисляют статистики
с
и
степенями свободы и
с
и
степенями свободы. Сравнение вычисленных
статистик с табличными значениями и
выводы о существенности влияния факторов
производят так же, как и в однофакторном
дисперсионном анализе. Двухфакторный
дисперсионный анализ удобно представить
в виде табл.
Таблица 9
Компонента дисперсии |
Сумма квадратов |
Число степеней свободы |
Оценки дисперсий |
Между средними по строкам |
|
|
|
Между средними по столбцам |
|
|
|
Остаточная |
|
|
|
Полная (общая) |
|
|
|
Пример 8
Имеем три уровня фактора В:
и два уровня фактора А:
(табл.). Исследовать влияние факторов А
и В на признак.
Таблица 10
|
|
|
|
|
|
1 |
2 |
3 |
2 |
|
5 |
6 |
10 |
7 |
|
3 |
4 |
6,5 |
4,5 |
Решение
Для данного комплекса
.
В нижней строке и в правом крайнем
столбце табл. приведены средние значения
по строкам и столбцам, т.е. по уровням
факторов. По формуле (5) вычислим суммы
квадратов:
.
Для нахождения оценок дисперсий воспользуемся формулами (6). Имеем:
.
Теперь табл. можно записать в следующем виде (табл. 11).
Таблица 11
Компонента дисперсии |
Сумма квадратов |
Число степеней свободы |
Оценки дисперсий |
Между средними по строкам (А) |
37,5 |
1 |
37,5 |
Между средними по столбцам (В) |
13,0 |
2 |
6,5 |
Остаточная |
3,0 |
2 |
1,5 |
Полная (общая) |
53,5 |
5 |
10,7 |
Вычисляем
и
:
.
Для уровня значимости
и
степеней свободы по таблице F-распределения
находим значения
:
.
Сравнивая табличные значения с
вычисленными, получим:
.
Результаты сравнения позволяют сделать
следующие выводы: нулевая гипотеза о
равенстве средних по строкам не
подтверждается, т.е. влияние фактора А
на исследуемый признак значимо;
нулевая гипотеза о равенстве средних
по столбцам не опровергается, т.е. влияние
фактора В на исследуемый признак
незначимо.
В пакете Анализ данных инструмент Двухфакторный дисперсионный анализ без повторений представляет собой двухфакторный анализ дисперсии, не включающий более одной выборки на группу. Инструмент используется для проверки гипотезы о том, что средние значения двух или нескольких выборок одинаковы (выборки нежат одной и той же генеральной совокупности).
Рассмотрим работу пакета для проведения двухфакторного дисперсионного анализа без повторений.
Решим пример 8, используя инструмент Двухфакторный дисперсионный анализ без повторений (рис. 12).
Алгоритм действий следующий:
1. Формируем таблицу исходных данных (рис. 13);
2. Сервис | Анализ данных | Двухфакторный дисперсионный анализ без повторений | ОК;
3. Входной интервал: А1:D3;
4. Поставить флажок в поле Метки;
5. Альфа: 0,05;
6. Выходной интервал: А6;
7. ОК.
Excel представит решение, показанное на рис. 13. Результаты представлены в виде двух таблиц.
1
. В
таблице Итоги представлены
промежуточные данные расчетов для
каждой строки и столбца: число элементов
(Счет), суммы величин (Сумма), среднее
арифметическое величин (Среднее),
дисперсия величин (Дисперсия).
2. В таблице Дисперсионный анализ
представлены собственно результаты
дисперсионного анализа: компоненты
дисперсии (Источник вариации), суммы
квадратов (SS), число степеней свободы
(df), средний квадрат
(MS), статистика
(F), вероятность значимости
(Р-значение), статистика
(F
критическое).
Работа № 9
Двухфакторный дисперсионный анализ с повторениями
Мы рассмотрели частный случай дисперсионного анализа классификации по двум признакам: в ячейке одно наблюдение, взаимодействие между факторами отсутствует. В общем случае в ячейке может быть несколько наблюдений (причем как равное количество, так и неравное), между факторами может иметь место взаимодействие. Лучше, когда в ячейке равное количество наблюдений вычисления при этом упрощаются.
Для общего случая двухфакторного анализа одно наблюдение но представить в виде
,
где
– общая средняя;
– эффект, обусловленный влиянием i-го
уровня фактора A;
– эффект, обусловленный влиянием j-го
уровня фактора В;
– эффект взаимодействия факторов А
и В;
– вариация внутри отдельной ячейки.
Основное тождество двухфакторного дисперсионного анализа с одинаковым количеством наблюдений в ячейке (n) имеет вид
Здесь
и
имеют то же значение, что и в формуле
(5);
– сумма квадратов, оценивающая
взаимодействие факторов А и В;
– сумма квадратов, оценивающая вариацию
внутри ячейки.
Порядок проведения дисперсионного анализа в этом случае такой же, как и прежде: сначала вычисляют суммы квадратов, оценки дисперсий, затем отношение дисперсий F сравнивают с табличным.
Схема анализа и порядок вычисления сумм приведены в табл. 12.
Таблица 12
Компонента дисперсии |
Сумма квадратов |
Число степеней свободы |
Оценки дисперсий |
Между средними по строкам (по фактору А)
|
|
|
|
Между средними по столбцам (по фактору В) |
|
|
|
Взаимодействие |
|
|
|
Остаточная |
|
|
|
Полная сумма квадратов |
|
|
|
Как видно из таблицы, в схеме анализа
появляется новая сумма квадратов
и несколько меняется структура суммы
(вместо
берется
).
Появление суммы
обусловлено наличием нескольких
наблюдений в ячейке. В предыдущей схеме
эта сумма отсутствовала, так как при
одном наблюдении в ячейке разность
равна нулю. Сумма
характеризует влияние прочих случайных
факторов (кроме факторов А, В и
их взаимодействия), поэтому для определения
значимости влияния факторов А и В
величину дисперсии, обусловленную
влиянием этих факторов, сравнивают с
дисперсией, обусловленной влиянием
прочих факторов. При этом вычисляют
следующие отношения дисперсий:
.
Вычисленные значения сравнивают с
табличными значениями
(см.
приложение 1), которые получены для
заданного уровня значимости и
соответствующего числа степеней свободы.
Если
,
влияние рассматриваемого фактора
считается незначимым.
Рассмотрим пример построения двухфакторного комплекса по приведенной схеме.
Пример 9
В технологии полусухого прессования важным является выявление факторов, влияющих на качество прессованных изделий, с тем, чтобы в дальнейшем их было можно регулировать. В табл. 13 приведены данные о величине предела прочности при сжатии изделия полусухого прессования (кгс/см2) в зависимости от наладки пресса и партии исходной смеси.
Таблица 13
Партия смеси |
Уровень наладки пресса |
||
|
|
|
|
|
190 |
150 |
190 |
260 |
250 |
185 |
|
170 |
220 |
135 |
|
170 |
140 |
195 |
|
170 |
180 |
195 |
|
|
190 |
230 |
150 |
150 |
190 |
170 |
|
210 |
200 |
150 |
|
150 |
190 |
170 |
|
150 |
200 |
180 |
При каждом уровне наладки пресса (фактор А) исследовано по пять образцов из каждой партии смеси (фактор В) для определения предела прочности при сжатии. Требуется выяснить, значимо ли влияют наладка пресса и партия смеси на величину предела прочности при сжатии.
Решение
Определяем средние значения (табл. 14).
Таблица 14
Уровень наладки пресса |
Партия смеси |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Находим суммы квадратов, вычисляем оценки дисперсий. Результаты сведены в табл. 15.
Вычисляем отношения дисперсий (расчетные значения F-критерия):
.
Определяем табличные (критические) значения F-критерия:
.
Таблица 15
Компонента дисперсии |
Сумма квадратов |
Число степеней свободы |
Оценки дисперсий |
Между средними по строкам (по фактору А) |
480,0 |
1 |
480,0 |
Между средними по столбцам (по фактору В) |
2686,0 |
2 |
1343,3 |
Взаимодействие |
1860,0 |
2 |
930,0 |
Остаточная |
22360,0 |
24 |
931,7 |
Полная сумма квадратов |
27386,7 |
29 |
944,4 |
Так как все расчетные значения критерия меньше критических значений, то влияние фактора А (уровня наладки пресса) и фактора В (партии смеси), а также их взаимодействие на величину предела прочности при сжатии незначимы.
В пакете Анализ данных инструмент Двухфакторный дисперсией анализ с повторениями представляет собой более сложный вариант двухфакторного анализа, включающего более чем одну выборку для каждой группы данных.
Рассмотрим работу пакета для проведения двухфакторного дисперсионного анализа с повторениями.
Р
ешим
пример 9, используя инструмент Двухфакторный
дисперсионный анализ с повторениями
(рис. 14).
Алгоритм действий следующий:
1. Формируем таблицу исходных данных (рис. 15);
2. Сервис | Анализ данных | Двухфакторный дисперсионный анализ с повторениями | ОК;
3. Входной интервал: A1:D11;
4. Число строк для выборки: 5;
5. Альфа: 0,05;
6. Выходной интервал: А13;
7. ОК.
Excel представит решение, показанное на рис. 15.
Результаты представлены в виде двух таблиц.
1. В таблице Итоги представлены промежуточные данные расчетов для каждой строки и столбца: число элементов (Счет); суммы величин (Сумма), среднее арифметическое величин (Среднее), дисперсия величин (Дисперсия).
2. В таблице Дисперсионный анализ представлены собственно результаты дисперсионного анализа: компоненты дисперсии (Источник вариации), суммы квадратов (SS), число степеней свободы (df), средний квадрат (MS), статистика F (F), вероятность значимости (Р-значение), статистика (F критическое).