- •Введение
- •Раздел 1. Виды, методы и задачи испытаний технических изделий Лекция1. Цели и задачи испытаний боеприпасов и их составных частей
- •Лекция 2. Опытно-теоретический метод оценки показателей эффективности
- •1.2.4.2. Метод эквивалентных возмущений
- •Раздел 2. Оценивание свойств изделий по результатам испытаний Лекция 3. Виды оценок. Методы получения точечных и интервальных оценок. Доверительный интервал и доверительная вероятность.
- •Основные этапы проверки статистических гипотез
- •2. Статистические гипотезы о дисперсиях
- •Лекция 4. Случайные процессы, их виды и параметры. Методы получения и обработки информации о случайных процессах
- •Раздел 3. Дисперсионный, корреляционный и регрессионный анализ результатов испытаний Лекция 5. Основные понятия статистического анализа. Задачи и виды статистического анализа.
- •Лекция 6. Дисперсионный и корреляционный анализ.
- •Лекция 7. Регрессионный анализ и планирование эксперимента.
- •Раздел 4. Принципы принятия статистических решений по результатам испытаний Лекция 8. Принцип Байеса. Постановка задачи. Вывод решающего правила.
- •1. Байесовский принцип
- •Лекция 9. Частные случаи принципа Баейса. Условие Зигерта-Котельникова. Принцип минимакса.
- •1) Метод минимального числа ошибочного решений:
- •2) Метод наибольшего правдоподобия.
- •2)Формирование решающего правила
Лекция 6. Дисперсионный и корреляционный анализ.
1). Назначение и сущность дисперсного анализа. Классификация.
2). Однофакторный дисперсный анализ.
Назначение и сущность дисперсионного анализа. Классификация по видам.
Дисперсионный анализ представляет собою совокупность методов обработки результатов испытаний, зависящих от различных одновременно действующих количественных факторов с целью установления значимости их влияния на дисперсный отклик. При этом количественные факторы также рассматриваются как качественные.
Сущность дисперсионного анализа заключается в разложении с помощью специальных правил общей дисперсии результата испытаний на независимые слагаемые, каждый из которых характеризует влияние того или иного фактора. Последующее сравнение этих слагаемых между собой и с общей дисперсией позволяет оценивать влияние каждого из факторов на результат испытаний.
Пусть, например, ожидаемый результат наблюдений есть случайная величина Y, зависящая от двух факторов Х1 и Х2. Будем полагать известным математическое ожидание My. Тогда отклонение Δ=Y-My, которое может проявиться на опыте, также является величиной случайной, состоящей из трех слагаемых:
Δ =А+В+Г,
где А – отклонение, обусловленное влиянием фактора Х1,
В – отклонение, обусловленное влиянием фактора Х2,
Г - отклонение, обусловленное влиянием латентных факторов.
Предположим, что А, В и Г являя.тся независимыми случайными величинами с дисперсиями Dα, Dβ, Dγ соответственно.
Тогда:
D [Δ]= Dα + Dβ + Dγ
Но: D [Δ]= D [Y-My]=Dy
Следовательно, общая дисперсия отклика предстает в виде
Dy = Dα + Dβ + Dγ
Это соотношение между дисперсиями как раз и отражает сущность дисперсионного анализа. Сопоставляя Dα и Dβ между собою, можно судить о степени влияния учитываемых факторов по сравнению с латентными.
Существующие правила разложения общей дисперсии отклика на составляющие разработаны на основе ряда допущений, основным из которых является допущение о нормальном распределении отклика. На первый взгляд может показаться, что такое допущение существенно сужает область применимости правил дисперсного анализа. Но на самом деле это не так в силу двух важных обстоятельств: нормальное распределение широко распространено в практике испытаний технических изделий и, кроме того, в тех случаях, когда результаты наблюдений имеют распределение, отличное от нормального, можно прибегнуть к известным процедурам их нормализации.
Существует достаточно много видов дисперсионного анализа, соответствующих классификации, представленной в таблице 11.1.
Классификация видов дисперсного анализа. Таблица 11.1
Признак классификации |
Вид дисперсионного анализа |
Число факторов |
Однофакторный Многофакторный |
Характер уровня факторов |
С фиксированными уровнями факторов Со случайными уровнями факторов |
Наличие пересечения факторов |
С непересекающимися факторами С пересекающимися факторами |
Число наблюдений результата |
С одним наблюдением в ячейке С несколькими наблюдениями в ячейке |
Число откликов |
Одномерный Многомерный |
Организация процесса наблюдения |
С полным планом наблюдений С неполным планом наблюдений |
Смысловое содержание понятий, определяющих тот или иной вид дисперсионного анализа, удобно рассмотреть на следующем примере.
Пусть результаты наблюдений получены при использовании M1 типов приборов M2 наблюдателями в M3 условиях наблюдения. Как видно, все три фактора являются качественными: Х1 – тип прибора, Х2 – квалификация наблюдателя, Х3 – вид условий наблюдения. Если дисперсионный анализ проводить с учетом всех факторов, то будет иметь место многофакторный анализ. При этом числа M1, M2, M3 будут фигурировать в качестве фиксированных уровней факторов, если они заданы заранее, и в качестве случайных уровней, если они выбираются случайным образом из некоторого множества возможных значений.
Если каждый наблюдатель будет получать результаты с помощью каждого типа приборов, то факторы Х1 и Х2 будут пересекающимися. Если же каждый наблюдатель использует только свой, для него предназначенный тип прибора, то эти факторы не будут пересекающимися. Таким образом, приходим к выводу, что факторы являются пересекающимися, когда все уровни одного из них повторяются на каждом уровне другого.
Если для каждого уровня каждого фактора получено не более одного результата наблюдения, то имеет место анализ с одним наблюдением в ячейке, в противном случае – с несколькими наблюдениями.
Если в процессе наблюдения фиксируется один отклик, то анализ является одномерным, в противном случае – многомерным. Наконец, если результаты наблюдений получены для всех уровней всех факторов, то имеет место дисперсионный анализ с полным планом наблюдений, иначе – с неполным.
Однофакторный дисперсный анализ.
Для ознакомления с типовыми процедурами дисперсионного анализа рассмотрим случай, когда объект подвергается воздействию одного управляемого фактора и на выходе фиксируется один отклик.
Фактор
проявляется на m заданных уровнях
(k =
).
На каждом уровне фиксируется n
значений отклика (j
=
).
.
Таким образом, имеем случай однофакторного одномерного дисперсионного анализа с фиксированными уровнями фактора, n наблюдениями в ячейке, с полным планом наблюдений. Условия испытаний и их результаты представлены в таблице 11.2.
Таблица 11.2
Условия и результаты испытаний.
Уровни фактора |
Результаты испытаний |
Средний результат по уровням |
|||||
1 |
… |
j |
… |
n |
|||
1 |
Y11 |
… |
Y1j |
… |
Y1n |
Y1 |
|
… |
… |
… |
… |
… |
… |
… |
|
k |
Yk1 |
… |
Ykj |
… |
Ykn |
Yk |
|
… |
… |
… |
… |
… |
… |
… |
|
m |
Ym1 |
… |
Ymj |
… |
Ymn |
Ym |
|
Обработку
полученных результатов целесообразно
начинать с определения средних значений
– среднего по уровням
и общего среднего
:
На втором этапе анализа определим общую сумму квадратов отклонений отдельных результатов Ykj от общего среднего :
Где
Q1=
Q2=
Как видно, общая сумма Qo разбивается на две составляющие Q1 и Q2, из которых первая характеризует внутриуровневый разброс опытных значений отклика, т.е. разброс относительно средних по уровням, а вторая – межуровневый, т.е. разброс средних по уровням относительно общего среднего. Если влияние исследуемого фактора на отклик является малозначимым, то значение общего среднего будет близким к значениям среднего по уровням и сумме Q2 в целом не будет статистически значимой. Другими словами, если фактор слабо влияет на разброс отклика, то доминирующим будет влияние латентных факторов. Чтобы подтвердить или опровергнуть это, необходимо от сумм Q0, Q1 и Q2 перейти к оценкам соответствующих дисперсий, а затем воспользоваться теорией статистических гипотез о дисперсиях. Поэтому следующим этапом анализа является определение оценок общей дисперсии S0, внутриуровневой дисперсии S1 и межуровневой дисперсии S2, для чего необходимо суммы Q0, Q1 и Q2 разделить на соответстующие каждой из них число степеней свободы V0, V1 и V2:
V0 = mn-1
V1 =m(n-1)
V2 =m-1
Значения V0 и V2 очевидны, а при определении V1 исходят из предположения о равенстве внутриуровневых дисперсий, для оценок которых Sk число степеней свободы Vk=n-1. Тогда определения по уровням оценка S1 будет иметь V1=m(n-1). Предположение о равенстве внутриуровневых дисперсий нуждается в подтверждении на основе полученных опытных данных. Поскольку речь идет о нескольких (всего m) дисперсиях, то для такого подтверждения необходимо воспользоваться критериями Кохера, если nk=n k ∇k= , или критерием Бартлетта в противном случае, где nk – число опытов на k-m уровне фактора.
В итоге будут получены оценки дисперсий:
;
;
.
О
значимости влияния фактора должна
свидетельствовать значимость в различии
оценок
и
,
что проверяется на основе гипотезы:
Для
проверки используется критерий Фишера
с числом степеней свободы
для числителя и
для
знаменателя, т.к. обычно
>
.
Если основная гипотеза противоречит опытным данным, то влияние фактора следует считать значимым.
В заключение отметим, что в случаях многофакторного дисперсного анализа сущность рассмотренных процедур сохраняется с той лишь разницей, что она распространяется на большее число сумм квадратов отклонений.
Корреляционный анализ
1). Назначение и сущность корреляционного анализа. Классификация по видам.
2). Однофакторный корреляционный анализ.
Назначение и сущность корреляционного анализа. Классификация по видам.
Корреляционным анализом называется совокупность методов статистической обработки результатов испытаний, зависящих от различных одновременно действующих факторов, с целью анализа и оценки существенности влияния данных факторов на отклик.
В отличие от дисперсионного анализа, при проведении которого любые факторы рассматриваются как качественные, в корреляционном анализе могут рассматриваться как качественные, так и количественные факторы, хотя предпочтение отдается последним.
Сущность корреляционного анализа заключается в установлении стохастической зависимости между откликом и факторами и в определении существенности влияния факторов на отклик, степени тесноты стохастической связи между ними. Смысл понятия «корреляционная зависимость» удобнее рассматривать для случая одномерных фактора и отклика, образующих систему случайных величин (X,Y).
Прежде всего, необходимо отметить, что корреляционная зависимость является разновидностью стохастической зависимости и уже по этой причине не является жесткой, функциональной. При изучении такой зависимости между компонентами системы (X,Y) возможны 2 различных подхода к формированию исходных предположений. Первый заключается в том, что определяемые значения переменной X задаются, т.е. не являются случайными. Тогда каждому фиксированному значению х соответствуют некоторые генеральные распределения Y/х с математическим ожиданием M[Y/x] и дисперсией D[Y/x], а наблюдаемые на опыте значения у рассматриваются как выборочные значения из этой генеральной совокупности. Зависимость M[Y/x] = φу(х) называется, как уже отмечалось, регрессией Y на Х.
Второй подход к формированию исходных предположений состоит в том, что реализации случайной переменной Х, т.е. значения х, не задаются, а генерируются датчиком нормально распределенных чисел. А так как одно из основных допущений корреляционного анализа, как и дисперсионного, заключается в предположении о том, что участвующие в анализе переменные распределены нормально, это следует признать, что в этом случае реализации Х и Y, наблюдаемые на опыте, будут представлять собою выборку из двумерного нормального распределения. При таком варианте исходных предположений компоненты системы (X,Y) становятся как бы полностью «равноправными». Вследствие чего необходимо вести речь о регрессии Y на Х, но и о регрессии Х на Y, т.е. о зависимости:
M [Х/у] = φх(у)
Поэтому приходим к выводу, что корреляционная зависимость, как разновидность стохастической, может быть представлена двумя уравнениями регрессии - φу(х) и φх(у).
Зависимости φу(х) и φх(у) могут быть как линейными, так и не линейными. Соответственно различают линейный и нелинейный корреляционный анализ. Обычно предполагается линейный характер этих регрессий. В этом предположении заключается второе из основных допущений корреляционного анализа (первое предполагает нормальность распределения компонент Х и Y). Оно гласит: регрессия имеет линейный или близкий к линейному характер.
Поэтому обычно полагают:
φ
у(х)
= β0 + βх
(12.1)
φх(у) = γ0 + γy
Такая связь или корреляция называется парной. Если с увеличением одной из компонент условное среднее другой также возрастает, то корреляция называется положительной, в противном случае – отрицательной.
Для определения коэффициентов в уравнениях (12.1) используются диаграммы или корреляционные поля. Каждая точка такого поля имеет координаты xi, yi, соответствующие значениям переменных в i-том опыте. Обработка опытных данных ведется методом наименьших квадратов. В итоге получают оценку b0 для β0, b для β и т.д.
Эта процедура называется параметризацией уравнений (12.1).
Определение характера зависимостей φу(х) и φх(у), т.е. установление формы стохастической связи между компонентами Х и Y, является одной из основных задач корреляционного анализа. Вторая основная задача заключается в определении существенности этой связи, т.е. существенности взаимовлияния компонент Х и Y. С решением этих задач связанны основные процедуры корреляционного анализа, рассмотренные в следующем параграфе.
В заключение отметим основные виды корреляционного анализа. Они различаются:
-по количеству факторов – однофакторный, многофакторный (множественный);
-по количеству откликов – одномерный, многомерный (векторный);
-по форме стохастической связи – линейный, нелинейный.
Однофакторный корреляционный анализ.
Основные этапы и соответствующие им процедуры корреляционного анализа рассмотрим на примере однофакторного одномерного анализа, позволяющего изучить взаимовлияние двух случайных компонент – фактора Х и отклика Y.
Первым этапом корреляционного анализа является установление наличия стохастической связи между компонентами Х и Y. Для этого используются рассмотренные ранее процедуры дисперсионного анализа. Если по итогам дисперсионного анализа делается вывод о наличии стохастической связи, то переходят ко второму этапу.
Вторым этапом является установление формы стохастической связи, т.е. решение вопроса о том, линейна она или нелинейна. Решение данной задачи может проводиться качественными и количественными методами.
Качественные методы опираются на анализ поля корреляции, а количественные – на методы построения кривой, наилучшим образом аппроксимирующей результаты наблюдений. В случае использования количественных методов выдвигается гипотеза о типе кривой, а затем осуществляется её параметризация, например, с помощью метода наименьших квадратов. В полном объеме эта процедура рассматривается на заключительных этапах регрессионного анализа.
Третьим, заключительным этапом корреляционного анализа является определение существенности стохастической связи между фактором и откликом.
Если стохастическая связь между переменными является линейной, то мерой этой связи служит парный коэффициент корреляции, определяемый выражением:
rхy =Кху/ϬхϬу =М[(X-mх)(Y-mу)] /ϬхϬу (12.2)
Если исследуемые переменные связаны функциональной зависимостью, то rхy=±1, а в случае их независимости rхy=0.
На практике используется оценка парного коэффициента корреляции, определяемая по опытным данным:
(12.3)
Значимость этой оценки проверяется на основе гипотез:
H0: rхy = 0
H1: rхy ≠ 0
В
случае большой выборки оценка
распределена по нормальному закону
с параметрами:
M [ ] = 0
D [ ] = (1- rхy2)2 /n
Поэтому
основная гипотеза может быть проверена
с использованием Z – статистики,
при формировании которой следует
использовать оценку дисперсии D
[
],
т.е.
Если выборка не является большой, то используется статистика
, (12.4)
которая подчиняется t – распределению с числом степеней свободы υ = n-2.
В случае отклонения основной гипотезы выборочный коэффициент корреляции признается значимым с выбранным уровнем значимости. Он характеризует степень приближения стохастической зависимости между переменными к линейной. Для количественной оценки нелинейности используется так называемый коэффициент детерминации ɳху, который определяется как rхy2. Этот коэффициент позволяет ответить на вопрос о том, каково качество описания зависимости с помощью уравнения регрессии. Очевидно, чем теснее наблюдения примыкают к линии регрессии, тем лучше она описывает соответствующую зависимость переменных и с большей надежностью может быть применена для оценивания значений отклика по заданным значениям фактора.
Можно показать, что rхy2 равен отношению межуровневой дисперсии к общей дисперсии отклика, откуда следует, что коэффициент детерминации характеризует долю так называемой объясненной регрессией дисперсии в общей величине дисперсии. Чем теснее наблюдения примыкают к линии регрессии, тем эта доля выше. Например, если rхy =0,9, то ɳху = rхy2 = 0,81. Это значит, что 81% общей дисперсии (общей для среднего значения отклика) определяется уравнением регрессии, т.е. корреляционная связь между откликом и фактором вполне удовлетворительно может быть представлена линейным уравнением, т.к. доля нелинейности сравнительно невелика.
Проверкой значимости оценки rхy завершаются основные процедуры корреляционного анализа.
