- •8. Дисперсионный анализ.
- •8.1 Понятие, назначение дисперсионного анализа. Виды дисперсионного анализа.
- •8.2 Постановка задачи дисперсионного анализа.
- •8.3 Однофакторный дисперсионный анализ
- •8.3 Пример использования однофакторного дисперсионного анализа
- •8.4 Априорные контрасты и апостериорные критерии
- •8.5 Однофакторный дисперсионный анализ для связанных выборок (anova с повторными измерениями)
- •8.5 Способы реализации однофакторного дисперсионного анализа с повторными измерениями
- •8.6 Многофакторный дисперсионный анализ
- •8.6 Пример использования двухфакторного дисперсионного анализа
- •8.6 Анализ взаимодействия
- •8.7 Примеры задач, решаемых с использованием дисперсионного анализа
- •3.1. Однофакторный дисперсионный анализ
3.1. Однофакторный дисперсионный анализ
Задачей дисперсионного анализа является изучение влияния одного или нескольких факторов на рассматриваемый признак.
Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений.
Для этих выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).
Пусть
– i –
элемент (
)
-выборки
(
),
где m –
число выборок, nk –
число данных в
-выборке.
Тогда
–
выборочное среднее
-выборки
определяется по формуле
.
Общее среднее вычисляется по формуле
,
где
Основное тождество дисперсионного анализа имеет следующий вид:
,
где Q1 –
сумма квадратов отклонений выборочных
средних
от
общего среднего
(сумма
квадратов отклонений между группами); Q2 –
сумма квадратов отклонений наблюдаемых
значений
от
выборочной средней
(сумма
квадратов отклонений внутри групп); Q –
общая сумма квадратов отклонений
наблюдаемых значений
от
общего среднего
.
Расчет этих сумм квадратов отклонений осуществляется по следующим формулам:
В качестве критерия необходимо воспользоваться критерием Фишера:
.
Если
расчетное значение критерия Фишера
будет меньше, чем табличное значение
–
нет оснований считать, что независимый
фактор оказывает влияние на разброс
средних значений, в противном случае,
независимый фактор оказывает существенное
влияние на разброс средних значений
(λ– уровень значимости, уровень
риска, обычно для экономических задач
λ=0,05).
Недостаток однофакторного анализа: невозможно выделить те выборки, которые отличаются от других. Для этой цели необходимо использовать метод Шеффе или проводить парные сравнения выборок.
Пример 3.1. Три группы продавцов продавали штучный товар, расфасованный в различные упаковки. После окончания срока распродажи был произведен тестовый контроль над случайно отобранными продавцами из каждой группы. Были получены следующие результаты (табл. 3.1).
Т а б л и ц а 3.1
Номер группы |
Число
продаж, которые сделали продавцы, |
Общее количество продаж |
Количество продавцов, nk |
1 |
1 3 2 1 0 2 1 |
10 |
7 |
2 |
2 3 2 1 4 - - |
12 |
5 |
3 |
4 5 3 - - - - |
12 |
3 |
Если число выборок m=3, число продаж во всех выборках n=15, то:
Если
,
,
тогда
Q=104–15·2,226 2=26,93 ,
Q1=91,074–15·2,226 2=14,01,
Q2=Q–Q1=26,93–14,01=12,92 .
Вычислим критерий Фишера
Сравнивая это значение с табличным F > F0,05;2;12 =3,885 (приложение 1), делаем вывод, что упаковка (особенно красочная!) влияет на количество распродаж.
Многофакторный дисперсионный анализ
При проведении маркетинговых исследований часто приходится иметь дело с одновременным влиянием нескольких факторов.
Как меняется намерение потребителей купить товар данной торговой марки при различных уровнях цены и распределения?
Как уровень рекламы и уровень цен (высокий, средний, низкий) одновременно влияют на продажи товара данной торговой марки?
I • Влияет ли на выбор потребителем данной торговой марки уровень образования (ниже
среднего, среднее, колледж, высшее) и возраст? !• Как осведомленность об универмаге (высокая, средняя, низкая) и представление о
нем (позитивное, нейтральное, негативное) влияют на предпочтение потребителем
этого магазина?
При определении влияния на зависимую переменную нескольких факторов можно использовать многофакторный дисперсионный анализ. Главное преимущество этого метода в том, что он позволяет исследователю изучать взаимодействие факторов. Взаимодействия (interaction) имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов.
Процедура многофакторного дисперсионного анализа аналогична процедуре однофакторного дисперсионного анализа. Статистики, соответствующие многофакторному дисперсионному анализу, также определяются аналогично определению статистик в однофакторном дисперсионном анализе. Рассмотрим простой пример, в который входят факторы Л^ и Л^суровня-ми С; и с, соответственно. В этом случае полная вариация раскладывается следующим образом:
или
приближается
к нулю.
).
вычисляемой по формуле:
критерия,
используя формулу:
Если полный эффект статистически значимый, то наследующем этапе изучают значимость эффекта взаимодействия (significance of the interaction effect) f 111. Если нулевая гипотеза утверждает, что взаимодействие между факторами отсутствует, то соответствующий /"-критерий вычисляют по формуле:
Если окажется, что эффект взаимодействия статистически значимый, значит, эффект X, зависит от X,, и наоборот. Поскольку эффект (влияние) одного фактора неоднородный, а зависит от уровня другого фактора, то вообще бессмысленно проверять значимость главных эффектов, Однако имеет смысл проверить значимость главного эффекта каждого фактора, если эффект взаимодействия статистически незначимый.
Значимость главного эффекта каждого фактора (significance of the main effect of each factor) можно проверить следующим образом (для X,):
При анализе предполагалось, что план эксперимента сбалансированный (число случаев в. каждой ячейке одинаково). Если это не так, то анализ становится сложнее. Приведенный ниже пример иллюстрирует применение многофакторного дисперсионного анализа.
=
23,2 с (30 — 3 х 2) или 24 степенями свободы,
отсюда средний квадрат MSIKlaSlill =0,967.
F- критерий для проверки значимости полного эффекта равен:
с 5 и 24 степенями свободы. Полный эффект статистически значимый при уровне значимости, равном 0,05.
/-критерий для проверки значимости эффекта взаимодействия равен:
с 2 и 24 степенями свободы. Эффект взаимодействия статистически незначимый при уровне значимости, равном 0,05.
Поскольку эффект взаимодействия статистически незначимый, оценим значимость главных эффектов, /"-критерий для проверки значимости главного эффекта внутримагазинной рекламы равен:
с 2 и 24 степенями свободы. Главный эффект рекламы статистически значимый при уровне значимости, равном 0,05, Р-критериядля проверки значимости главного эффекта купонной распродажи равен;
с 1 и 24 степенями свободы. Главный эффект купонной распродажи статистически значимый при уровне значимости, равном 0,05. Таким образом, чем выше уровень рекламы, тем выше продажи. Распространение премиальных купонов также повышает продажи. Эффект влияния каждого фактора не зависит от эффекта другого фактора.
Рассмотрим использование многофакторного дисперсионного анализа.
Ковариационный анализ
При проверке различий в средних значениях зависимой переменной, связанных с влиянием контролируемых независимых переменных, часто необходимо учитывать неконтролируемые независимые переменные.
При определении намерений потребителей относительно приобретения товара известной фирмы в зависимости от цены необходимо учесть отношение к торговой марке.
Для того чтобы определить, как различные группы под влиянием разных видов рекламы, оценивают торговую марку, необходимо проконтролировать, какой информацией априорно обладают члены этих групп.
При определении влияния различных иен на потребление в семьях сухих завтраков может оказаться существенным такой фактор, как размер семьи.
В приведенных выше ситуациях следует использовать дисперсионный анализ, который включает, по крайней мере, одну категориальную независимую переменную и одну интервальную или метрическую независимую переменную. Категориальную независимую переменную называют фактором, а метрическую — ковариатой. Чаше всего ковариату используют для удаления посторонней вариации из зависимой переменной, поскольку самыми важными являются эффекты факторов. Вариацию в зависимой переменной, обусловленную ковариатой, удаляют корректировкой среднего значения зависимой переменной в пределах каждого условия эксперимента. Затем, исходя из скорректированных оценок, выполняют дисперсионный анализ. Значимость суммарного эффекта ковариат, как и эффект каждой ковариаты, проверяютс помощью соответствующих/- критериев. Коэффициенты ковариат позволяют понять влияние, оказываемое на зависимую переменную. Ковариационный анализ наиболее полезен, когда ковариата линейно связана с зависимой переменной и не связана с факторами.
Для иллюстрации ковариационного анализа мы снова используем данные табл. 16.2. Предположим, что мы хотели бы определить эффекты, обусловленные влиянием внутримагазинной рекламы и купонной распродажи, на продажи, при наличии такой ковариаты, как принадлежность покупателя к числу постоянных клиентов магазина. Предполагается, что принадлежность к числу постоянных покупателей может также влиять на продажи универмага. Зависимая переменная представляла собой продажи. Как и ранее, реклама имела три уровня, а купонная распродажа — два. Степень приверженности магазину, измеренная по интервальной шкале, служила ковариатой. Результаты приведены в табл. 16.6.
Как видно, сумма квадратов, связанная с ковариатой, незначительна (0,838) и имеет одну степень свободы, поэтому значение среднего квадрата идентично сумме квадратов. Соответствующий /"-критерий равен 0,838/0,972 = 0,862 с 1 и 23 степенями свободы, незначимый при - 0,05. Таким образом, можно сделать следующее заключение: наличие постоянных покупателей не влияет на объем продаж универмага. Если же эффект ковариаты статистически значимый, то можно использовать знак групповового коэффициента, чтобы определить направление эффекта на зависимую переменную (прямая или обратная связь).
ВОПРОСЫ ПРИ ИНТЕРПРЕТАЦИИ РЕЗУЛЬТАТОВ
Важные вопросы, возникающие при интерпретации результатов дисперсионного анализа, включают взаимодействия, относительную важность факторов и множественные сравнения.
Взаимодействие
Различные взаимодействия, которые могут возникнуть при проведении ANOVA по двум или больше факторам, показаны на рис. 16.3.
Одним из результатов является то, что А OVA может указать на отсутствие взаимодействий (эффекты взаимодействий считаются незначимыми). Другая возможность заключается в том, что взаимодействие — значимое. Эффект в результате взаимодействия имеет место тогда, когда эффект, обусловленный действием независимой переменной на зависимую, различен для различных уровней другой независимой переменной. При упорядоченном взаимодействии (ordinal interaction) ранжированный порядок эффектов, связанных с одним фактором, не меняется вдоль уровней второго фактора.
Неупорядоченное взаимодействие (disordinalinteraction), напротив, характеризуется изменением ранжированного порядка эффектов одного фактора вдоль уровней другого.
Если взаимодействие неупорядоченное, то оно может быть непересекающимся или пересекающимся.
Случай 1 указывает на отсутствие взаимодействия, Отрезки прямой, отражающие эффекты, обусловленные влиянием А, на Y, параллельны отрезкам прямой, отражающим эффекты, обусловленные влиянием Л.. при двух уровнях. Наблюдается некоторое отклонение от параллельности, но оно не выше предполагаемого в данной ситуации. Параллельность подразумевает, что итоговое влияние Х::по сравнению с Х21 одинаково на всех трех уровнях X,. При отсутствии взаимодействия совместный эффектен X,равен просто сумме их индивидуальных главных эффектов.
он
остается таким же и для X2i и Х22.
Однако
при уровне Х22
Поскольку
наблюдается изменение в по-
рядке рангов, неупорядоченное взаимодействие сильнее, чем упорядоченное.
При неупорядоченном взаимодействии пересекающегося типа отрезки прямой пересекаются, что соответствует случаю 4 на рис. 16,4. При этом относительный эффект уровней одного фактора изменяется в направлении уровней другого. Обратите внимание, что Х22 оказывает больший эффект, чем Л, при уровнях Л^. равных Л-,, и Х12. При уровне фактора А,, равном Jf№ наблюдается обратная ситуация, и X,, имеет больший эффект по сравнению с Л- (В случаях 1, 2 и 3 фактор X, при уровне Л,. воздействует больше, чем при уровне Х21 вдоль всех трех уровней фактора Jf,.) Следовательно, неупорядоченное взаимодействие пересекающегося типа представляют собой наиболее сильное взаимодействие.
