Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
598070_078D2_zorina_t_g_slonimskaya_m_a_marketi...doc
Скачиваний:
296
Добавлен:
24.09.2019
Размер:
3.85 Mб
Скачать

5.2. Статистические методы анализа маркетинговой информации

5.2.1. Описательный анализ. Базовые методы анализа

После того, как данные, полученные в ходе формализованного опроса или наблюдения, подготовлены к обработке, прежде всего, проводится их базовый анализ: 1) расчет частотных распределений (frequency distribution); 2) кросс-табуляция (cross-tabulation); 3) проверка гипотез о связях и различиях. Результаты базового анализа ценны сами по себе и, кроме того, показывают направление для последующего многомерного анализа.

Во многих маркетинговых проектах исследователи ограничиваются базовым анализом данных. При этом в подавляющем числе случаев речь идет о построении частотных распределений и кросс-табуляции. Форма представления этих результатов в виде графиков и таблиц понятна и доступна каждому, их легко интерпретировать для принятия маркетинговых решений.

Построение частотных распределений (табулирование).

Первым шагом анализа полученных стандартизированных данных является подсчет числа (частоты) случаев (ответов респондентов) по возможным значениям переменной. Такой подсчет называется табулированием. Относительную частоту различных значений переменной выражают в процентах и называют частостями. Подсчет распределения частот значений переменной дает возможность построить таблицу, с указанием частоты, частости и накопленных частостей для всех значений этой переменной.

Как было указано ранее, для измерения характеристик объектов применяют четыре типа шкал: номинальная, порядковая, интервальная и относительная. Диаграмма, построенная по результатам табулирования данных, измеренных по интервальной или относительной шкале, называется гистограммой.

Визуальный анализ гистограммы позволяет определить: 1) размах (диапазон) значений; 2) типичные значения; 3) рассеяние; 4) общую конфигурацию данных.

Используя гистограмму, можно определить, являются ли данные нормально распределенными. Это особенно важно, если дальнейший анализ предполагает использование стандартных статистических процедур, которые требуют нормального распределения данных.

Нормальное распределение представляет собой гистограмму в форме колокола, в котором большинство чисел сконцентрировано в средней части диапазона значений, а оставшиеся значения с затуханием симметрично расположены по обе стороны от вершины колокола.

Иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения). Возможны два вида выбросов значений: ошибки и корректные, но «отличающиеся» значения данных. Ошибки необходимо найти и исправить. Однозначного ответа на вопрос, учитывать или не учитывать выбросы корректных данных не существует. При отсутствии достаточно обоснованного аргумента для исключения выбросов как компромисс можно выполнить два различных анализа: один с учетом выбросов, другой – с их исключением.

Пример.

Таблица А . Частотное распределение ответов респондентов на вопрос о частоте покупки ими рыбных продуктов

Значения

Варианты

ответов

Частота, с которой встречалось значение

Процент от числа всех значений

Процент от числа допустимых значений

Процент допустимых значений нарастающим итогом

Допустимые

1-3 раза в неделю

22

11,0%

11,1%

11,1%

Несколько раз в месяц

119

59,5%

59,8%

70,9%

Реже 2 раз в месяц

58

29,0%

29,1%

100,0%

Всего

199

99,5%

100,0%

Отсутствующие

9

1

0,5%

-

-

Всего

-

200

100%

-

-

По данным таблицы А видно, что всего было опрошено 200 респондентов. Один из них не захотел или не смог ответить на вопрос о частоте покупки им рыбных продуктов.

Это видно по коду 9, который присваивался пропущенным значениям. Чаще всего встречался ответ «несколько раз в месяц», его выбрали 119 респондентов, что составило 59,5% от числа всех опрошенных или 59,8% от числа ответивших на вопрос.

Данные, полученные в результате табулирования, становятся более наглядными, если их представить в виде диаграммы (см. рис. А).

Рисунок А. Диаграмма частотного распределения ответов на вопрос «Как часто Вы покупаете рыбные продукты»

Распределение частот – удобный способ представления различных значений переменной. Таблица частотного распределения легко читается и содержит основную информацию, но иногда такая информация слишком детализирована, и исследователь вынужден ее обобщать с помощью описательных статистик. Чаще всего используют следующие статистики, связанные с распределением частот: показатели центра распределения (среднее, мода и медиана), показатели вариации (размах, межквартильный размах, стандартное отклонение и коэффициент вариации) и показатели формы распределения (асимметрия и эксцесс).

Показатели центра распределения (measures of location) характеризуют положение центра распределения, вокруг которого концентрируются данные. Простейшее обобщение любого набора данных представляет собой единственное число, которое наилучшим образом представляет все значения данных. Такое число можно было бы назвать типическим значением для данного набора данных. Если не все значения в наборе данных одинаковы, то мнения о «наиболее типическом» могут быть разными. Существуют три вида такой обобщающей меры.

Среднее, которое можно вычислять только для данных, измеренных по интервальной или относительной шкале. Средняя арифметическая это самый распространенный вид средней величины.

Пример

На рисунке Б графически изображено частотное распределение ответов на вопрос: Как часто Вы употребляете рыбное филе?

Рисунок Б. Гистограмма частотного распределения ответов на вопрос: «Как часто Вы употребляете рыбное филе?».

По данным рисунка Б можно сделать вывод о том, что в совокупности содержатся все варианты ответов, варьирующие от 1 (не употребляю) до 5 (употребляю каждый день). Типичный вариант ответа – 3, соответствующий частоте потребления рыбного филе 1 раз в месяц. Число респондентов, которые отметили, что употребляют рыбное филе несколько реже (иногда) и несколько чаще (1 раз в неделю), не значительно отличается от числа тех, которые дали типичный ответ, а число крайних вариантов (не употребляю и употребляю каждый день) – значительно меньше. Форма частотного распределения близка к нормальной, а выбросы в данных отсутствуют.

На рисунке В графически изображено частотное распределение ответов на вопрос: Как часто Вы употребляете кальмары?

Рисунок В. Гистограмма частотного распределения ответов на вопрос: «Как часто Вы употребляете кальмары?».

Продолжение примера

По данным рисунка В можно сделать вывод о том, что в совокупности также, как и в предыдущем случае, содержатся все варианты ответов от 1 (не употребляю) до 5 (употребляю каждый день), однако число респондентов, которые указали, что употребляют кальмары 1 раз в неделю и каждый день встречаются крайне редко – 2 и 12 вариантов, соответственно. Типичный вариант ответа – 1 (не употребляю). Число респондентов, которые указали, что употребляют кальмары лишь иногда, не значительно отличается от числа давших типичный ответ. Форма частотного распределения скошена в сторону меньших значений, выбросы в данных отсутствуют.

С редняя арифметическая простая рассчитывается по формуле

(4.1)

где хi значения данных;

n - количество элементов в списке данных.

а средняя арифметическая взвешенная — по формуле

(4.2)

г

Пример

Для данных, представленных на рисунке Б, среднее арифметическое вычисляется следующим образом:

Для данных, представленных на рисунке В:

де хi - вариант;

fi - частота, или статистический вес, варианта.

Медиана, или серединная точка, которую можно вычислять как для данных, измеренных по интервальной и относительной шкале, так и для порядковых данных. Медианой называют такое значение признака, которое приходится на середину ранжированного ряда. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая — меньше медианы.

Медиана определяется следующим образом. Расположим респондентов, ответивших на данный вопрос, в порядке возрастания значений вариантов ответов, которые они дали. Если общее число респондентов, ответивших на вопрос, нечетно, найдем значение варианта ответа респондента, расположенного в середине по­лученного ряда – это и будет медиана. Если же общее число респондентов, ответивших на вопрос, четное, найдем два варианта ответов, расположенных в середине полученного ряда. В этом случае медиана равна полусумме значений вариантов ответа, данных респондентами из этой пары.

По другому – для расчета медианы достаточно выяснить на основе распределения ответов, куда попадает среднее по порядку значение ответа респондента или пара средних по порядку значений. Для этого нужно знать, на какой ответ приходятся 50% ответов респондентов в столбце «процент допустимых значений нарастающим итогом».

Из определения медианы следует, что она не зависит от тех значений признака, которые расположены по обе стороны от нее. В связи с этим медиана является лучшей характеристикой центральной тенденции в тех случаях, когда концы распределений расплывчаты (например, границы крайних интервалов открыты) или в ряду распределения имеются чрезмерно большие или малые значения.

Мода, или наиболее часто встречающаяся категория, которую можно вычислять для любых данных, в том числе для данных, измеренных по номинальной шкале. Во многих случаях эта величина наиболее характерна для ряда распределения и вокруг нее концентрируется большая часть вариантов. При изменении распределения в его концах мода не меняется, т.е. она обладает определенной устойчивостью к вариации признака. Поэтому моду наиболее удобно применять при изучении рядов с неопределенными границами.

Перцентили — это характеристики набора данных, которые выражают ранги элементов в виде процентов от 0 до 100%, а не в виде чисел от 1 до n, таким образом, что наименьшему значению соответствует нулевой перцентиль, наибольшему — 100-й перцентиль, медиане — 50-й перцентиль и т.д. Перцентили можно рассматривать как показатели, разбивающие наборы данных на определенные части.

Перцентили играют важную роль в качестве опорных характеристик. Чтобы обобщить основные черты распределения, достаточно нескольких значений перцентилей. Так, 50-й перцентиль — это медиана, поскольку 50-й перцентиль на­ходится посередине между наибольшим и наименьшим значениями ряда. Инте­рес представляют экстремумы — наибольшее и наименьшее значения данных, т.е. 0-й и 100-й перцентили соответственно. Дополняют набор базовых характе­ристик квартили, определяемые как 25-й и 75-й перцентили.

Квартили — это значения ранжированного ряда, которые находятся на расстоянии одной четвертой на пути от наименьшего и наибольше­го значений.

Пять базовых показателей включают наименьшее значение, нижний квартиль, медиану, верхний квартиль, наибольшее значение.

Вместе эти характеристики дают достаточно ясное представление об особенностях еще не обработанного набора данных. Два экстремума характеризуют размах (диапазон) данных, медиана показывает центр, два квартиля определяют границы, «расположенной в центре половины данных», а положение медианы относительно квартилей дает грубое представление о наличии или отсутствии асимметрии.

Блочная диаграмма — это изображение всех пяти указанных показателей. Блочная диаграмма, как и гистограмма, дает визуальное представление о распределении, но использует иной способ графического отображения. Блочная диаграмма не содержит мелких деталей, что позволяет охватить всю картину в целом и сравнивать несколько групп чисел, не вдаваясь в детали каждой из групп. При необходимости подробно рассмотреть форму распределения лучше использовать гистограмму.

Показатели вариации (изменчивости) это статистики, показывающие меру разброса (вариабельность) значений переменной. К ним относятся: размах вариации, межквартильный размах, дисперсия, стандартное отклонение и коэффициент вариации.

Размах вариацииэто разность между наибольшим и наименьшим значениями переменной в вариационном ряду. Он равен разности между наибольшим и наименьшим значениями в выборке. Поэтому на него непосредственно влияют выбросы.

R = xmax — хmin,

где xmax и хmin – наибольшее и наименьшее значения варьирующего признака.

Межквартильный размах - это разность между 75- и 25-м процентилями. Для набора точек данных, расположенных в ранжированном ряду, р-м процентилем будет такое значение переменной в ранжированном ряду распределения, что р% единиц совокупно­сти будут меньше и (100 — р)% – больше него.

Дисперсия - среднее из квадратов отклонений переменной от ее средней величины. Если значения данных сгруппированы вокруг среднего, то дисперсия невелика. И наоборот, если данные разбросаны, то мы имеем дело с большей дисперсией.

Пример

На рисунке Г изображены блочные диаграммы для данных, о частоте потребления респондентами рыбного филе и кальмаров, которые были представлены ранее на рисунках Б и В.

Рисунок Г. Блочные диаграммы для данных, о частоте потребления респондентами рыбного филе и кальмаров

По представленным на рисунке Г блочным диаграммам можно увидеть все 5 базовых характеристик совокупностей данных, которые представлены в таблицах Б и В.

Таблица Б. Базовые характеристики совокупности данных о частоте потребления респондентами рыбного филе

Число единиц в совокупности

Допустимые

200

Пропуски

0

Медиана

3

Мода

3

Минимум

1

Максимум

5

Перцентили

25

2

50

3

75

4

На блочной диаграмме для данных, о частоте потребления кальмаров звездочкой и кружком обозначены выбросы. При построении блочной диаграммы предполагается, что выбросы – это значения переменной, отстоящие от верхней или нижней границы прямоугольника на полторы его высоты или более.

Продолжение примера

Таблица В. Базовые характеристики совокупности данных о частоте потребления респондентами кальмаров

Число единиц в совокупности

Допустимые

200

Пропуски

0

Медиана

2

Мода

2

Минимум

1

Максимум

5

Перцентили

25

1

50

2

75

2

Среднеквадратическое (стандартное) отклонение равно квадратному корню из дисперсии. Стандартное отклонение выражается в тех же единицах, что и сами данные. Стандартное отклонение выборки Sx вычисляют следующим образом:

Используя в знаменателе п - 1 вместо п, мы корректируем более слабую изменчивость значений переменой, наблюдае­мую в выборке.

Коэффициент вариации - это отношение стандартного отклонения к среднему арифметическому, выраженное в процентах. Коэффициент вариации — показатель относительной изменчивости переменной. Коэффициент вариации V вычисляют следующим образом:

V = Sx /

Коэффициент вариации имеет смысл, только если переменную измеряют по относительной шкале.

Продолжение примера

Некоторые показатели вариации для данных о частоте потребления рыбного филе и кальмаров представлены в таблице 5.3.4.

Таблица Г. Показатели вариации для данных о частоте потребления рыбного филе и кальмаров

Число единиц в совокупности

Размах вариации

Стандартное отклонение

Коэффициент вариации

Рыбное филе

200

4

0,93

0,869

Кальмары

200

4

0,94

0,878

Характеристиками формы распределения значений измеряемого показателя являются асимметрия (skewness) и эксцесс (kurtosis). Они позволяют судить о том, в какой степени распределение по форме похоже на классический симметричный относительно центра распределения «колокол» нормального распределения, у которого среднее значение, медиана и мода совпадают.

Если асимметрия распределения показателя положительна, то он отклоняется от своего среднего значения в правую сторону на несколько большие расстояния, чем в левую (правый «хвост распределения» длиннее левого). А если асимметрия отрицательна, то наоборот.

Эксцесс позволяет судить о степени крутизны или пологости распределения. Для нормального распределения эксцесс равен нулю. Если распределение круче нормального (верхушка его острее, наблюдения в большей степени концентрируются около нее, но и «хвосты» распределения длиннее, чем у нормального распределения), то эксцесс положителен; в противном случае – он отрицателен.

Проверка гипотез о связях и различиях.

Базовый анализ данных неизменно включает в себя статистическую проверку гипотез. Статистической называют гипотезу о виде закона распределения или о параметрах известного распределения. В первом случае гипотеза называется непараметрической, а во втором – параметрической.

О

Продолжение примера

Показатели формы распределения для данных о частоте потребления рыбного филе и кальмаров представлены в таблице Д.

Таблица Д. Показатели формы распределения для данных о частоте потребления рыбного филе и кальмаров

Число единиц в совокупности

Асимметрия

Эксцесс

Рыбное филе

200

-0,123

-0,789

Кальмары

200

1,034

0,593

По данным о частоте потребления рыбного филе асимметрия составляет небольшую отрицательную величину (-0,123). На рисунке 2 заметно, что значения влево от среднего (3) распределены на несколько большем расстоянии, чем вправо. Эксцесс при этом отрицателен (-1,265), то есть распределение более пологое, чем «колокол» нормального распределения.

По данным о частоте потребления кальмаров асимметрия составляет положительную величину (1,034). На рисунке 3 заметно, что значения вправо от среднего (1,9) распределены на большем расстоянии, чем влево. Эксцесс при этом положителен (0,593), то есть распределение более крутое, чем «колокол» нормального распределения.

бщая схема проверки гипотез включает следующие этапы:

1. Сформулировать нулевую гипотезу Н0 и альтернативную гипотезу H1.

2. Выбрать подходящий метод статистической проверки гипотезы (статистический критерий) и соответствующую статистику критерия (выборочную статистику, тест-статистику).

3. Выбрать уровень значимости α.

4. Определить размер выборки и собрать данные. Вычислить значение выборочной ста­тистики.

5. Определить вероятность, которую примет статистика критерия (выбранная на этапе 2) при выполнении нулевой гипотезы, используя соответствующее выборочное распределение. Альтернативный вариант данного этапа: определить критическое значение статистики, ко­торое делит интервал на область принятия и непринятия нулевой гипотезы.

6. Сравнить полученную вероятность для тест-статистики (статистики, построенной по результатам выборочного наблюдения) с заданным уровнем значимости. Альтернативный вариант данного этапа: определить, попадает ли выборочное значение тест-статистики в область принятия или отклонения нулевой гипотезы.

7. Принять статистическое решение, касающееся того, принять или отвергнуть нулевую гипотезу.

8. Выразить статистическое решение с точки зрения проблемы маркетингового исследования.

Нулевая гипотеза утверждает, что между определенными статистическими параметрами генеральной совокупности (средними или долями) не существует связи или различия. Ее подтверждение не требует каких-либо действий.

Альтернативная гипотеза – это гипотеза, предполагающая, что между определенными статистическими параметрами генеральной совокупности (средними или долями) есть связь или различия. Ее подтверждение означает, что следует предпринимать какие-либо действия или менять свои взгляды на положение дел. Таким образом, альтернативная гипотеза противоположна нулевой.

Маркетолог всегда проверяет именно нулевую гипотезу. Проверка гипотез имеет два исхода: нулевая гипотеза отвергается, а альтернативная — принимается, или нулевая гипотеза не отклоняется, исходя из представленных доказательств. Следовательно, по результатам статистической проверки нулевую гипотезу не следует принимать, т.е. некорректно заключить, что, поскольку нулевую гипотезу не отклоняют, ее можно принять как истинную. В классической теории проверки гипотез сложно определить, достоверность нулевой гипотезы.

Статистическая проверка гипотез на основании выборочных данных неизбежно связана с риском принятия ложного решения. При этом возможны ошибки двух родов. Ошибка первого рода состоит в том, что будет отвергнута правильная нулевая гипотеза. Ошибка второго рода состоит в том, что будет принята нулевая гипотеза, в то время как в действительности верна альтернативная гипотеза.

Возможные результаты статистических выводов представлены в таблице 5.7.

Таблица 5.7. Возможные результаты проверки гипотез

Результаты проверки

гипотезы

Возможные состояния гипотезы

верна Н0

верна Н1

Гипотеза Н0 отклоня­ется

Ошибка первого рода

Правильный вывод

Гипотеза Н0 не отклоня­ется

Правильный вывод

Ошибка второго рода

Последствия указанных ошибок неравнозначны. Первая приводит к более осторожному, консервативному решению, вторая – к неоправданному риску. Что лучше или хуже – зависит от конкретной постановки задачи и содержания нулевой гипотезы. Например, если H0 состоит в признании продукции предприятия качественной и допущена ошибка первого рода, то будет забракована годная продукция. Допустив ошибку второго рода, мы отправим потребителю брак. Очевидно, последствия второй ошибки более серьезны с точки зрения имиджа фирмы и ее долгосрочных перспектив.

Исключить ошибки первого и второго рода невозможно в силу ограниченности выборки. Поэтому стремятся минимизировать потери от этих ошибок. Отметим, что одновременное уменьшение вероятностей данных ошибок невозможно, так как задачи их уменьшения являются конкурирующими, и снижение вероятности допустить одну из них влечет за собой увеличение вероятности допустить другую. В большинстве случаев единственный способ уменьшения вероятности ошибок состоит в увеличении объема выборки.

Вероятность совершить ошибку первого рода принято обозначать буквой α, и ее называют уровнем значимости. Вероятность совершить ошибку второго рода обозначают β. Тогда вероятность не совершить ошибку второго рода (1 - β) называется мощностью критерия.

Обычно значения α задают заранее, «круглыми» числами (например, 0,1; 0,05; 0,01 и т.п.), а затем стремятся построить критерий наибольшей мощности. Таким образом, если α = 0,05, то это означает, что исследователь не хочет совершить ошибку первого рода более чем в 50 случаях из 1000.

Проверку статистической гипотезы осуществляют на основании данных выборки. Для этого используют специально подобранный критерий, точное или приближенное значение которой известно. Эту величину обозначают: z - если она имеет стандартизированное нормальное распределение; t - если она распределена по закону Стьюдента; χ2 – если она распределена по закону χ2; F - если она имеет распределение Фишера.

После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отклоняется, другое – при которых она не отклоняется. Совокупность значений критерия, при которых нулевую гипотезу отклоняют, называют критической областью. Совокупность значений критерия, при которых нулевую гипотезу не отклоняют, называют областью принятия гипотезы.

Основной принцип проверки статистических гипотез можно сформулировать так: если наблюдаемое значение критерия (вычисленное по выборке) принадлежит критической области, то нулевую гипотезу отклоняют. Если же наблюдаемое значение критерия принадлежит области принятия гипотезы, то нулевую гипотезу не отклоняют (принимают).

Точки, разделяющие критическую область и область принятия гипотезы, называют критическими.

3. Кросс-табуляция.

Помимо ответов на вопросы, относящихся к анализу одной переменной, маркетологов часто интересуют дополнительные вопросы о связи этой переменной с другими переменными.

Построение таблиц сопряженности признаков (кросс-табуляция) – это статистический метод, который одновременно характеризует две или больше переменных и заключается в создании таблиц, отражающих совместное распределение двух или больше переменных.

Для того чтобы определить, какой результат отражает реальные характеристики выборки, а какой получен случайно, проверяют нулевую гипотезу. H0: переменная в строке (намерения воспользоваться услугой) не зависит от переменной в столбце (возраст).

Для проверки такой гипотезы чаще всего используют статистический критерий χ2 (см. табл. 2 прил.). Величина χ2 рассчитывается для r строк и c столбцов по следующей формуле:

где нij – наблюдаемое, оij – ожидаемое количество случаев в (ij)-й клетке. Для расчета ожидаемой частоты оij в каждой клетке перемножаются предельные частоты и делятся на общее число событий.

Найденное расчетное значение χ2 сравнивается с таблицей критических значений для определенного числа степеней свободы. Число степеней свободы для данных кросс-табуляции определяется следующим образом: (r-1)x(c-1). Если расчетное значение χ2 не попадает в критический диапазон, то нулевая гипотеза о независимости переменных не подтверждается.

Меры силы связи. Зная χ2, можно не только проверить гипотезу о наличии связи между включенными в таблицу кросс-табуляции вопросами анкеты, но и ответить на вопрос, насколько эта связь сильна.

Для таблиц из двух строк и двух столбцов удобен коэффициент Фишера (phi coefficient):

где n – размер выборки.

Если статистической связи между вопросами нет, этот коэффициент равен нулю, а при наибольшей зависимости – единице.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]