Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
44
Добавлен:
22.08.2013
Размер:
436.74 Кб
Скачать

Лабораторная работа № 3: Кластерный анализ в сегментации рынка

Теоретические сведения

Для того чтобы сегментировать выборку потребителей на группы со схожими свойствами применяют математические методы из раздела кластерного анализа. Методы кластерного анализа позволяют выделить из исследуемой совокупности объектовкластеры– скопления объектов с близкими значениями параметров. Одной из проблем кластерного анализа является вычисление схожести объектов – обычно с этой целью применяются меры близости или расстояния в геометрическом смысле. Другой существенной проблемой является способ определения расстояния между кластерами, причём использование разных способов в одной и той же алгоритмической процедуры может привести к различным результатам. Для сравнения между собой различных кластерных решений используются т.н.критерии качества, основанные на подсчёте межкластерных и внутрикластерных расстояний. После выбора наилучшего решения полученные кластеры необходимо проинтерпретировать, исходя из средних значений параметров объектов, входящих в эти кластеры.Интерпретация кластеров, подобно интерпретации факторов зависит от опыта и навыков исследователя и может давать неоднозначные конечные результаты.

Методы кластерного анализа можно разделить на две больших категории по алгоритму действия. Первая группа методов называется иерархическими, так как в процессе работы метода строится иерархия вложенности кластеров, обычно представляемая на графике –дендрограмме. На каждом шаге агломеративной иерархической процедуры объединяется пара ближайших кластеров. Методы второй категории называютсяитерационными, так как они основаны на поиске оптимального положения центров кластеров на каждой итерации – последовательного рассмотрения всех объектов исходной выборки. Иерархические методы применяются для выборок небольшого объёма, так как их вычислительная эффективность резко снижается при увеличении числа объектов. Большинство итерационных методов зависит от значений некоторых параметров, например, предполагаемого числа кластеров, и хотя вычислительная эффективность позволяет обрабатывать большие выборки, вплоть до нескольких тысяч объектов, качество решений в некоторых случаях оказывается неудовлетворительным. Поэтому для получения заданного качества приходится применять такие методы несколько раз при различных значениях параметров.

В иерархической агломеративной процедурена каждом шаге вычисляется матрица расстояния между всеми парами объектов и кластеров, если они уже были построены. По матрице расстояний находится пара ближайших кластеров, которые объединяются в кластер. Этот процесс продолжается до тех пор, пока все объекты не сольются в один кластер. Оптимальное число кластеров определяется по скачкурасстояния агломерации, где под скачком подразумевается превышение расстояния на текущем шаге процедуры предыдущего расстояния в1,5-2раза. На практике такой скачок достигается редко, приходится иметь дело с превышением на50-60%. В случае нахождения шагаrскачка оптимальное число кластеров определяется по формуле:, гдеN– объём исходной выборки.

Чаще всего близость объектов xиyизмеряется с помощью следующих метрик расстояния, если их характеристики измерены в интервальной шкале:

  • дистанция Евклида:

  • квадрат дистанции Евклида:

  • дистанция Манхэттена:

  • расстояние Чебышева:

Расстояние между кластерами определяется с помощью следующих основных методов:

  • связь между группами – расстояние между двумя кластерами определяется как среднее значение расстояний между всеми возможными парами наблюдений, причём одно наблюдение берётся из одного кластера, а второе – из другого;

  • связь внутри групп – расстояние между двумя кластерами определяется как среднее значение расстояний между всеми возможными парами наблюдений из обоих кластеров, включая пары наблюдений внутри кластеров;

  • ближний сосед – расстояние между двумя кластерами определяется как минимальное из всех расстояний между всеми возможными парами наблюдений из разных кластеров;

  • дальний сосед – расстояние между двумя кластерами определяется как максимальное из всех расстояний между всеми возможными парами наблюдений из разных кластеров;

  • центроидная кластеризация – расстояние между двумя кластерами определяется как расстояние между центрами тяжести обоих кластеров;

  • медианная кластеризация – расстояние между двумя кластерами определяется как взвешенное центроидное расстояние между кластерами, где веса соответствуют размеру каждого кластера;

  • метод Варда – в этом методе объединяются только те два кластера, для которых прирост внутрикластерной дисперсии минимален.

Наиболее универсальными методами являются метод Варда и метод межгрупповой связи.

Среди итерационных методов наиболее распространённым является метод k-средних. На первом его шаге необходимо задать требуемое количество кластеровkи начальные центры их тяжести. В качестве этих начальных центров обычно используются первыеkнаблюдений выборки, однако в некоторых случаях это может привести к недостаточному качеству полученного решения. Поэтому возможно использовать иерархическую процедуру на случайной выборке и затем использовать полученные центры в итерационной процедуре. Итерационный процесс может расходиться и не приводить к стабилизации центров кластеров, поэтому во многих случаях число итерации ограничивают сверху некоторым пределом, полученное решение при этом может считаться приемлемым, но не оптимальным, если выбранное число кластеров и их центры были выбраны неверно и не соответствуют реальной структуре выборки.

На последнем шаге, после интерпретации сегментов, производится построение профилейдля каждого сегмента по социально-демографическим переменным – полу, возрасту, доходу и т.д. Под профилем понимается линейное распределение либо перекрёстная таблица по каким-либо переменным для наблюдений, попавших в конкретный сегмент. Профилирование служит целям описания сегментов в рамках понятий их маркетинговой привлекательности и конкретизации стратегии по продвижению товара либо услуги потребителям данных сегментов. По построенным профилям делается выбор одного или нескольких сегментов, удовлетворяющих заданным маркетинговым требованиям. В случае, если ни один из сегментов не удовлетворяет этим требованиям, то производится либо повторное проведение анализа по другим переменным, либо корректировка требований в соответствии с реальной ситуацией.

Практические задания

Запустите SPSSи откройте файлcзаданием на лабораторную работу (FileOpenDatalab2.sav). Запустите иерархический метод в модуле кластерного анализа (AnalyzeClassifyHierarchical Cluster) и добавьте в список переменных факторы, созданные в предыдущей лабораторной работе (с названиямиФактор_1,Фактор_2и т.д.). Через кнопкуMethodзадайте в качестве метода определения расстояния между кластерами межгрупповое среднее (Between-groups linkage), в качестве метода вычисления расстояния между объектами – квадрат евклидова расстояния (Squared Euclidean distance) (см. рис.1). В меню, доступном по кнопкеPlots, выберите дендрограмму для построения (Dendrogram) (см. рис.2).

Рис. 1 Настройки параметров метода Рис.2 Настройки вывода результатов

Через кнопку Saveвыберите для сохранения интервал кластерных решений от двух до четырёх (Range of solutions) (см. рис.3). После этого нажмите кнопкуOk, чтобы начать кластеризацию выборки.

Рис. 3 Сохранение результатов иерархического анализа

После вывода результатов в окне отчётов SPSS Viewerзаполните данными из таблицыAverage Linkage (Between Groups)таблицу 1 в отчёте к лабораторной работе. Определите номер шага скачка расстояния агломерации и оптимальное число кластеров, обоснуйте свой выбор значения скачка и занесите эти данные в отчёт. Постройте частотные таблицы (менюAnalyzeDescriptive Statistics - Frequencies) для трёх кластерных решений, используйте для этого переменныеQCL_1,QCL_2,QCL_3, содержащие номера кластеров, к которым были отнесены все исходные наблюдения. Данные по численности кластеров занесите в таблицы 2.1-2.3, сделайте вывод об оптимальности выбранного решения и занесите его в отчётную форму. Постройте профили по средним значениям переменных кластеризации для всех кластеров (GraphsBarSimple (Summaries of separate variables) – Panel by (подставить переменную выбранного решения)) (см. рис.4).

Рис. 4 Настройки гистограммы по многим переменным

Проинтерпретируйте полученные кластеры и по интерпретациям определите наиболее приемлемый с точки зрения готовности к покупкам кластер. Интерпретации занесите в отчёт. Постройте перекрёстную таблицу по переменным Пол,Возраст (AnalyzeDescriptive Statistics - Crosstabs), занесите её данные в таблицу 3 отчёта. Сделайте вывод о преобладании определённых половозрастных групп в сегменте и занесите его в отчёт. Сделайте предложения по продвижению любого выбранного Вами товара в данный сегмент рынка.

Откройте меню метода k-средних в модуле кластерного анализа (AnalyzeClassifyK-Means Cluster) и добавьте в список переменных факторы из предыдущего задания, в качестве количества кластеров задайте оптимальное количество, полученное ранее (Number of clusters). Заполните таблицы 4 и 5 отчёта данными из таблиц SPSS Viewer (Final Cluster Centers и Number of cases in each cluster). Проинтерпретируйте полученные кластеры и сравните их с кластерами, полученными из иерархической процедуры. Сделайте вывод о качестве решений, получаемых каждым методом, и занесите его в отчёт.

Форма отчёта к лабораторной работе № 3

Таблица 1. Пошаговый отчёт о процедуре агломерации

Шаг процедуры

Объединяющиеся кластеры

Расстояние агломерации

Кластер 1

Кластер 2

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

Номер шага скачка расстояния агломерации:

Оптимальное число кластеров:

Причины выбора скачка расстояния:

Таблица 2.1 Распределение кластеров по численности (2 кластера)

Номер

кластера

Абсолютная

численность

Относительная

численность

1

2

Всего

Таблица 2.2 Распределение кластеров по численности (3 кластера)

Номер

кластера

Абсолютная

численность

Относительная

численность

1

2

3

Всего

Таблица 2.3 Распределение кластеров по численности (4 кластера)

Номер

кластера

Абсолютная

численность

Относительная

численность

1

2

3

4

Всего

Оптимальность выбранного кластерного решения, относительно распределения респондентов по кластерам:

Интерпретации кластеров:

Кластер 1:

Кластер 2:

Кластер 3:

Кластер 4:

Номер выбранного кластера: ________

Таблица 3. Перёкрестная таблица по половозрастным характеристикам кластера

Пол

Возраст

мужской

женский

18-25

26-35

36-45

46-55

Свыше 56

Демографические характеристики выбранного кластера:

Предложения по продвижению товара в сегмент:

Таблица 4*. Профили кластеров по переменным кластеризации

Кластер 1

Кластер 2

Кластер 3

Кластер 4

Фактор 1

Фактор 2

Фактор 3

Фактор 4

Фактор 5

Фактор 6

Фактор 7

Фактор 8

Фактор 9

Фактор 10

Фактор 11

Фактор 12

Фактор 13

Фактор 14

Фактор 15

Фактор 16

Фактор 17

Таблица 5 Распределение кластеров по численности

Номер

кластера

Абсолютная

численность

Относительная

численность

1

2

3

4

Всего

Сравнение кластерных решений метода к-средних и иерархической процедуры:

  • Примечание: таблицы 4 и 5 рассчитаны на максимальное количество факторов и кластеров и не требуют заполнения целиком в случае решений меньшего объёма.

Список рекомендуемой литературы

  1. Бююль Ахим, Цёфель Петер SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. – СПб.: ООО «ДиасофтЮП», 2002. – 608 с.

  2. Дубнов П.Ю. Обработка статистической информации с помощью SPSS/ - М.: ООО «Издательство АСТ»: Издательство «НТ Пресс», 2004. – 221 с.: ил.

  3. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы: Учебник. – М.: Финансы и статистика, 2003. -352 с.: ил.

  4. Наследов А.Д. SPSS: Компьютерный анализ данных в психологии и социальных науках. – СПб.: Питер, 2005. – 426 с.: ил.

  5. Таганов Д.Н. SPSS: Статистический анализ в маркетинговых исследованиях. – СПб.: Питер, 2005. – 192 с.: ил.

1

Соседние файлы в папке UMKD_Marketing_i_marketingovye_issledovaniya_Makoveev