6. Кластерный анализ.
Кластерный анализ применяется для решения широкого спектра задач, но чаще всего речь идет именно о задаче сегментация. Все исследования, посвященные проблеме сегментации, безотносительно того, какой используется метод, имеют целью идентифицировать устойчивые группы (люди, рынки, организации), каждая из которых объединяет в себя объекты с похожими характеристиками. Реализуя эту процедуру, исследователи, как правило, допускают ошибку следующего рода: характеристики, на основе которых проводится кластеризация, выбираются по принципу «доступней, проще, дешевле». Такой подход ставит под сомнение целесообразность всего дальнейшего анализа, поскольку включение даже одной-двух незначимых характеристик может привести к неадекватному разбиению на кластеры.
Вторым, но не менее важны направлением использования аппарата кластерного анализа, является построение однородных групп потребителей с целью получить максимально полное представление о том, как ведет себя клиент из каждого сегмента, какие драйверы определяют его поведение. Более подробно эта проблема освещена в работах Клакстона, Фрая и Портиса (1974), Киля и Лэйтона (1981).
Кластерный анализ применяется также для того, чтобы определить, в какой нише лучше позиционировать выводимый на рынок продукт. Кластерный анализ позволяет построить карту, на основе которой можно будет определить уровень конкуренции в различных сегментах и характеристики, которыми должен обладать товар для того, чтобы попасть в целевой сегмент. Такая карта позволяет, к примеру, выявить новые рынки, для которых можно разрабатывать и продвигать свои решения.
Многие исследователи применяют кластерный анализ для того, чтобы, определить, какие рынки (магазины, продукты...) можно объединить в одну группу по релевантным характеристикам. Дело в том, что, выдвинув предположение о существовании определенной закономерности (покупатели элитных товаров с ростом цены увеличивают спрос) необходимо предложить новый, не использованный в анализе, рынок, на котором она должна быть проверена, прежде чем применять на практике.
В отличие от большинства других методов многомерного анализа, кластерный анализ параллельно развивался в нескольких дисциплинах (психология, биология, экономика…), поэтому у большинства методов, существует по 2 и более названий, что существенно затрудняет взаимопонимание исследователей, в особенности, если речь идет о разных отраслях знания.
Другая проблема связана с обилием вариантов при выборе метрики и метода кластеризации, а также – согласования между ними. Дело в том, что зачастую, отличия в предпосылках использования той или иной метрики весьма невелики, кроме того, не всегда выбор метрики однозначно определяет допустимый метод кластеризации. В такой ситуации для выбора конкретной комбинации «метрика-метод» следует опираться на «рекомендации», которые приходится по крупицам собирать в различных источниках, а также на «здравый смысл». Понимание последнего приходит только после того, как в деталях разберешься в тонкостях каждого конкретного метода и метрики. Обратим внимание также на то, что само понятие «кластер» неоднозначно определено. Да и в однозначном определении нет необходимости – в каждом конкретном исследовании «кластеры» свои. Как правило, руководствуются следующей рекомендацией: внутренняя однородность и внешняя изолированность.
Выделяют две группы методов кластерного анализа: иерархические и неиерархические.
Основными методами иерархического кластерного анализа являются метод ближнего соседа, метод полной связи, метод средней связи и метод Варда. Наиболее универсальным является последний. Существуют также центроидные методы и методы, использующие медиану, но Сниат и Сокал 1973 аккуратно показали, что их применение может привести к некоторым весьма нежелательным последствиям.
Неиерархических методов больше, хотя работают они на одних и тех же принципах. По сути, они представляют собой итеративные методы дробления исходной совокупности. В процессе деления формируются новые кластеры, и так до тех пор, пока не будет выполнено правило остановки. Между собой методы различаются выбором начальной точки, правило формирования новых кластеров и правилом остановки. Чаще всего используется алгоритм К-средних. Он подразумевает, что аналитик заранее фиксирует количество кластеров в результирующем разбиении.
Говоря о выборе конкретного метода кластеризации, еще раз подчеркнем, что этот процесс требует от аналитика хорошего знакомства с природой и предпосылками методов, в противном случае полученные результаты будут похожи на «среднюю температуру по больнице». Для того чтобы убедиться в том, что выбранный метод действительно эффективен в данной области, как правило, применяют следующую процедуру:
Рассматривают несколько априори различных между собой групп и перемешивают их представителей между собой случайным образом. Затем проводят процедуру кластеризации с целью восстановить исходное разбиение на группы. Показателем эффективности работы метода будет доля совпадений объектов в выявленных и исходных группах.
Выбирая между иерархическими и неиерархическими методами, следует обратить внимание на следующие моменты:
Неиерархические методы обнаруживают более высокую устойчивость по отношению к выбросам, неверному выбору метрики, включению незначимых переменных в базу для кластеризации и пр. Но платой за это является слово «априори». Исследователь должен заранее фиксировать результирующее количество кластеров, правило остановки и, если на то есть основания, начальный центр кластера. Последний момент существенно отражается на эффективности работы алгоритма. Если нет оснований искусственно задать это условие, вообще говоря, рекомендуется использовать иерархические методы. Заметим также еще один момент, существенный для обеих групп алгоритмов: не всегда правильным решением является кластеризация всех наблюдений. Возможно, более аккуратным будет сначала очистить выборку от выбросов, а затем продолжить анализ. Можно также не задавать очень высоким критерий остановки (можно делать остановку, к примеру, когда кластеризовано более 90% наблюдений).
В процессе применения кластерного анализа ожидается решение ряда задач. Их можно сгруппировать следующим образом:
1. Изменение исходных данных
Выбор метрики
Выбор метода стандартизации
Как работать с зависимыми выборками
2. Принятие решений
Сколько кластеров необходимо сформировать
Какой метод кластеризации следует использовать
Следует ли использовать все наблюдения, или необходимо исключить некоторые подвыборки
3. Анализ полученных результатов
Насколько полученное разбиение отличается от случайного
Является ли оно надежным и стабильным на подвыборках.
Какова взаимосвязь между результатами кластеризации и переменными, не участвовавшими в процессе кластеризации
Можно ли проинтерпретировать полученные результаты
4. По какому набору переменных проводить кластеризацию наиболее эффективно
Обратим внимание на то, что, в общем случае, все эти этапы взаимосвязаны, и решения, принятые на каждом из них взаимообуславливают друг друга. Теперь остановимся подробнее на первых трех проблемах.
