4. Перечень рекомендуемой литературы:
Многомерный статистический анализ в социально-экономических исследованиях. – М.: Наука, 1974.
Портер М. Международная конкуренция: Пер. с англ. - М. , Международные отношения.- 1993.-896c.
Портер М. Конкуренция: Пер. с англ. – М.: «Вильямс», 2000. – 495с.
Сокал Р.Р. Кластер-анализ и классификация: предпосылки и основные направления // В кн. Классификация и кластер. – М.: Наука, 1980. – С.7-19.
Крускал Дж. Многомерное шкалирование и кластер-анализ. // В кн. Классификация и кластеры. – М.: Наука, 1980. – С.22-41.
Хартинган Дж.А. Задачи, связанные с функциями распределения в кластер-анализе. // В кн. Классификация и кластеры. – М.: Наука, 1980. – С.42-65.
Митропольский А.К. Техника статистических вычислений - М., Наука.- 1971.-576c.
5. Основные положения кластерного анализа и алгоритм его реализации
Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из этих объектов групп, “сгустков” наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности.
Выбор конкретного метода кластерного анализа зависит от цели классификации и в настоящее время весьма разнообразен, затрагивая целые математико-статистические разделы, начиная от традиционного – исследования операций и заканчивая, к примеру, многомерным шкалированием.
Кластерный анализ используется при исследовании структуры совокупностей менеджерских, социально-экономических, маркетинговых, коммерческих показателей или объектов: предприятий, фирм, корпораций, регионов, территорий, социологических анкет, коллективов, популяций и сообществ и т.д.
От матрицы исходных данных
переходим
к матрице нормированных значений
с элементами
где
- номер показателя (столбцы),
номер наблюдателя (строки);
;
.
В
качестве «расстояния» между наблюдениями
и
используют (чаще всего, и даже, в основном)
«взвешенное» евклидовое расстояние,
определяемое по формуле
,
где
- вес показателя;
.
Если
для всех
,
то получаем обычное евклидовое расстояние
,
Полученные расчетом для каждой ячейке значения удобно представить в виде матрицы расстояний
;
.
Так
как матрица
симметрическая, т.е.
,
то достаточно ограничиться записью
наддиагональных элементов матрицы.
Используя матрицу расстояний, можно реализовать подобную иерархическую «цементирующую» процедуру кластерного анализа. Расстояния между кластерами определяют по принципу «ближнего соседа» или «дальнего соседа». В первом случае за расстояние между ближайшими элементами этих кластеров, а во втором – между удаленными друг от друга.
Принцип работы иерархических «цементирующих» процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга.
На каждом шаге алгоритма каждое наблюдение ( ) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и вновь строится матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.
Например, получена матрица расстояний [3, с. 86-87]
Поскольку
между кластерами 1 и 5 имеется минимальное
расстояние, оцениваемое в 1, то объединению
подлежат кластеры (1) и (5), т.е. по минимальным
расстояниям объединяются и строки (1) и
(5) и одновременно столбцы (1) и (5). В
результате образуется также симметричный
кластер, но уже размером
, но с объединенными по минимальным
расстояниям строками и столбцами (1) и
(5), т.е.
Из
полученного кластера выявляется
минимальное “расстояние”, равное 2,
которое имеет место между кластерами
3 и 5, подлежат дальнейшему объединению
по “минимальным” расстояниям (фактические
по счету строки и столбцы 3 и 4). Получаем
кластер размером
:
Анализ полученного кластера показывает, что минимальным «расстоянием» является расстояние 3, которое предполагает объединению кластеров (строк и столбцов), обозначенных нами как (1+5) и (3+4), т.е. объединению фактически по минимальным «расстояниям» подлежат строки и одновременно столбцы 1 и 3. Объединяя столбцы 1 и 3, не трудно определить содержание первой строки в виде
,
что и соответствует содержанию первого
столбца (в силу симметричности матрицы
евклидового расстояния). Поэтому
последняя матрица, объединяющая кластеры
(1+5)+(1+4), позволяет выделить минимальное
расстояние
.
В результате итеративных процедур объединения кластеров получаем:
Результаты итеративных процедур объединения строк и столбцов кластеров позволяет построить дендрограмму взаимодействия с учетом минимальных, а главное относительно пропорциональных условных «расстояний».
1
2 3
4 5
Дендрограмма,
характеризующая кластер условных
«расстояний» примера, объединенного
по выявленным (
) минимально возможным «расстояниям».
