Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Теория экономического анализа

.pdf
Скачиваний:
36
Добавлен:
02.04.2015
Размер:
1.45 Mб
Скачать

Глава 4. Методы экономического анализа

3)вычисление значений той или иной меры сходства между объектами;

4)применение метода кластерного анализа для созда- ния групп исходных данных;

5)проверка достоверности результатов кластерного ре- шения.

Каждый из перечисленных шагов играет существенную роль при использовании кластерного анализа в прикладном анализе данных. При этом шаги 1,2 и 5 целиком зависят от решаемой задачи и должны определяться пользователем. Ша- ги 3 и 4 выполняются программой кластерного анализа.

В целом многие методы кластерного анализа довольно эвристические процедуры, которые не имеют, как правило, строгого статистического обоснования, но позволяют свести к минимуму вероятность допущения ошибки при трактовке результатов кластерного анализа.

Разные кластерные методы могут порождать различные решения для одних и тех данных. Это обычное явление в большинстве прикладных исследований. Окончательным критерием считают удовлетворенность исследователя резуль- татами кластерного анализа.

Разработанные кластерные методы образуют семь ос- новных семейств:

1)иерархические агломеративные методы;

2)иерархические дивизимные методы;

3)итеративные методы группировки;

4)методы поиска модальных значений плотности;

5)факторные методы;

6)методы сгущений;

7)методы, используемые теорию графов.

По данным ряда исследований, около 2/3 приложений кластерного анализа используют иерархические агломера- тивные методы. Рассмотрим сущность этих методов на при- мере наиболее простого метода одиночной связи.

Процесс кластеризации начинается с поиска двух самых близких объектов в матрице расстояний. На последующих

61

Теория экономического анализа

шагах к этой группе присоединяется объект, наиболее близ- кий к одному из уже находящихся в группе. По окончании кластеризации все объекты объединяются в один кластер.

Отметим несколько важных особенностей иерархиче- ских агломеративных методов:

1)все эти методы просматривают матрицу расстояний размерностью

N · N (где N – количество объектов) и последователь- но объединяют наиболее схожие объекты. Именно поэтому они называются агломеративными (объеди- няющими);

2)последовательность объединения кластеров можно представить визуально в виде древовидной диаграм- мы, часто называемой дендрограммой;

3)для понимания этого класса методов не нужны об- ширные знания матричной алгебры или математиче- ской статистики. Вместо этого дается правило объе- динения объектов в кластеры.

Сначала ищутся два наиболее близких объекта (препо- ложим, А и В). Предположим, что расстояние между объекта- ми А и В равно R. В один кластер объединяются объекты, рас- стояние между которыми меньше, чем

(10 – С)R, где С четкость классификации, параметр управления процессом, принимающий значения от 1 до 10, который может меняться пользователем. При С = 10 на каж- дом шаге объединяются только два самых близких элемента, т.е. имеет место иерархическая агломеративная процедура в чистом виде. Однако, как показывает практика использования кластерного анализа, пользователю важнее выделить в про- странстве группы объектов с разной плотностью. В этом слу- чае величину С необходимо уменьшать. Минимальное рас- стояние R пересчитывается на каждом шаге кластерного ана- лиза.

Объединение. На каждом шаге кластерного анализа про- исходит объединение объектов, т.е. из нескольких объектов образуется один кластер. Процедура кластеризации заканчи-

62

Глава 4. Методы экономического анализа

вается, когда все первичные объекты исчерпаны. Допустим, на каждом шаге объединяются n объектов. Из этих объектов об- разуется один кластер как центр тяжести этих объектов ( среднее арифметическое по каждой координате).

Размерность задачи уменьшается на величину n-1 (n объектов удаляются, один добавляется). Далее проводится пе- ресчет матрицы расстояний.

Рассмотрим кластерный анализ наблюдений, т.е. в резуль- тате вычислительной процедуры каждое наблюдение отно- сится к той или иной группе. Кластеризация проводится на основе одной из двух метрик.

Евклидово расстояние

.

Корреляционное расстояние

1,

где x = {x1, x2, …, xk] и y = {y1, y2, … yk) – две точки; rxy пар- ный коэффициент корреляции между x и y.

На результаты кластеризации существенное влияние оказывает выбор меры расстояния. На практике их лучше бы называть мерами несходства: для большинства используемых коэффициентов большие значения соответствуют большему сходству, в то время как для мер расстояния все наоборот. Считается, что два объекта идентичны, если описывающие их переменные принимают одинаковые значения. В этом случае расстояние между ними равно нулю. Меры расстояния обыч- но не ограничены сверху и зависят от выбора шкалы (масшта- ба) измерения. В программе кластеризация проводится на ос- нове метрик: евклидово расстояние; корреляционное расстоя- ние; расстояние городских кварталов (манхеттенское); рас- стояние Махаланобиса (обобщенное расстояние), вычисление которых показаны в табл. 4.5.

63

Теория экономического анализа

Таблица 4.5

Расчетные формулы метрик кластеризации

Показатель

Формула расчета

Евклидово расстояние

 

 

 

 

 

 

 

 

 

 

 

 

 

Корреляционное

1

,

 

расстояние

 

Расстояние городских

 

 

 

 

кварталов

 

 

 

 

 

 

 

 

 

Расстояние

 

 

 

 

Махаланобиса

 

 

 

 

Сегодня существует достаточно много методов кла- стерного анализа. Остановимся на некоторых из них.

Метод полных связей. Суть данного метода в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который меньше некоторого порогового значения S. В терминах евклидова расстояния это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значе- ния, которое определяет максимально допустимый диаметр подмножества, образующего кластер.

Метод максимального локального расстояния. Каждый объ-

ект рассматривается как одноточечный кластер. Объекты группируются по следующему правилу: два кластера объеди- няются, если максимальное расстояние между точками одного кластера и точками другого минимально. Процедура состоит из n – 1 шагов и результатом являются разбиения, которые совпадают со всевозможными разбиениями в предыдущем ме- тоде для любых порогов значений.

Метод Ворда. В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений,

64

Глава 4. Методы экономического анализа

которая есть ни что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, со- держащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров.

Центроидный метод. Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними) этих кластеров. Кластеризация идет поэтапно на каждом из n – 1 шагов объединяют два кластера G и , имею- щие минимальное значение R2ij. Если n1 много больше n2, то центры объединения двух кластеров близки друг к другу и характеристики второго кластера при объединении кластеров практически игнорируются. Иногда этот метод иногда назы-

вают еще методом взвешенных групп.

Метод «ближайшего соседа» представляет иерархический агломеративный метод. Процесс кластеризации начинается с поиска двух самых близких объектов в матрице расстояний, далее к этой группе присоединяется объект, наиболее близкий к одному из уже находящихся в группе. По окончанию класте- ризации все ближайшие объекты объединены в один кластер.

Метод «Олимп» основан на иерархической агломератив- ной процедуре, основанный на приеме объединения.

Метод К-средних относится к итеративным методам группировки. Его достоинство возможность управления ко- личеством групп (К-групп), на которые должны быть разнесе- ны наблюдения. Алгоритм метода:

1)начать с исходного разбиения данных на некоторое заданное число кластеров; вычислить центры тяжести этих кластеров (в программе исходное разбиение вы- полняется методом ближайшего соседа);

2)поместить каждую точку данных в кластер с ближай- шим центром тяжести;

3)вычислить новые центры тяжести кластеров; кластеры не заменяются новыми до тех пор, пока не будут про-

65

Теория экономического анализа

смотрены полностью все данные. Шаги 2 и 3 повто- ряются до тех пор, пока не перестанут меняться кла- стеры.

Содержательно этот метод направлен на поиск разбие- ния выборки с минимальным разбросом. В отличие от иерар- хических агломеративных методов, которые требуют вычис- ления и хранения матрицы сходств между объектами размер- ностью N · N, итеративные методы работают непосредственно с первичными данными. Поэтому с их помощью, возможно, обрабатывать довольно большие множества данных. Более то- го, итеративные методы делают несколько просмотров дан- ных и могут компенсировать последствия плохого исходного разбиения данных, тем самым, устраняя самый главный не- достаток иерархических агломеративных методов. Эти мето- ды порождают кластеры одного ранга, которые не являются вложенными, и поэтому не могут быть частью иерархии. Большинство итеративных методов не допускают перекрытия кластеров.

Кластерный анализ применяется в задачах социально- экономического прогнозирования. При анализе и прогнозиро-

вании социально-экономических явлений исследователь до- вольно часто сталкивается с многомерностью их описания. Это происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдель- ных товаров, и многих других проблем.

Первое применение кластерный анализ нашел в социо- логии. Методы кластерного анализа можно применять в са- мых различных случаях, когда речь идет о простой группи- ровке, в которой все сводится к образованию групп по количе- ственному сходству.

Большое достоинство кластерного анализа в том, что он позволяет проводить разбиение объектов не по одному пара- метру, а по целому набору признаков. Кроме того, кластер- ный анализ в отличие от большинства математико-статисти- ческих методов не накладывает никаких ограничений на вид

66

Глава 4. Методы экономического анализа

рассматриваемых объектов, и позволяет рассматривать мно- жество исходных данных практически произвольной приро- ды. Это имеет большое значение, например, для прогнозиро- вания конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометри- ческих подходов.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Большое значение кластерный анализ имеет примени- тельно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и то- варной конъюнктуры). Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, ди- намика которых наиболее схожа.

Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно пред- ставить системой с обратной связью.

В задачах социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа с други- ми количественными методами (например, с регрессионным анализом).

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения. В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов, заменяя их характеристики обобщенными значе- ниями параметров кластера. При проведении классификации

67

Теория экономического анализа

объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений класте- ров.

В кластерном анализе считается, что:

1)выбранные характеристики допускают в принципе желательное разбиение на кластеры;

2)единицы измерения (масштаб) выбраны правильно.

Применение кластерного анализа. Деление стран на

группы по уровню развития.

Изучались 65 стран по 31 показателю (национальный доход на душу населения, доля населения занятого в про- мышленности, %, накопление на душу населения, доля насе- ления, занятого в сельском хозяйстве, %, средняя продолжи- тельность жизни, количество автомашин на 1 тыс. жителей, численность вооруженных сил на 1 млн жителей, доля ВВП промышленности, %, доля ВВП сельского хозяйства, % и др.).

Каждая из стран выступает в данном рассмотрении как объект, характеризуемый определенными значениями 31 по- казателя. Соответственно они могут быть представлены в ка- честве точек в 31-мерном пространстве. Такое пространство обычно называется пространством свойств изучаемых объек- тов. Сравнение расстояния между этими точками будет отра- жать степень близости рассматриваемых стран, их сходство друг с другом. Социально-экономический смысл подобного понимания сходства означает, что страны считаются тем бо- лее похожими, чем меньше различие между одноименными показателями, с помощью которых они описываются.

На каждом этапе матрица преобразуется так, что из нее исключаются два столбца и две строки, содержащие расстоя- ние до объектов (пар стран или объединений кластеров), сведенных воедино на предыдущей стадии; исключенные строки и столбцы заменяются столбцом и строкой, содержа- щими расстояние от новых объединений до остальных объек- тов; далее в измененной матрице выявляется пара наиболее близких объектов. Анализ продолжается до полного исчерпа- ния матрицы (т.е. до тех пор, пока все страны не окажутся све-

68

Глава 4. Методы экономического анализа

денными в одно целое). Обобщенные результаты анализа матрицы можно представить в виде дерева сходства (дендо- граммы). Это дерево в соответствии с числом сопоставляемых объектов включает 65 уровней. Первый (нижний) уровень со- держит точки, соответствующие каждых стране в отдельности. Соединение двух этих точек на втором уровне показывает па- ру стран, наиболее близких по общему типу народных хо- зяйств. На третьем уровне отмечается следующее по сходству парное соотношение стран (как уже упоминалось, в таком со- отношении может находиться либо новая пара стран, либо новая страна и уже выявленная пара сходных стран) и так да- лее до последнего уровня, на котором все изучаемые страны выступают как единая совокупность.

4. Элементарные методы обработки рядов динамики.

Процессы и явления общественной жизни, которые изучаются статистикой, находятся в постоянном движении и изменении.

Статистические данные, характеризующие изменения явлений во времени, называются динамическими (хроноло- гическими или временными) рядами. Для каждого ряда ди- намики характерны два основных элемента:

1)показатель времени t;

2)соответствующие им уровни развития изучаемого яв-

ления y.

В качестве показаний времени в рядах динамики высту- пают либо определенные даты (моменты), либо отдельные периоды (годы, кварталы, месяцы, сутки).

Они могут выражаться абсолютными, относительными или средними величинами.

Каждое значение временного ряда может состоять из следующих составляющих: тренда, циклических, сезонных и слу- чайных колебаний.

Тренд можно рассматривать в качестве общей направ- ленности изменений значений ряда или основной тенденции ряда. Циклическими называются колебания относительно ли- нии тренда для периодов свыше 1 г. Такие колебания соответ-

69

Теория экономического анализа

ствуют циклам деловой активности: оживлению, росту, а так- же периодам спада и застоя. Сезонными колебаниями называ- ются периодические изменения значений ряда на протяже- нии 1 г. Их можно вычленить после анализа тренда и цикли- ческих колебаний. Случайные колебания выявляются путем снятия тренда, циклических и сезонных колебаний, остаю- щаяся после этого величина и есть беспорядочное отклоне- ние, которое необходимо учитывать при определении веро- ятной точности принятой модели прогнозирования.

Важнейшим условием правильного построения динами- ческих рядов является сопоставимость всех входящих в них статистических показателей. Для этого необходимо, чтобы со- став изучаемой совокупности был один и тот же на всем про- тяжении ряда, т.е. относился к одной и той же территории, к одному и тому же кругу объектов и был исчислен по одной и той же методологи. Кроме того, данные динамического ряда должны быть выражены в одних и тех же единицах измере- ния, а промежутки времени между значениями ряда должны быть по возможности одинаковыми.

В ряде случаев для преобразования несопоставимых ря- дов в сопоставимые прибегают к пересчету данных, используя различные приемы.

Прямой пересчет данных. Если динамические ряды не сопоставимы, несопоставимы в силу изменения круга объек- тов учета или территориальных границ, то для обеспечения сопоставимости производится прямой пересчет данных по первичному материалу, лишь когда они будут сопоставимы, и их можно будет сравнивать.

Смыкание рядов. Если, например, имеются два ряда по- казателей, характеризующих динамику одного и того же яв- ления в новых и старых административных границах, причем на один два срока, имеются данные в новых и старых грани- цах по одному и тому же кругу объектов, то такие динамиче- ские ряды можно сомкнуть. Например, имеются данные от- четности определенной области за ряд лет (табл. 4.6).

70