
- •Тема 1.1 Система как базовое понятие кибернетики
- •Понятие системы. Принцип «черного ящика»
- •Система, преобразующая входы в выходы
- •Элемент и структура системы
- •Система
- •Классификация систем
- •Тема 1.2. Анализ данных методами многомерной классификации.
- •1. Общая характеристика методов классификации многомерных данных.
- •4. Итерационные методы кластеризации. Метод к-средних.
- •Тема 1.3. Факторный анализ
- •1. Сущность факторного анализа. Классификация задач фа
- •Этапы проведения факторного анализа.
- •Тема 2.1. Управление системой
- •Основные принципы управления
- •Виды управления
- •Тема 2.2. Характеристика экономики как сложной системы
- •Экономика как объект кибернетики
- •Процесс производства как преобразование ресурсов
- •Тема 2.3. Производственные функции как основа описания закономерностей производства
- •Общая характеристика производственной функции
- •2. Производственные функции с взаимозаменяемыми ресурсами
- •3. Производственные функции с взаимодополняемыми ресурсами
- •Тема 3.1. Моделирование структурных связей в экономике с использованием межотраслевого баланса Структурные связи и понятие отрасли
- •Тема 3.2. Статистическая модель межотраслевого баланса
- •4. Классический и ценовой эффект мультипликации
- •Тема 3.3. Динамическая модель межотраслевого баланса
- •Динамическая модель межотраслевого баланса. Матрица коэффициентов приростной капиталоемкости
- •Принципиальная схема динамического баланса
- •Литература
4. Итерационные методы кластеризации. Метод к-средних.
Иерархические методы кластеризации практически реализуемы лишь в задачах классификации не более нескольких десятков наблюдений. К решению задач с большим числом наблюдений применяют последовательные методы кластеризации — итерационные методы, на каждом шаге которых используется одно наблюдение (или небольшая часть исходных наблюдений) и результаты разбиения на предыдущем шаге.
Идею этих процедур поясним на примере метода k-средних (KMeans Clustering) с заранее заданным числом m классов.
Метод k-средних основан на минимизации суммы квадратов расстояний между каждым элементом исходных данных и центром его кластера, т.е. функции:
S=
,
(8)
где
- i-ый элемент данных,
-центр кластера, которому на j-ой итерации
приписан элемент
.
В простейшем случае, при выборе евклидовой меры расстояний, алгоритм k-средних описывается следующим образом:
1. На первой итерации (j=0) cлучайно приписываем каждый элемент исходного множества одному из m кластеров.
2.
Определяем центр каждого кластера
как
элемент, компоненты которого вычисляются
как среднее арифметическое входящих в
этот кластер элементов.
В центре кластера достигается минимум функции суммы квадратов расстояний от элементов кластера до точки:
S=
3. Для каждого элемента xi вычисляем расстояние до центра каждого кластера. Расстояние между каждым объектом и центром кластера обычно рассчитывается по евклидовому расстоянию:
=
, (9)
p – количество признаков, i - номер объекта х, l – номер кластера.
Объект
xi
относят к кластеру, расстояние до
которого минимально:
.
В результате каждый объект переназначается
между кластерами, после чего рассчитывают
новый центр
тяжести
каждого кластера
(как среднее арифметическое компонент
входящих в этот кластер объектов).
4. Критерии остановки процедуры разбивки на кластеры:
1)
Если уменьшение суммы расстояния от
каждого элемента до центра его кластера
меньше порогового значения α
(
);
2) кластерные центры стабилизировались, т.е. все наблюдения принадлежат кластеру, которому принадлежали до текущей итерации;
3) число итераций равно максимальному числу итераций.
5. Если критерии остановки кластеризации не выполняются, переходим к следующей итерации j=j+1. Пункт перерасчета центров кластеров и расстояний между объектами и центрами классов повторяется (пункт 2 алгоритма).
Пример работы алгоритма k-средних для k, равного двум.
Выбор числа кластеров является сложным вопросом. Если нет предположений относительно этого числа, рекомендуют создать 2 кластера, затем 3, 4, 5 и т.д., сравнивая полученные результаты. После получений результатов кластерного анализа методом k-средних следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.
Достоинства алгоритма k-средних:
простота использования;
быстрота использования;
понятность и прозрачность алгоритма.
Недостатки алгоритма k-средних:
алгоритм слишком чувствителен к выбросам, которые могут искажать среднее. Возможным решением этой проблемы является использование модификации алгоритма - алгоритм k-медианы;
алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки данных.