
- •Лекция № 2. Кластерный анализ.
- •Лекция №3 Информационное обеспечение Кластеризации
- •Лекция №4 Методы кластеризации
- •III. Сферический метод двухступенчатой кластеризации с выделением ядра (сгущения) объектов классификации
- •IV. Метод определения центра кластера с помощью вычисления среднеарифметических расстояний между объектами
- •VII. Кластеризация методом определения «ближайших соседей», включая иерархическое распределение объектов.
Лекция № 1. Статистическая классификация.
Статистические методы в управлении.
Классификация объектов.
I. Эффективность управления производственными, социальными и экономическими процессами во многом зависит от умения пользоваться всем спектром аналитических и статистических методов. Корректное их использование позволяет глубже понимать сущность происходящих процессов, а также вести осознанный поиск оптимальных решений локальных и условно глобальных задач.
Статистические методы изучения информации применимы для анализа экономического состояния предприятия, его конкурентоспособности на рынке, социально-производственной привлекательности, территориальной общности и производства, а также для решения множества других задач, стоящих перед управленцами всех направлений и рангов.
Для принятия решений немаловажное значение имеет, в каком виде будет представлена информация: необработанном и хаотичном или классифицированном, ранжированном и структурированном. Причем речь идет не только об информации, полученной в результате наблюдений, но и о таких данных, которые являются паспортными для исходных объектов. Не имеет значения, что представляют собой объекты изучения, в каждом случае они будут характеризоваться набором показателей: обобщенных и детальных, описывающих сходные явления и специфические черты объектов.
Очевидно, неклассифицированная и неструктурированная информация неудобна в плане принятия решений, управления, а обилие характеристик мешает анализу. Поэтому на первом этапе изучения информацию необходимо классифицировать и структурировать. Наиболее удобной формой классификации информации является представление ее в виде неких однородных образов, которые объединяют объекты по принципу схожести - близости характеристик. Это позволяет дифференцированно подходить к принятию решений, и, кроме того, однородность образов дает возможность прогнозировать их реакцию (обратную связь) на управляющие воздействия.
Таким образом, первым этапом исследования информации должны стать ее классификация, фильтрация и представление в упорядоченном и компактном виде. Этап классификации во многом определяет результаты всего исследования. От того, насколько удачно разделены объекты, удалось ли на первом этапе отфильтровать недостоверную информацию, не потеряна ли объективность при группировке детализированных характеристик, зависят точность принимаемых решений и управление.
II. Классификация - основа интеллектуальной деятельности человека. Встречаясь с новым явлением, человек сопоставляет его с уже известными ему явлениями, пытаясь найти аналог в известной ему области. Рассматривая группу каких-либо объектов, человек непроизвольно производит их разделение на подгруппы близких друг другу элементов. Классификация присутствует при упорядочении известных нам фактов, явлений, предметов.
Таким образом, методы классификации (распознавания образов) являются вполне естественной областью повседневной и повсеместной деятельности человека при систематизации и оценке явлений и предметов.
Для рассмотрения задач классификации лучше всего подходят многомерные статистические исследования.
Среди возможных методов классификации несомненный практический интерес вызывают методы распознавания образов, которые изучают числовые и нечисловые переменные и постоянные величины, используют методы математической, статистической и логической их обработки. Одной из ведущих теорий в области распознавания образов является кластерный анализ, благодаря которому решение задач классификации было осуществлено несложными компьютерными методами, а также были получены легко интерпретируемые результаты.
Одной из основополагающих задач классификации является формализация отличия одного объекта от другого - поиск совпадения или различия нечетко обрисованных объектов, сложноструктурированных множеств, выявление неявного течения процесса.
В практике встречаются два основных типа классификации. Простейший случай включает в себя заранее классифицированное пространство (млекопитающие, множество натуральных чисел, элементарные частицы) с известными характеристиками, определяющими принадлежность классу. В этом случае любой новый объект (предмет) можно по совпадению характеристик или причислить к какому-либо классу, или нет.
Более сложная ситуация возникает при необходимости объективной классификации множества объектов без предварительных подсказок о числе классов, наиболее существенных характеристиках и принципах разделения. Такая классификация является основной задачей кластерного анализа. Однако и в этом случае необходимо выделить, сформулировать или синтезировать достаточно общее свойство классифицируемых совокупностей. И уже это свойство позволит решить, сходны объекты или различны. Разумность выбора общего свойства должна быть подкреплена практическими результатами - это позволит утверждать, что выполненная классификация объективна.
В истории целенаправленной деятельности человека классификация осуществлялась методами, тесно связанными с предметом классификации. Интуитивно-эвристические подходы к классификации были доступны только выдающимся ученым и были результатом их озарения. И основной сложностью при этом был выбор наиболее важной характеристики или нескольких характеристик, по которым и определялось сходство или различие объектов.
И только применение математико-статистических методов позволило находить типологические меры сходства и различия в автоматическом режиме, а иногда даже выполнять эту работу без понимания содержательных основ причин выбора именно тех характеристик, которые бывают названы в результате расчетов.
Лекция № 2. Кластерный анализ.
Общие сведения о кластерном анализе.
Задача кластеризации.
Понятие кластера, функции расстояния (различия, несходства).
I. Кластерный анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними.
Термин кластерный анализ, впервые был введен Трионом в 1939 году. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам", т.е. включает в себя более 100 различных алгоритмов классификации.
Во многих отраслях науки перед исследователями постоянно встает вопрос о том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии (группы, классы). Таким образом, в многомерном статистическом анализе кластерный анализ занимает особое место.
Кластерный анализ, в отличие от других статистических методов, имеет несколько преимуществ:
1. задачи распознавания образов решаются простыми и логичными методами;
2. в кластерном анализе существуют методы комплексного изучения показателей различных типов данных (интервальных данных, частот, бинарных данных), при этом, не накладываются ограничения на представление исследуемых объектов;
3. простота и доступность процедур кластерных методов распознавания образов позволяет сосредоточить внимание исследователя на содержании сложных многофакторных объектов;
4. методы кластерного анализа позволяют накапливать знания с помощью информации, полученной в результате каждого эксперимента (измерения), выполненного в ходе использования кластерной модели. При этом характеристики кластеров могут корректироваться этими новыми знаниями, благодаря чему идет их накопление на каждой итерации (повторении).
Помимо всего этого, кластерный анализ позволяет сокращать размерность данных, делать ее наглядной; так же может применяться к совокупностям временных рядов, здесь могут выделяться периоды схожести некоторых показателей и определяться группы временных рядов со схожей динамикой.
Сочетание таких характеристик делает аппарат кластерного анализа незаменимым инструментом в задачах управления, классификации, оптимизации и прогноза промышленных, экономических и социальных систем.
Существенно затрудняет работу при использовании кластерного анализа лишь то, что развивался он параллельно сразу в нескольких направлениях, таких как психология, биология и др., поэтому у большинства методов существует по два и более названий.
Техника кластеризации применяется в самых разнообразных областях. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний - широко используемые таксономии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Так же широкое применение кластерного анализа присутствует в маркетинговых исследованиях в истории, географии, экономике, филологии, искусствоведении и т.д. Применительно к управлению земельными ресурсами кластерный анализ широко используется для территориального зонирования (районирования), а так же для обработки большинства получаемых земельно-кадастровых данных.
II. Задача кластерного анализа состоит в разбиении неоднородного множества, состоящего из каких-либо элементов, имеющих сходные измерения, на группу подмножеств, каждое из которых признается условно однородным. При этом основополагающую роль играет изучение различий между элементами множества, разными объектами, подмножествами, множествами.
На основе функций близости (схожести) элементов возможно несколько способов решения задач классификации:
1. Исследователь может задать заранее известные ему характеристики исследуемых множеств или кластеров и после этого сформировать граничные условия этих кластеров, обозначив их контуры и целевые функции. Далее каждый элемент исходного неоднородного множества проверяется на близость каждому кластеру и в результате присоединяется к одному из них. Однако интуитивное определение кластеров не совсем корректно, так как объекты зачастую имеют большое количество взаимозависимых функций, в результате чего часть обозначенных первоначально кластеров может оказаться пустыми или же возможна неоднородность большинства характеристик внутри кластера.
2. Кластеры могут быть определены в автоматическом режиме в процессе нейтрального изучения функций расстояния. В этом случае рассматриваются некоторые сгущения объектов, проводятся границы между получившимися сгущениями, и, таким образом, определяются кластеры. Полученные в автоматическом режиме кластеры анонимны, не изучены и требуют определения наиболее существенных характеристик кластеров в процессе разделения исходного множества.
3. Исследователь может задать определенные критерии оптимальности, исходя из которых, решением задачи кластерного анализа может быть некоторая структура групп. Эти критерии, заданные целевыми функциями, определяют содержание кластеров, их характеристики, количество групп и факторов управления. В качестве целевой функции можно принять максимальную плотность элементов внутри групп или минимум отклонений от ядра группы, т. е. наименьшее расхождение характеристик.
Для решения задач кластерного анализа необходимо количественно определить меру сходства, подобия и различия объектов исследования. Эта мера в кластерном анализе называется функцией расстояния и определяется не только для объектов, имеющих естественные количественные характеристики, но и для тех объектов, параметры которых носят качественный характер.
III. Само название метода – кластерный анализ – этимологически берет начало от слов «класс», «классификация». Английское слово «the cluster» имеет значения: группа, пучок, куст, гроздь, т.е. объединение каких-то однородных явлений. В данном контексте оно близко к математическому понятию «множество». Кластер представляет собой множество условно однородных (схожих) элементов (объектов). Степень однородности (сходства) может быть различной и определяется целями классификации.
Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера.
Центр кластера - это среднее геометрическое место точек в пространстве переменных. Кластеры могут быть перекрывающимися. В этом случае невозможно при помощи математических процедур однозначно отнести объект к одному из двух кластеров. Такие объекты называют спорными. Спорный объект - это объект, который по мере сходства может быть отнесен к нескольким кластерам.
Радиус кластера - максимальное расстояние точек от центра кластера.
Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера. Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным. Неоднозначность данной задачи может быть устранена экспертом или аналитиком.
Каждая единица совокупности в кластерном анализе рассматривается как точка в заданном признаковом пространстве. Значение каждого из признаков у данной единицы служит ее координатой в этом пространстве по аналогии с координатами точки в нашем реальном трехмерном пространстве. Таким образом, признаковое пространство – это область варьирования всех признаков совокупности изучаемых явлений.
Если уподобить это пространство обычному пространству, имеющему евклидову метрику, то тем самым можно получить возможность измерять «расстояния» между точками признакового пространства.
Наиболее распространенной функцией расстояния между двумя объектами по некоторому признаку является расстояние в метрике Евклида или евклидово расстояние.
Евклидово расстояние (дистанционный коэффициент) показывает, на сколько один объект отличается от другого по совокупности описываемых признаков. Чем сильнее значение дистанционного коэффициента стремится к нулю, тем ближе рассматриваемые объекты, которые в последующем могут быть отнесены к одной группе единиц, близких по различным показателям. Коэффициент вычисляется для каждой пары объектов по всем рассматриваемым признакам по следующей формуле:
,
где i,j – номера объектов,
q – порядковый номер признака;
X – значение признака.
Исходными данными для расчетов дистанционных коэффициентов являются наборы числовых значений признаков, характеризующих рассматриваемые элементы. Как правило, данные образуют матрицу «объекты - признаки», - строки которой соответствуют объектам, столбцы – признакам. Показатели, участвующие в расчетах дистанционного коэффициента, должны пройти предварительную обработку:
Отобранные признаки имеют различную размерность и единицы измерения, поэтому перед началом вычислений необходимо провести их нормирование - приведение к единой системе условных единиц (баллы или коэффициенты).
Применяется корреляционный анализ для отбора факторов, для исключения взаимозависимых показателей.
Результаты расчетов дистанционного коэффициента представляются в виде косоугольной матрицы. Последовательное сравнение значений коэффициентов позволяет оценить однородность рассматриваемых объектов.
Разделение возможных значений коэффициента на интервалы позволяет разбить исследуемое пространство на требуемое количество кластеров. Допустимое максимальное значение d, по величине которого происходит объединение, определяется эмпирически, в зависимости от числа групп, или устанавливается логическим обоснование на основе анализа полученных коэффициентов в выборке.
Обоснование правильности отнесения объектов к одной зоне является условие максимальной схожести (минимального различия) объектов между собой. В исключительных случаях, при отклонении от названного требования, должны даваться логические объяснения.
Второй по значимости функцией расстояния принято считать метрику несхожести Хемминга (Манхэттенское расстояние).
Метрика Хемминга может использоваться в тех случаях, когда знаковые различия характеристик объектов имеют принципиальное значение. За счет нивелирования знаковых различий показателей объекты оказываются сконцентрированными к области ядра кластера, но при этом утрачиваются важные знаковые характеристики различий.
Расстояние Чебышева. Это расстояние стоит использовать, когда необходимо определить два объекта как "различные", если они отличаются по какому-то одному измерению.
Процент несогласия. Это расстояние вычисляется, если данные являются категориальными.
Так же существуют и другие функции расстояния.