Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции_класт.doc
Скачиваний:
27
Добавлен:
22.08.2019
Размер:
366.59 Кб
Скачать

Лекция №3 Информационное обеспечение Кластеризации

  1. Информационные признаки, используемые при кластеризации

  2. Схемы использования информации, предназначенной для кластеризации

  3. Измерение характеристик объектов и их представление в задачах кластеризации

  4. Целевые функции кластеризации

I. Особенностью информационного сопровождения задач, решаемых методами кластеризации, является возможность использования практически любой информации об объектах исследования: формализованной и записанной в произвольной форме, объективной и субъективной, непосредственно измеренной или полученной косвенными путями, систематизированной и хаотичной - причем любая информация представляет определенную ценность для исследования. Такую разнородную и неструктурированную информацию об изучаемых объектах правомерно считать сложным множеством, требующим декомпозиции, шкалирования и нормирования для последующей кластеризации, структурного и содержательного анализа.

Выделяется три типа информации, используемой в кластерном анализе:

  1. многомерные данные - первичная информация.

  2. данные о близости (метрические и иные расстояния между объектами).

  3. данные о кластерах: координаты в признаковом пространстве, характеристики и свойства, границы кластеров.

Качество результатов обработки сложного множества, в первую очередь, зависит от обоснованности выбора признакового пространства. Эта задача состоит из двух взаимосвязанных подзадач: выбора наиболее информативных признаков и исключения взаимно коррелируемых характеристик объектов. При этом определяется информативность признака, т. е. его «важность» для классификации. Признаки, имеющие максимальный «вес», используются в качестве описательных элементов (дескрипторов) при поиске нужных групп. Поскольку признаки являются главной характеристикой объектов, по которой определяется сходство или различие, их выбор и дает ту или иную систему разделения на однородные группы.

Существенную сложность в выборе правил разделения для классификации представляет ранжирование признаков. Процедура установления рангов изучаемых характеристик требует определения «полезности» каждого признака. В тех случаях, когда все признаки объявляются «равнополезными», т. е. их «весовые» коэффициенты принимают равные значения, это приводит к избыточности размерности признакового пространства, лишние характеристики не только усложняют вычислительные процедуры, но и размывают границы между кластерами, нивелируют характеристики объектов.

Таким образом, классификация во многом зависит от количества и качества выбора информационных показателей.

С ростом количества признаков снижается устойчивость классификации, размываются границы между группами. При неограниченном росте количества признаков усложняется содержательная интерпретация изучаемых процессов из-за необходимости учета второстепенных деталей, не существенных с точки зрения основного содержания исследования, что, в свою очередь, приводит к расплывчатости в описании объектов. Однако излишнее сокращение количества признаков может привести к примитивному описанию объектов при интерпретации содержания кластеров и отсутствию познавательной ценности результатов классификации.

Признаковые пространства могут иметь природу двух типов. К первому типу относятся признаки, имеющие «непосредственное содержательное отношение к изучаемой проблеме». Эти признаки каким-либо способом фиксируются в ходе исследования или получаются с помощью расчетов исходных факторов. Второй тип признакового пространства получается в результате преобразования кластерной матрицы, в основном за счет трансформации строк, столбцов и самой системы координат.

Практика разделения неоднородного множества на некоторое количество однородных подмножеств указывает на возможность рационального подбора переменных, с помощью которых выделяются или сглаживаются различия между объектами. Выбор признаков, определяющих объекты, является основой формулировки решающих правил разделения исходного множества на подмножества.

Выбор признаков для классификации во многом зависит от целей исследования. Поэтому одно и то же множество может быть разделено на принципиально различные группы, отличающиеся не только количеством входящих в них элементов, но и их смешением в подгруппах. К примеру, классификация бригад по производственным признакам (производительность труда, фондовооруженность, трудовая дисциплина и т. п.), скорее всего, не совпадет с классификацией по обобщенным социально-демографическим признакам их членов (возраст, семейное положение, обеспеченность жильем и т. п.). Следовательно, нельзя классифицировать группу социально-экономических объектов один раз для любых случаев - процесс этот должен повторяться при изменении целей исследования или управления.

Теоретически классифицировать методами кластерного анализа можно неограниченное количество объектов с любым набором признаков. Однако практически существуют довольно жесткие ограничения, связанные со сложностью процедур, возможностями быстродействия и объема памяти компьютера. Поэтому в начале исследования определяется желательная размерность признакового пространства и ориентировочное количество групп, на которые следует разделить исходное множество. Последнее ограничение связано с возможностями восприятия информации при исследовании и управлении.

С увеличением количества распознанных объектов растет точность управления и достоверность знаний об их специфике, и было бы идеальным рассмотрение каждого элемента множества в отдельности (в этом случае и классификация не нужна). Но такая детальная группировка не воспринимается человеком, и поэтому в реальных классификациях количество групп, как правило, не превышает десяти. Размерность признакового пространства не является столь жестким условием и варьируется от одного показателя до пятидесяти, но может быть и больше. Если жё исследователи не ограничены вычислительными мощностями, то количество признаков может быть весьма значительным.

Дать формальный ответ на вопрос о качестве выбора размерности признакового пространства классификации до окончания процедуры кластеризации практически невозможно. Оценка размерности осуществляется на стадии интерпретации полученных результатов и в тех случаях, когда эти результаты не удовлетворяют условиям или анализа, приходится возвращаться к исходным процедурам обработки начальных массивов информации, но с использованием нового набора информационных признаков. В отдельных случаях, при нехватке характеристик, ведется дополнительная работа по сбору данных.

II. Сильной стороной кластерного анализа можно считать его «всеядность»: какой бы вид информации ни предложить, кластерной матрице он оказывается полезен. Тем не менее в необработанном виде многие виды информации использовать практически невозможно. Необработанная информация разнопланова еще и потому, что зачастую принадлежит разным содержательным группам и поэтому ее нельзя систематизировать в общем поле измерения. В таких условиях постановщик исследования вынужден находить способ преобразования исходных данных, чтобы они отвечали единой аксиоматике кластерной модели классификации. Некоторые типы исходной информации, а также возможные способы придания им удобного для классификации вида приведены в табл. 1.

Тип информации и ее основные характеристики

Преобразования, необходимые для использования информации в кластерной модели

Прямая числовая информация, полученная непосредственно от объектов

Можно использовать в виде абсолютных или относительных (проценты, приведенные затраты) чисел. Расстояния между объектами вычисляются в кластерной модели

Косвенная числовая информация о признаках, влияющих на поведение объектов, вторичных признаках, аналогичных объектах, условиях среды и т.п.

Можно использовать с учетом коэффициентов корреляции зависимостей или подобия объектов

Альтернативная числовая информация опросных листов или паспортных данных. Нечисловая информация легко кодируется и переводится в числовую

Возможно прямое использование в относительном виде. Каждый параметр требует разработки собственной шкалы

Нечисловая информация типа «меню», полученная в результате анкетирования респондентов или опроса экспертов

Требует разработки числовых аналогов текстовым характеристикам, недопустимо использование евклидовой аксиоматики. Расстояния, как правило, не вычисляются. Сравнение идет по совпадению предпочтений

Историческая, генетическая, этимологическая информация о предыдущем развитии объекта исследования

Может быть представлена в виде уравнений регрессии, коэффициентов эластичности, начальных координат, рядов динамики

Априорная числовая и нечисловая информация

Формируется экспертами до проведения расчетов кластерной матрицы. С ее помощью определяются предварительные характеристики кластеров, граничные функции, содержание кластеров

Теоретическая информация, являющаяся следствием каких либо закономерностей, теоретических положений

Преобразования этого типа информации зависят от ее содержания и формального представления

Гипотетическая информация о возможных результатах классификации, мотивах деятельности, гипотезах развития и т.п.

то же

Эвристическая информация, основанная на предыдущем опыте, творческих способностях, образовании, интуиции

то же

Экспериментальная информация, полученная в результате проверки гипотез или эксперимента

то же

Случайная информация, полученная в результате незапланированных мероприятий, неожиданных результатов поиска

то же

III. В прикладных задачах кластеризации встречаются два вида характеристик объектов: объективные показатели, которые могут быть оценены непосредственным измерением, и такие показатели, которые нельзя измерить в первоначальном виде (удовлетворенность работой, управленческие предпочтения, выбор рационального пути развития). Второй вид параметров требует введения опосредованных единиц измерения, экспертных оценок, проведения опросов общественного мнения и т. п. Очевидно, первая группа объективных показателей может быть непосредственно измерена с заданной точностью, а для второй группы характерна не только неопределенность, но и формально немотивированная изменчивость показателей.

Числовые характеристики первой группы, как правило, соответствуют аксиоматике Евклида. Для субъективных показателей возникает задача выбора приемлемой метрики, а в дальнейшем - сопоставимости показателей обеих групп. Для этого существуют различные искусственные методы включающие нормирование показателей, т. е. представление чисел в относительных единицах, как правило, на отрезке [0; 1].

Несмотря на «всеядность» кластерного анализа относительно исходной информации, в предварительно обработанном виде эмпирические данные должны отвечать следующим требованиям:

  • содержательной репрезентативности, т. е. информация должна отражать существенные для исследования свойства объектов классификации;

  • полноте объема информации, достаточной для объяснения явлений;

  • достоверности;

  • существованию формальных правил, по которым можно объективно интерпретировать данные, упорядоченные матрицы и т. п. Если это невозможно сделать в автоматическом режиме, то должны существовать эксперты, способные по приведенной информации дать оценку явлениям;

  • релевантности (степень соответствия запроса и найденного, то есть уместность результата или адекватность) экспертных оценок.

IV. В качестве критерия правильности классификации методами кластерного анализа можно использовать такие функции, которые содержат в себе содержательную логику основных задач, понимание постановщиком исследования того, как должно выглядеть разделенное множество объектов. И это было бы самым разумным решением.

Но чаще всего постановщик задачи не знает, какие могут быть результаты классификации, и тем более не может априори определить, какое разбиение следует признать оптимальным. В этом случае на помощь приходят целевые функции, сформулированные на основе изучения кластерной матрицы или промежуточных результатов кластеризации. Как правило, эти целевые функции корреспондируют с основными содержательными закономерностями, но обнаружить и обосновать эту связь нужно отдельно.

Использование целевых функций позволяет разрабатывать алгоритмы оптимизации кластерной задачи и формального выбора наиболее эффективного разбиения. В практических задачах трудно сформулировать единственную целевую функцию для поиска оптимального решения. Обычно постановщику хочется добиться соблюдения нескольких условий оптимизации. Несложный алгоритм последовательной фильтрации позволяет использовать любое число целевых функций, но для этого необходимо, чтобы в зону оптимального решения кластерной задачи попали несколько решений, иначе уже на второй итерации выбирать будет не из чего.

Сформулируем некоторые целевые функции, способные оценить качество классификации и выбрать оптимальные варианты.

А. Минимум объектов, не попавших ни в один кластер (потери классификации)

Несмотря на то, что потери объектов при классификации - процесс неизбежный, постановщик задачи, желающий сделать исследование репрезентативным, старается свести эти потери к минимуму:

где: - объект, который после окончания расчетов не попал ни в один кластер.

Причины потерь объектов классификации могут состоять как в объективной невозможности создания однородных групп, так и в ошибках специалистов, выполняющих исследование.

Если количество объектов, не вошедших ни в один кластер после завершения всех вариантов классификации, достаточно велико, разумно провести специальное исследование причин подобных результатов.

В. Максимально возможная компактность каждого кластера

Компактность кластера можно определить следующим образом:

• разделить исходное множество на кластеры;

• у каждого кластера вычислить условный «центр массы».

С. Максимальное суммарное расстояние между границами (оболочками) кластеров

Этот критерий оценивает расстояние между образами (кластерами), что, в свою очередь, характеризует степень их отличия друг от друга и то, насколько методически объективно разделены объекты изучения.

D. Максимальное совпадение признаков (однородность) в каждом кластере

Соединение объектов в кластеры может происходить не только за счет однородности характеристик, но и в результате искусственных манипуляций: произвольного изменения масштаба расстояний, исключения из рассмотрения отдельных характеристик, субъективизма в постановке задач и многих других действий.

Поэтому важно найти объективную целевую функцию кластеризации, которая могла бы оценить схожесть характеристик объектов и на основании близости наибольшего количества показателей сформировать однородные кластеры. Впрочем, подобная целевая функция скрывает в себе немало трудноразрешимых задач: ведь не все показатели необходимы для точной характеристики объектов. Более того, «лишние» признаки способны дезориентировать исследователя, нивелируя интегральные (обобщающие) характеристики объектов изучения.

Вообще целевая функция однородности может быть сформулирована скорее в неформальном виде, чем задана алгоритмически. Учитывая неопределенность задачи выбора наиболее информативных характеристик, эффективнее эту процедуру поручить экспертам, причем не останавливаться на одном варианте показателей, а провести расчеты с несколькими вариантами. Сравнение результатов поможет оценить уровень доверия к экспертам.

Е. Максимальное приближение реального числа кластеров к теоретически идеальному.

F. Максимальная концентрация объектов в каждом кластере около расчетного ядра.

G. Максимальное приближение расположения объектов в кластерах к теоретически обоснованным законам распределения случайных величин.

H. Максимальное приближение дискриминантных линий, ограничивающих кластеры, к заранее заданным идеальным функциям.