
14 Февраля 2013
Кластеризация отличается от классификации тем, что для проведения анализов не требуется иметь выделенную зависимую переменную. Эта задача решается на начальных этапах исследования, когда о данных мало что известно. Ее решение помогает лучше понять данные и с этой точки зрения задача кластеризации является описательной. Для задачи кластеризации характерно отсутствие каких либо различий между переменными и объектами. Напротив, ищутся группы наиболее близких, похожих объектов. Методы автоматического разбиения на кластеры редко используются сами по себе. После определения кластеров используются другие методы, чтобы попытаться установить что означает такое разбиение и чем оно вызвано. Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации. Делать их компактными и наглядными. Этим задачам присущи ряд особенностей: во-первых, решение сильно зависит от природы объектов. Во-вторых, решение в значительной степени зависит и от представления кластеров и предполагаемых отношений объектов и кластеров.
Модель технологии Data Mining.
Цель технологии Data Mining - нахождение в данных таких моделей, которые не могут быть найдены обычными методами. Существует два вида моделей:
Предсказательные
Описательные
Предсказательные модели строиться на основании набора данных с известными результатами. Они используются для предсказания результатов на основании других наборов данных. К таким моделям относиться следующие:
Классификации - описывают правило или набор правил в соответствии с которыми, можно отнести описание любого нового объекта к одному из классов. Такие правила строиться на основании информации о существующих объектах путем разбиения их на классы.
Последовательностей- функции позволяющие прогнозировать изменения параметров. Они строиться на основании данных об изменениях некоторого параметра за прошедший период времени.
Описательные модели уделяют внимание сути зависимости в наборе данных, взаимному влиянию различных факторов, то есть построению эмпирических моделей различных систем. К таким моделям относиться следующие:
Регрессивные - описывают функциональные зависимости между зависимыми и независимыми показателями и переменными в понятной человеку форме.
Кластеров - описывают группы (кластеры) на которые можно разделить объекты, данных о которых подвергаются анализу. Группируются объекты (наблюдения, события) на основе данных (свойств) описывающих сущность объекта. Объекты внутри кластера должны быть "похожими" друг на друга и отличаются от объектов вошедших в другие кластеры. Чем сильнее "похожи" объекты внутри кластера и чем больше отличие между кластерами, тем точнее кластеризация.
Исключений – описывают исключительные ситуации в записях данных, которые резко отличаются от основной массы записей.
Итоговые – выявление ограничений на данные анализируемого массива.
Ассоциативная – выявление закономерностей между связанными событиями. Примером служит правило, указывающее что из события Х следует событие Y.