Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кондрашов ВСЕ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
11.52 Mб
Скачать

Метод кластеризации последовательностей

Алгоритм кластеризации последовательностей можно использовать для исследования данных, содержащих события, которые могут быть связаны путями, именуемыми последовательностями. Алгоритм находит самые распространенные последовательности, выполняя группирование или кластеризацию идентичных последовательностей.

В качестве примеров исследуемых последовательностей можно привести:

  • Данные, описывающие переходы пользователя в пределах веб-узла.

  • Данные, которые описывают порядок, в котором клиент добавляет в корзинку товары, выбранные в Интернет-магазине.

Более подробно первый пример заключается в следующем. Веб-узел некоторой компании собирает сведения о страницах, посещаемых пользователями узла, и о порядке посещения таких страниц. Поскольку компания предоставляет возможность заказа продукции компании через сеть Интернет, клиентам необходимо зарегистрироваться на узле. С каждым щелчком мыши клиента компания получает сведения о действиях в рамках узла, выполняемых под клиентским профилем. Применив в отношении таких данных рассматриваемый алгоритм кластеризации последовательностей, компания может найти группы или кластеры клиентов, для которых характерны похожие шаблоны или последовательности щелчков. Компания затем может использовать данные кластеры для анализа перемещения пользователей в рамках веб-узла и определения страниц, которые ближе всех связаны с продажей конкретного продукта, а также для прогнозирования страниц, которые клиент с наибольшей долей вероятности посетит в следующий раз.

Алгоритм похож на рассмотренный алгоритм кластеризации. Однако вместо поиска кластеров, содержащих похожие атрибуты, алгоритм кластеризации последовательностей находит кластеры, содержащие похожие последовательности.

Модель, создаваемая данным алгоритмом, содержит описания самых распространенных последовательностей в данных. Данные описания можно использовать для прогнозирования следующего вероятного шага в новой последовательности.

При создании кластера алгоритм также может учитывать такие столбцы в данных, которые не связаны непосредственно с последовательностями. Поскольку алгоритм включает несвязанные столбцы, можно использовать итоговую модель для определения связей, существующих между данными, включенными в последовательность, и данными, не включенными в последовательность.

Для определения кластеров и их последовательностей алгоритм использует метод кластеризации, называемый методом максимизации ожидания (EM). Т.е. для определения существования точки данных в кластере алгоритм использует вероятностный метод.

Один из входных столбцов исходных данных, используемых алгоритмом кластеризации последовательностей, является вложенной таблицей, содержащей наборы последовательностей (приобретенные товары или щелчки на веб-узле). Также необходим ключ, который идентифицирует каждую вложенную таблицу.

Чтобы определить, какие столбцы последовательности будут входными столбцами для кластеризации, алгоритм измеряет различия или расстояния между всеми возможными последовательностями в наборе данных. После измерения таких расстояний алгоритм сможет использовать столбец последовательности в качестве ввода для EM-метода кластеризации.

Алгоритм поддерживает следующие типы данных.

Типы содержимого входных столбцов

Непрерывные, циклические, дискретные, дискретизированные, ключевые, ключевые последовательные, табличные и упорядоченные.

Типы содержимого прогнозируемых столбцов

Непрерывные, циклические, дискретные, дискретизированные, табличные и упорядоченные

Рассматриваемый алгоритм кластеризации последовательностей поддерживает несколько параметров, влияющих на производительность и точность результирующей модели. В частности, можно задать максимальное количество состояний, которые последовательность может иметь.