
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Введение.
- •Методы решения задач Data Mining в Microsoft sql Server.
- •Метод дерева принятия решений.
- •Упрощенный Метод Байеса
- •Метод временных рядов.
- •Метод кластеризации
- •Метод линейной регрессии.
- •Метод поиска взаимосвязей
- •Метод кластеризации последовательностей
- •Метод нейронной сети
- •Области использования рассмотренных алгоритмов.
- •Доступ к средствам sql Server Data Mining из Microsoft Office.
- •Средства анализа таблиц Excel. Инструмент Table Analysis (Анализировать).
- •Инструмент «Анализ ключевых факторов влияния».
- •Инструмент «Поиск категорий».
- •Инструмент Заполнение по примеру (Fill From Example).
- •Инструмент прогнозирования Прогноз
- •Инструмент Выделение исключений
- •Инструмент Анализ сценария.
- •Поиск решения.
- •Анализ гипотетических вариантов
- •Клиент интеллектуального анализа данных для Excel
- •Подготовка данных
- •Просмотр данных.
- •Инструмент Очистить данные
- •Секционирование данных.
- •Панель инструментов Моделирование данных. Классификация.
- •Инструмент «Оценка»
- •Инструмент «Кластеризация»
- •Инструмент Связать.
- •Инструмент Прогноз.
- •Инструмент Дополнительно.
- •Панель Точность и правильность
- •Диаграмма точности.
- •Матрица классификации
- •Литература и источники.
- •Оглавление
- •101990 Москва, Малый Златоустинский пер. 7
- •Введение.
- •Хранилище данных Концепция хранилища данных.
- •Архитектура хранилища данных.
- •Проблемы создания хранилищ данных.
- •Требования к субд и используемые данные.
- •Data Mining или добыча знаний
- •Типы выявляемых закономерностей и этапы решения
- •Обзор используемых методов и алгоритмов
- •Классификация.
- •Кластеризации.
- •Задача ассоциации
- •Визуализация
- •Системы, реализующие Data Mining
- •Система PolyAnalyst
- •Работа с системой PolyAnalyst
- •Задание для самостоятельного выполнения.
- •Нейронные сети. Область применения нейронных сетей.
- •Теоретические аспекты нейронных сетей.
- •Последовательность этапов решения практических задач с использованием нейронных сетей и рекомендации по их проведению.
- •Программные системы для нейросетевого моделирования.
- •Программный пакет BrainMaker Professional.
- •Последовательность работы с пакетом BrainMaker Professional
- •Задания для самостоятельного выполнения:
- •Литература и источники.
- •Кондрашов Юрий Николаевич, Современные технологии интеллектуальной обработки информации.
- •101990 Москва, Малый Златоустинский пер. 7 Язык dmx Концепции языка dmx
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Детализация структуры
- •Детализация модели
- •Запрос значений столбца
- •Запрос содержимого модели
- •1. Витрины данных, как обособленная (специализированная) часть хд
- •2. Витрины данных (вид хд) , как промежуточная часть хд.
- •2. Кубы данных – оперативная аналиическая обработка (olap)
Метод кластеризации последовательностей
Алгоритм кластеризации последовательностей можно использовать для исследования данных, содержащих события, которые могут быть связаны путями, именуемыми последовательностями. Алгоритм находит самые распространенные последовательности, выполняя группирование или кластеризацию идентичных последовательностей.
В качестве примеров исследуемых последовательностей можно привести:
Данные, описывающие переходы пользователя в пределах веб-узла.
Данные, которые описывают порядок, в котором клиент добавляет в корзинку товары, выбранные в Интернет-магазине.
Более подробно первый пример заключается в следующем. Веб-узел некоторой компании собирает сведения о страницах, посещаемых пользователями узла, и о порядке посещения таких страниц. Поскольку компания предоставляет возможность заказа продукции компании через сеть Интернет, клиентам необходимо зарегистрироваться на узле. С каждым щелчком мыши клиента компания получает сведения о действиях в рамках узла, выполняемых под клиентским профилем. Применив в отношении таких данных рассматриваемый алгоритм кластеризации последовательностей, компания может найти группы или кластеры клиентов, для которых характерны похожие шаблоны или последовательности щелчков. Компания затем может использовать данные кластеры для анализа перемещения пользователей в рамках веб-узла и определения страниц, которые ближе всех связаны с продажей конкретного продукта, а также для прогнозирования страниц, которые клиент с наибольшей долей вероятности посетит в следующий раз.
Алгоритм похож на рассмотренный алгоритм кластеризации. Однако вместо поиска кластеров, содержащих похожие атрибуты, алгоритм кластеризации последовательностей находит кластеры, содержащие похожие последовательности.
Модель, создаваемая данным алгоритмом, содержит описания самых распространенных последовательностей в данных. Данные описания можно использовать для прогнозирования следующего вероятного шага в новой последовательности.
При создании кластера алгоритм также может учитывать такие столбцы в данных, которые не связаны непосредственно с последовательностями. Поскольку алгоритм включает несвязанные столбцы, можно использовать итоговую модель для определения связей, существующих между данными, включенными в последовательность, и данными, не включенными в последовательность.
Для определения кластеров и их последовательностей алгоритм использует метод кластеризации, называемый методом максимизации ожидания (EM). Т.е. для определения существования точки данных в кластере алгоритм использует вероятностный метод.
Один из входных столбцов исходных данных, используемых алгоритмом кластеризации последовательностей, является вложенной таблицей, содержащей наборы последовательностей (приобретенные товары или щелчки на веб-узле). Также необходим ключ, который идентифицирует каждую вложенную таблицу.
Чтобы определить, какие столбцы последовательности будут входными столбцами для кластеризации, алгоритм измеряет различия или расстояния между всеми возможными последовательностями в наборе данных. После измерения таких расстояний алгоритм сможет использовать столбец последовательности в качестве ввода для EM-метода кластеризации.
Алгоритм поддерживает следующие типы данных.
Типы содержимого входных столбцов |
Непрерывные, циклические, дискретные, дискретизированные, ключевые, ключевые последовательные, табличные и упорядоченные. |
Типы содержимого прогнозируемых столбцов |
Непрерывные, циклические, дискретные, дискретизированные, табличные и упорядоченные |
Рассматриваемый алгоритм кластеризации последовательностей поддерживает несколько параметров, влияющих на производительность и точность результирующей модели. В частности, можно задать максимальное количество состояний, которые последовательность может иметь.