Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кондрашов ВСЕ.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
11.52 Mб
Скачать

Метод временных рядов.

Алгоритм временных рядов представляет собой алгоритм регрессии и может использоваться для прогнозирования непрерывных данных. Прогнозирование основывается только на тенденциях, извлекаемых алгоритмом из исходного набора данных во время создания модели. На рисунке 7 показана типичная модель прогнозирования.

Рисунок 7

Модель, изображенная на рисунке, состоит из двух частей: данные предыстории и спрогнозированные значения.

Важной особенностью рассматриваемого алгоритма временных рядов является его способность выполнять перекрестный прогноз. То есть при обучении алгоритма двумя отдельными, но связанными друг с другом рядами можно использовать итоговую модель для прогнозирования исхода одного ряда на основе поведения другого ряда. Например, наблюдаемые продажи одного продукта могут оказать влияние на прогнозируемые продажи другого продукта.

Для работы алгоритма временных рядов требуется, чтобы прогнозируемый столбец или столбцы содержали непрерывные данные.

В таблице перечислены конкретные типы содержимого входных и прогнозируемых столбцов, поддерживаемые алгоритмом временных рядов.

Типы содержимого входных столбцов

Непрерывные, Ключевые, Идентификатор времени и табличные

Типы содержимого прогнозируемых столбцов

Непрерывные и табличные

Алгоритм временных рядов поддерживает несколько параметров, которые влияют на производительность и точность итоговой модели. В частности, минимальное количество необходимых временных срезов, метод, используемый для заполнения пропусков в исторических данных, подсказки для алгоритма определения периодичности данных и др.

Метод кластеризации

Алгоритм использует итерационные методы для группировки объектов в кластеры []. Результаты кластеризации можно также использовать для просмотра данных, выявления в них аномалий и создания прогнозов.

Модели кластеризации определяют связи в наборе данных, который невозможно логически получить с помощью простого анализа.

Алгоритм кластеризации не требует назначать целевой столбец, необходимый для создания модели класcификации. Алгоритм кластеризации обучает модель строго на основе связей, существующих в данных и на основе кластеров, идентифицированных алгоритмом.

Работа алгоритма построена на следующих принципах. Алгоритм кластеризации сначала определяет связи в наборе данных и формирует ряд кластеров на основе этих связей. Точечная диаграмма хорошо показывает (см. рисунок 8), как алгоритм группирует данные и представляет все варианты в наборе данных (каждый вариант является точкой на диаграмме).

Рисунок 8

После первого определения кластеров алгоритм вычисляет, как кластеры представляют группирование точек, а затем пытается повторно определить группирования, чтобы создать кластеры, которые лучше представляют данные. Алгоритм последовательно выполняет этот процесс до тех пор, пока улучшить результаты, определяя кластеры, будет невозможно.

Важным различающим элементом алгоритма кластеризации является способ, которым алгоритм принимает решение о разбиении на кластеры. Алгоритм кластеризации использует два метода для вычисления, насколько хорошо точки соответствуют кластерам: максимизация ожиданий (EM) и K-среднее. Для кластеризации EM алгоритм использует вероятностный метод для определения того, что точки данных существуют в кластере. Для метода K-среднее алгоритм использует меру расстояния для назначения точки данных ближайшему кластеру.

Метод K-средних присваивает членство в кластере по расстоянию. Объект принадлежит тому кластеру, к центру которого он ближе всего (измеряется принадлежность по эвклидову расстоянию). После того как все объекты будут распределены по кластерам, центр кластера перемещается к среднему всех присвоенных объектов. Этот способ считается «жесткой кластеризацией», поскольку каждый объект присваивается одному и только одному кластеру. Кластеры не пересекаются.

Метод ЕМ использует вероятностный показатель, а не строгое измерение расстояния. Вместо выбора точки для каждого измерения и вычисления расстояния, метод ЕМ рассматривает для каждого измерения кривую нормального распределения (со средним значением и стандартным отклонением). Когда точка попадает в кривую, она присваивается кластеру с определенной вероятностью. Так как кривые для различных кластеров могут перекрываться, то любая точка может принадлежать к нескольким кластерам с присвоенной вероятностью для каждого. Такой метод считается «мягкой кластеризацией», поскольку кластеры не имеют четкой границы и пересекаются. Этот метод позволяет находить невыделенные кластеры или плотные области.

Используемый алгоритм кластеризации может работать и с дискретными переменными (можно присвоить случайные распределения для каждого дискретного атрибута). Более подходит метод ЕМ.

Исходные данные должны содержать ключевой столбец и входные столбцы. Входные столбцы также можно определить как прогнозируемые.

Прогнозируемые столбцы для создания кластеров не используются. Их распределения в кластерах вычисляются после построения кластеров.

Алгоритм поддерживает следующие типы данных.

Типы содержимого входных столбцов

Непрерывные, циклические, дискретные, дискретизированные, ключевые, табличные и упорядоченные

Типы содержимого прогнозируемых столбцов

Непрерывные, циклические, дискретные, дискретизированные, табличные и упорядоченные

Рассматриваемый алгоритм кластеризации поддерживает несколько параметров, влияющих на производительность и точность результирующей модели. В частности, метод кластеризации, используемый алгоритмом (масштабируемая и немасштабируемая EM, масштабируемые или немасштабируемые K-средние), начальное число, используемое для случайного формирования кластеров в начальной стадии построения модели, примерное количество кластеров, строящихся данным алгоритмом (если это примерное количество кластеров не может быть построено на исходных данных, то алгоритм строит столько кластеров, сколько возможно) и др.

Масштабируемая кластеризации используется для решения проблемы нехватки памяти - чтобы хранить весь набор вариантов в памяти.