
- •Классификация задач иад по типам извлекаемой информации
- •В качестве методов решения задачи классификации могут использоваться:
- •2. Кластеризация – это выделение однородных групп данных.
- •Кластерный анализ в маркетинговых исследованиях
- •3. Ассоциативные правила – поиск связанных друг с другом событий.
- •Задачи классификации и прогнозирования - сходства и различия.
- •Тренд, сезонность и цикл
- •6. Аномалии – выявление аномальных значений в данных.
3. Ассоциативные правила – поиск связанных друг с другом событий.
Ассоциация определяется не на основе значений свойств одного объекта или события, а имеет место между двумя или несколькими одновременно наступающими событиями. При этом производимые правила указывают на то, что при наступлении одного события с той или иной степенью вероятности наступает другое. Количественно сила ассоциации определяется несколькими величинами; например, возможно использование следующих трех характеристики:
-
а) предсказуемость (predictability) определяет, как часто события Х и Y случаются вместе, в виде доли от общего числа событий X;
Так, в случае покупки телевизора (X) одновременно покупается видеомагнитофон в 65% случаев (Y);
-
б) распространенность (prevalence) показывает, как часто происходит одновременное наступление событий Х и Y относительно общего числа моментов зафиксированных событий;
Иными словами, насколько часто производится одновременная покупка телевизора и видеомагнитофона среди всех сделанных покупок;
-
в) ожидаемая предсказуемость (expected predictability) показывает предсказуемость, которая сложилась бы при отсутствии взаимосвязи между событиями;
Например, как часто покупался бы видеомагнитофон безотносительно к тому, покупался ли телевизор.
4. Выявление последовательностей – поиск цепочек, связанных во времени событий.
Подобно ассоциациям, последовательности имеют место между событиями, но наступающими не одновременно, а с некоторым определенным разрывом во времени. Таким образом, ассоциация есть частный случай последовательности с нулевым временным лагом.
Если видеомагнитофон не был куплен вместе с телевизором, то в течение месяца после покупки нового телевизора покупка видеомагнитофона производится в 51% случаев.
5. Прогнозирование – попытка найти шаблоны, адекватно отражающие динамику поведения системы, т.е. предсказание поведения системы в будущем на основе исторической информации.
Форма предсказания, которая на основе особенностей поведения текущих и исторических данных оценивает будущие значения определенных численных показателей.
В задачах подобного типа наиболее часто используются традиционные методы математической статистики, а также нейронные сети.
Прогнозирование (от греческого Prognosis), в широком понимании этого слова, определяется как опережающее отражение будущего. Целью прогнозирования является предсказание будущих событий.
Решение задачи прогнозирования сводится к решению таких подзадач:
-
выбор модели прогнозирования;
-
анализ адекватности и точности построенного прогноза.
Задачи классификации и прогнозирования - сходства и различия.
Так в чем же сходство задач прогнозирования и классификации?
При решении обеих задач используется двухэтапный процесс построения модели на основе обучающего набора и ее использования для предсказания неизвестных значений зависимой переменной.
Различие задач классификации и прогнозирования состоит в том, что в первой задаче предсказывается класс зависимой переменной, а во второй - числовые значения зависимой переменной, пропущенные или неизвестные (относящиеся к будущему).
Например, рассматривая туристическое агентство, определение класса клиента является решением задачи классификации, а прогнозирование дохода, который принесет этот клиент в будущем году, будет решением задачи прогнозирования.
Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов.
Два принципиальных отличия временного ряда от простой последовательности наблюдений:
-
Члены временного ряда, в отличие от элементов случайной выборки, не являются статистически независимыми.
-
Члены временного ряда не являются одинаково распределенными.