Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
L_SOEI_Part1.doc
Скачиваний:
17
Добавлен:
24.11.2019
Размер:
458.75 Кб
Скачать

3. Типы закономерностей

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:

  • ассоциацию;

  • последовательность;

  • классификация;

  • кластеризация;

  • прогнозирование.

Ассоциация имеет место в том случае, если несколько событий каким-либо образом связаны друг с другом.

Последовательность – когда существует цепочка связанных во времени событий.

Классификация позволяет выявлять признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования на этой основе правил классификации для еще не расклассифицированных объектов.

Кластеризация отличается от классификации тем, что группы (правила классификации) заранее не созданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

  1. Классы систем Data Mining

Data Mining является многодисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, других методов искусственного интеллекта, теории баз данных и др. Это влечет за собой обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какой-то ключевой компонент, на который делается главная ставка.

Рассмотрим детальнее существующие классы систем Data Mining

1) Предметно-ориентированные аналитические системы – это системы, основанные на детальном знании предметной области и ее закономерностей. Наиболее широкий класс таких систем, получивший распространение в области исследования (предсказания) финансовых рынков носит название «технический анализ». Он представляет собой совокупность нескольких десятков метода прогноза динамики цен и выбора оптимальной структуры инвестиционного портфеля, основанных на различных эмпирических моделях динамики рынка. Эти методы часто используют несложный статистический аппарат, но максимально учитывают сложившуюся в своей области специфику (профессиональный язык, системы различных индексов и др.).

2) Статистические пакеты – последние версии почти всех статистических пакетов включают наряду с традиционными статистическими методами также элементы Data Mining, хотя основное внимание в них все же уделяется традиционным статистическим методам.

Недостатком систем такого класса считают ограниченный набор возможностей в области Data Mining, а также требования к специальной подготовке пользователя.

3) Нейронные сети – это большой класс систем, архитектура которых имеет аналогию (как теперь известно, довольно слабую) с построением нервной ткани из нейронов. Наиболее распространены структуры, содержащие несколько слоев искусственных нейронов. На нейроны первого слоя подается входная информация (сигнал), а затем происходит послойная обработка информации. Выходной сигнал рассматривается как ответ. За счет подбора коэффициентов связей между нейронами различных уровней можно добиться того, чтобы при определенном классе входных сигналов получался заданный класс выходных. При такой постановке вопроса самым важным этапом является «тренировка» или обучение нейросети.

Такой подход во многих случаях позволяет находить решения, которые невозможно получить другими способами, что и привело к широкому распространению нейросетевых технологий. К недостаткам нейросетей необходимо отнести, во-первых, необходимость в большом объеме обучающей выборки, и, во-вторых, невозможность обоснования того, на основании каких же закономерностей и аргументов был получен данный результат.

4) Системы рассуждений на основе аналогичных случаев (case based reasoning – CBR). В этих системах для того, чтобы сделать прогноз на будущее, или выбрать правильное решение, находят в прошлом близкие аналоги данной ситуации и выбирают тот ответ, который был для них правилен. Поэтому этот метод называют еще методом ближайшего соседа.

Такие системы показывают неплохие результаты для тех областей, где правила относительно стабильны и имеется обширный аналитический материал по прошлым ситуациям.

Недостатки таких систем следующие:

  • при таком подходе вообще не создается какой-либо модели, что не позволяет улучшить или модифицировать решение;

  • выбор меры «близости» достаточно произволен, в результате чего не всегда можно быть уверенным в том, что аналог достаточно близок для получения адекватного ответа в текущей ситуации.

5) Деревья решений (decision trees). В этом случае создается иерархическая структура решающих правил типа «если – то», имеющая вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах (точках ветвления) этого дерева, начиная с его корня (широкой части).

Популярность подхода связана с его наглядностью и понятностью. Недостаток в том, что помимо уже сформулированных правил никакая информация не используется, в результате чего полученное таким способом решение может быть далеко не самым оптимальным.

6) Эволюционное программирование. В этом случае гипотезы о виде зависимости целевой переменной от других переменных формулируются в виде программ на некотором (внутреннем) языке программирования. Процесс получения решения строится как эволюция в мире программ. (этим метод похож на генетические алгоритмы). Когда система находит некую программу, которая хотя в некоторой степени правильно отвечает на вопрос, она начинает вносить в нее небольшие изменения до получения максимально точного ответа. К системам этого класса относится довольно хорошо известный русскоязычный программный продукт PolyAnalyst.

Другое направление эволюционного программирования связано с поиском зависимости целевых переменных от остальных в виде функций какого-то определенного вида. В одном из наиболее удачных алгоритмов этого типа – методе группового учета аргументов (МГУА)- зависимость ищут в форме полинома.

7) Генетические алгоритмы. Data Mining – не основная область их использования. Их можно рассматривать скорее как мощное средство решения комбинаторных задач и задач оптимизации. Тем не менее генетические алгоритмы вошли в стандартный набор методов Data Mining, почему и рассматриваются здесь.

Первый шаг при построении генетических алгоритмов – это колировка исходных логических закономерностей. Такие отдельные коды именуют хромосомами, а весь набор – популяцией хромосом. Популяция обрабатывается с помощью процедур, аналогичных биологи ческой эволюции – репродукции, мутаций и т.п. Как правило, создают несколько наборов генетических алгоритмов и выбирают более совершенную линию.

Недостатки этого метода в том, что исходные правила (хромосомы), как и в методе деревьев, могут быть далеко не полными. Второе – как и в реальной хизни здесь возможны тупики, и, наоборот, скрещивание неперспективных линий может дать потомка, намного превосходящего потомков от перспективных линий.

8) Алгоритмы ограниченного перебора. Вычисляют частоты комбинаций простых логических событий в подгруппах данных.. Ограничением служит длина комбинации простых логических событий. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации и других видов закономерностей в данных (выше частота – выше связь).

Наиболее известным представителем этого класса продуктов является программа WizWhy фирмы Wizsoft. В настоящее время этот продукт является одним из лидеров в области Data Mining и демонстрирует более высокие результаты при решении практических задач по сравнению с остальными методами Data Mining.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]