Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИАС / Лекции по ИАС.doc
Скачиваний:
221
Добавлен:
17.05.2015
Размер:
3.26 Mб
Скачать

2. Методы Data Mining

2.1. Базовые методы

К базовым методам Data Mining принято относить прежде всего алгоритмы,основанные на переборе. Простой перебор всех исследуемых объектов требует O(2N) операций, где N – количество объектов. Следовательно, с увеличением количества данных

объем вычислений растет экспоненциально, что при большом объеме делает решение любой задачи таким методом практически невозможным.

Для сокращения вычислительной сложности в таких алгоритмах, как правило,

используют разного вида эвристики, приводящие к сокращению перебора. Оптимизацияподобных алгоритмов сводится к приведению зависимости количества операций отколичества исследуемых данных к функции линейного вида. В то же время, зависимостьот количества атрибутов, как правило, остается экспоненциальной. При условии, что ихнемного(в подавляющем большинстве случаев их значительноменьше, чем данных),такая зависимость является приемлемой.

Основным достоинством данных алгоритмов является их простота, как с точкизрения понимания, так и реализации. К недостаткам можно отнести отсутствиеформальной теории, на основании которой строятся такие алгоритмы, а следовательно,сложности,связанные с их исследованием и развитием.

К базовым методам Data Mining можно отнести также и подходы, использующиеэлементы теории статистики. В связи с тем, что Data Mining является развитиемстатистики,такихметодовдостаточномного. Основнаяихидеясводится ккорреляционному, регрессионному и другим видам статистического анализа. Основнымнедостатком является усреднение значений, что приводит к потере информативностиданных. Это всвою очередь приводит к уменьшению количества добываемых знаний.

2.2. Нечеткая логика

Основным способом исследования задач анализа данных является их отображение

на формализованный язык и последующий анализ полученной модели. Неопределенность

по объему отсутствующей информации у системного аналитика можно разделить на трибольшие группы:

 неизвестность;

 неполнота (недостаточность,неадекватность);

 недостоверность.

Недостоверность бывает физической (источником ее является внешняя среда) и

лингвистической (возникает в результате словесного обобщения и обусловливаетсянеобходимостью описания бесконечного числа ситуаций ограниченным числом слов заограниченное время).

Выделяют два вида физической неопределенности:

 неточность(неточностьизмеренийзначений определеннойвеличины,выполняемых физическими приборами);

 случайность (или наличие во внешней среде нескольких возможностей,каждаяизкоторыхслучайнымобразомможетстатьдействительностью;

предполагается знание соответствующего закона распределения вероятностей).

Выделяют два вида лингвистической неопределенности:

 неопределенность значений слов (многозначность, расплывчатость, неясность,нечеткость). Она возникает в случае, если отображаемые одним и тем же словом объектызадачи управления различны;

 неоднозначностьсмыслафраз(выделяютсинтаксическую и

семантическую).

Для обработки физических неопределенностей успешно используются методы

теории вероятностей и классическая теория множеств. Однако с развитием систем,использующихметодытеорииискусственногоинтеллекта, вкоторыхтребуетсяобрабатывать понятия и отношения естественного языка, возникла необходимость расширениямножестваформальныхметодов сцельюучета лингвистическойнеопределенности задач.

Основной сферой применения нечеткой логики было и во многом остается

управление. Не случайно основоположником теории нечетких множеств стал известныйспециалист в области управления Л. Заде. Дело в том, что в исходную идею о нечеткой

логике очень хорошо укладывались представления об управлении и процессах принятия решений. А поскольку подобные задачи возникают почти во всех технологическихпроцессах, потребности в развитии данной теории и возможности ее приложениядостаточно широки.

С увеличением размеров и сложности системы существенно усложняется ее

моделирование с помощью известных математических выражений. Это связано сувеличением числа переменных и параметров, повышением сложности измеренияотдельныхпеременных. В результате,созданиеадекватноймоделистановитсяпрактически невозможным. Вместо этого Л. Заде предложил лингвистическую модель,которая использует не математические выражения, а слова, отражающие качество. Применение словесной модели не обеспечивает точность, аналогичную математическомумоделированию, однако создание хорошей, качественной модели возможно. В этомслучае предметом обсуждения становится нечеткость слов языка описания системы.

Человеку в процессе управления сложными объектами свойственно оперироватьпонятиями и отношениями с расплывчатыми границами. Источником расплывчатости является существование классов объектов, степень принадлежности к которым –величина, непрерывно изменяющаяся от полной принадлежности к нему до полнойнепринадлежности. Обычноематематическоепонятиемножества,основанноенабинарной характеристической функции, не позволяет формализовать такое описание.

Введение Л. Заде двух основных исходных понятий: нечеткого множества и лингвистическойпеременнойсущественно расшириловозможностиформализацииописанийподобныхсложныхсистем. Подобныемоделиполучилиназвание лингвистических.

Рассмотрим основные достоинства нечеткой логики,наиболее ярко проявляющиесяна примере общей задачи нечеткого управления. Если говорить кратко, нечеткая логикапозволяет удачно представить мышление человека. Очевидно, что в повседневнойдеятельности человек никогда не пользуется формальным моделированием на основематематических выражений; он не ищет одного универсального закона, описывающеговсе окружающее. Он использует нечеткий естественный язык. В процессе принятия решения человек легко овладевает ситуацией, разделяя ее на события, находит решениесложных проблем, применяя для отдельных событий соответствующие, по опыту, правилапринятия решений, причем используя большое количество иногда даже противоречивыхкачественных критериев. Таким образом, перед человеком возникает ряд локальныхмоделей, описывающих свойства фрагментов объектов в определенных условиях. Крайневажным является то, чтовсе модели обладают некой общностью и очень просты дляпонимания на качественном уровне. Ярким примером каркаса подобной словесноймодели является конструкция «если...,то...».

Теперь определим три основные особенности нечеткой логики:

 правилапринятия решений являютсяусловнымивысказываниямитипа

«если...,то...» и реализуются с помощью механизма логического вывода;

 вместо одного четкого обобщенного правила нечеткая логика оперирует

сомножествомчастныхправил. Приэтомдлякаждойлокальнойобласти распределенногоинформационногопространства, для каждой регулируемой величины,для каждой цели управления задаются свои правила. Это позволяет отказываться оттрудоемкого процесса свертки целей и получения обобщенного целевого критерия, что, всвою очередь,дает возможность оперировать даже с противоположными целями;

 правила в виде «если ..., то...» позволяют решать задачи классификации

в режиме диалога с оператором, что способствует повышению качества классификаторауже в процессе эксплуатации.

Таким образом, сравнивая, нетруднозаметитьсущественныеобщиечертынечеткой логики и мышления человека, поэтому методы управления на основе нечеткой

логики можно считать во многом эвристическими. Эвристические приемы решения задач

основаны не на строгих математических моделях и алгоритмах, а на соображениях

«здравого смысла».

Развитием эвристических алгоритмов обработки нечетких данных можно считать

самоорганизующиеся системы. В любом случае исходным ядром последних являетсяобработка нечеткостей, а следовательно, используются принципы мышления человека. Однакосамоорганизующиесясистемыидутдальше иначинают развиваться,настраиваться на объект, в определенном смысле, самостоятельно, используя получаемую в процессе работыинформацию об объекте управления.

В общем случае можно предложить следующую схему реализации процесса

управления: распознавание → предсказание → идентификация → принятие решения →

управление.

Можно показать, что все эти задачи относятся к одному классу и могут быть решены самоорганизующимися системами.

Соседние файлы в папке ИАС