19 Февраля 2013
Базовые методы.
К базовым методам Data Mining принято относить алгоритмы, основанные на переборе. Здесь с увеличением кол-ва данных объем вычисления растет экспоненциально. Что, при большом объеме делает решение любой задачи таким методом практически невозможным. Оптимизация подобных алгоритмов сводиться к приведению зависимости кол-во операций от кол-ва исследуемых данных к функции линейного вида.
Основное достоинство – простота, как с точки зрения понимания, так и реализации. К недостаткам – отсутствие формальной теории на основании которой строятся такие алгоритмы, а следовательно и сложности связанной с их исследовании и развитии. К базовым методом Data Mining можно отнести и подходы использующие элементы теории статистики.
Нечетная логика. Генетические алгоритмы. Нейронные сети.
21 Февраля 2013
Нечеткая логика.
Основным способом исследования задач анализа данных является их отображение на формализованный язык и последующий анализ полученной модели. Неопределенность по объему отсутствующей информации можно поделить на три большие группы:
1. Неизвестность
2. Неполнота (недостаточность, неадекватность)
3. Недостоверность
Недостоверность бывает физической (источником является внешняя среда) и лингвистической (возникает в результате словестного обобщения). Выделяют два вида физической неопределенности:
1. Неточность - неточность измерений, значений определенной величины, выполняемых физическими приборами.
2. Случайность - или наличие во внешней среде нескольких возможностей, каждой из которых случайным образом может стать действительностью и предполагается знание соответствующего закона распределения вероятности.
Выделяют два вида лингвистической неопр.:
1. Неопределенность значения слов (многозначность, расплывчатость, неясность, нечеткость)
2. Неоднозначность смысла фраз.
Для обработки физических неопределённостей успешно используются методы теории вероятностей и классическая теория множеств, однако с развитием систем использующих методы теории ИИ, в которых требуется обрабатывать понятия и отношения естественного языка, возникла необходимость множества формальных методов, с целью учета лингвистического неопределённости задач.
Определим три особенности НЛ:
1. Правило принятие решений являются условиями высказываниями типа "если... то..." и реализуются с помощью механизма логического вывода.
2. Место одного четкого обобщение нечеткая логика оперирует с множством частных правил.
3. Правило в виде "если А то Б" позволяют решать задачи классификации в режиме диалога с оператором. Что способствует повышению качества классификатора уже в процессе эксплуатации.
26 Февраля 2013
Нейронные сети.
Модель искусственного нейрона.
ИНС (искусственные нейронные сети) - упрощенная модель биологического мозга, точнее нервной ткани. ИНС представляет собой совокупность простых вычислительных элементов - искусственных нейронов, каждый из которых обладает определенным кол-вом входов (дендритов) и единственным выходом (аксоном), разветвление которого подходят к синапсам, связывающим его с другими нейронами. На входы нейрона поступает информация из вне или от других нейронов. Каждый нейрон характеризуется функцией преобразования входных в сигналов в выходной (функция возбуждения нейрона). Нейроны в сети могут иметь одинаковые или разные функции возбуждения. Модель искусственного нейрона представляет собой дискретно-непрерывный преобразователь информации. Информация, поступающая на вход нейрона, суммируется с учетом весовых коэффициентов wi, сигналов xi, при этом I изменяется от одного до n, где n - размерность пространства входных сигналов. Потенциал нейрона определяется по формуле P=сумма от i до n( wi*xi). Взвешенная сумма поступивших сигналов преобразуется с помощью передаточной функции f(p) в выходной сигнал Y, который передается другим нейронам в сети, Y=f(p). Вид передаточный (активационный) функции является важнейшей характеристикой нейрона. В общем случае эта функция может быть ступенчатой (пороговой), линейной или не линейной.
Тип функции переноса выбирается с учетом конкретной задачи, решаемой с применением нейронных сетей. Например, в задачах аппроксимации и классификации, предпочтения отдают сигмоидальной кривой.
Нейронная сеть представляет собой совокупность искусственных нейронов, организованных слоями. При этом выходы нейронов одного слоя соединяются в входами другого слоя. В зависимости от топологии соединений нейронов ИНС подразделяют на одно и много уровневые, с обратными связями и без них.
Чтобы построить ИНС для решения конкретной задачи нужно выбрать тип соединения нейронов, определить вид передаточных элементов и подобрать весовые коэффициенты межнейронной связи.
Построение нейронной сети.
При построении модели ИНС необходимо точно определить задачи, которые будут решаться с ее помощью. Первым этапом построения является тщательный отбор входных данных, влияющих на ожидаемый результат. На втором этапе осуществляется преобразование исходных данных и выбираются способы предоставления информации. Эффективность ИНС повышается если входные и выходные величины приведены к некоторому стандарту, например от нуля до единицы или от -1 до 1. Третий этап заключается в конструировании ИНС, то есть проектировании ее архитектуры (число слоев и нейронов в них). Четвертый этап связан с обучением сети. На пятом этапе проводиться тестирование полученной модели ИНС на независимой выборке примеров.
