Скачиваний:
94
Добавлен:
01.05.2014
Размер:
1.77 Mб
Скачать

4.10. Алгоритмы построения разделяющих гиперплоскостей

Алгоритмы такого типа возникают в детерминистской постановке задачи обучения распознаванию образов. Напомним, что в такой задаче, например для случая двух классов, предполагается, что плотности распределения вероятностей исосредоточены целиком в непересекающихся областях пространства признаков. Условием успешного решения задачи обучения служит предположение о существовании в спрямляющем пространстве линейной дискриминантной функции вида. Данная дискриминантная функция существует, если выпуклые оболочки разделяемых областейне пересекаются. Тогда она выражается как линейная комбинация признаков с коэффициентами, значения которых определены направляющим вектором некоторой гиперплоскости, разделяющей областив расширенном пространстве. Если выпуклые оболочки областейсоприкасаются, то разделяющая гиперплоскость является единственной. В противном случае существует множество таких гиперплоскостей. В качестве разделяющей принимается одна из них либо произвольно, либо удовлетворяющая некоторому условию оптимальности. Следовательно, разделяющая гиперплоскость должна правильно классифицировать объектыобучающей совокупности, то есть векторcдолжен удовлетворять системе линейных неравенств, гдеявляется инверсией.

Общий подход, используемый для нахождения решения такой системы линейных неравенств состоит в подборе некоторого критерия , который минимизируется при условии, что векторсявляется вектором решения. Тогда алгоритм строится как градиентная процедура поиска минимума критерия.

Как известно, применение градиентных процедур сопряжено с целым рядом проблем. Содержательно, эти проблемы определяются сложностью формы поверхности, вид которой определен видом экстремизируемого функционала : проблема начального решения, проблема вычисления градиента, проблема выбора величины шага, проблема локальности решения, скорости сходимости и прочее.

Но в данном случае большинство данных проблем можно легко решить, так как мы можем сами определить вид функционала , сделав его, естественно, как можно более простым. Наиболее естественно определить функционалкак число неверно классифицированных объектов. Очевидно, что данная функция критерия имеет единственный минимум, но вычисление ее градиента вызовет трудности, так как она является кусочно-постоянной. Поэтому более удобной является другая простая функция, так называемая функция перцептрона, имеющая вид

,

где - множество неверно классифицированных объектов обучающей совокупности.

Очевидно, что и достигает глобального минимумакогда множество неверно классифицированных объектов пусто. В этом случае векторспринадлежит области решений линейной разделяющей функции. Геометрически функцияпропорциональна сумме расстояний от неверно классифицированных объектов до разделяющей гиперплоскости. На рис.4.8 показан ее вид в двухмерном случае. Для расширенных векторов функция градиента имеет вид

, где,.

Пусть мы находимся на шаге sкорректировки вектораcs . Получим его новое значение

,

где длина очередного шага. Следовательно, мы получили выражение для целого класса рекуррентных градиентных процедур минимизации функции перцептрона.

Рис. 4.8. Функция перцептрона.

Пусть снова - бесконечная обучающая последовательность. Тогда обобщенная итерационная процедура минимизации функции критерия для случая двух классов запишется как

, где

.

В частности, для минимизации функции перцептрона получим

,,

где некоторая числовая последовательность, определяющая длину шага; коэффициентопределяет, что изменение вектораспроисходит лишь на тех шагахj, на которых очередной элементобучающей последовательности неверно классифицируется функцией, то есть; коэффициентвыполняет инверсию координат вектораxj, если, то есть. Шаг длиныделается в направлении наибольшего возрастания функции.

Последовательность можно определить по-разному, например,дает правило постоянного приращения. Впервые оно было предложено Ф.Розенблаттом для перцептронной модели мозга как реализация принципа обучения с поощрением. В более общем случае, например,, образуя убывающую последовательность, где

.

Можно доказать, что число шагов с корректировки векторасконечно. Дляэтот факт известен как теорема о сходимости перцептрона.

Следовательно, дискриминантная функция будет найдена с вероятностью 1 после конечного числа предъявлений объектов для распознавания. Алгоритмы такого вида называются конечно-сходящимися. Тем не менее, оценить, какая длина обучающей выборки является достаточной, в общем случае невозможно в принципе. Можно лишь оценить вероятность того, что дискриминантная функция уже обладает нужными свойствами на очередном шаге.

На практике длина обучающей совокупности конечна . Поэтому дискриминантная функция строится путем многократного циклического предъявления объектов обучающей последовательности. Если дискриминантная функциястроится за конечное число шагов, то параметрсперестанет изменяться после конечного числа циклов обучения. Следует отметить, что обратное утверждение, вообще говоря, неверно. А именно, циклически сходящийся алгоритм обучения не обязательно окажется конечно-сходящимся, так как существует конечная вероятность того, что обучающая выборка конечного размера не является в достаточной степени представительной выборкой из генеральной совокупности.

Соседние файлы в папке Методы анализа больших массивов данных