Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lection_SOEI-2-mod.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
602.62 Кб
Скачать

3. Методы обнаружения логических закономерностей

Методы обнаружения логических закономерностей можно считать частным случаем анализа многомерных данных. Основные отличия от классического (статистического) подхода к анализу многомерных данных заключаются в следующем:

- мы можем анализировать не только отдельные переменные, но и любые наборы значений, относящиеся к различным переменным;

- возможны самые различные представления значений переменных: в номинальных шкалах, дискретными значениями, интервальными и непрерывными значениями.

К наиболее известным методам поиска логических закономерностей относятся алгоритм «Кора», деревья решений и случайный поиск с адаптацией.

В алгоритме «Кора» анализируются все возможные конъюнкции вида

Ti1  Ti2  …  Tl (l меньше или равно l0),

где Т – элементарные события, а l0 – некоторое наперед заданное число.

Среди конъюнкций выделяются те, которые характерны (верны на обучающей выборке чаще, чем некоторый порог 1 - 1) для одного из классов и не характерны для другого (верны реже, чем в доле случаев 2). Если коэффициент корреляции между какими-либо двумя выделенными конъюнкциями по модулю более 1 - 3, то оставляется «наилучшая» из них с точки зрения различения классов, а если эквивалентны, то более короткая (имеющая меньшее l) или просто отобранная ранее. Параметры 1, 2, и 3 подбираются так, чтобы общее число отобранных (информативных) конъюнкций не превосходило некоторого числа n. Чтобы классифицировать новое наблюдение x, для него подсчитывается nl – число характерных для I-го класса отобранных конъюнкций, которые верны в точке х. Если nl является максимальным из всех, то принимается решение о принадлежности объекта I-му классу.

Деревья решений (decision trees) являются самым распространенным в настоящее время способом выявления логических закономерностей. Сущность этого алгоритма заключается в последовательном разбиении исходного множества на все большее количество подмножеств, причем сам процесс такого разбиения может быть графически выражен в виде «дерева» разбиений (выбора, решения и т.п.).на подклассы.

Разработаны различные алгоритмы для представления данных в виде дерева решений. В частности, одним из характерных алгоритмов является алгоритм CLS. Этот алгоритм циклически разбивает обучающие примеры на классы в соответствии с переменной, имеющей наибольшую классифицирующую силу. Каждое подмножество примеров или объектов, выделяемое такой переменной, вновь разбивается на классы с использованием следующей переменной с наибольшей классифицирующей способностью и т.д. Разбиение заканчивается, когда в подмножестве оказываются объекты лишь одного класса. В ходе процесса образуется дерево решений. Пути движения по этому дереву с верхнего уровня на самые нижние определяют логические правила в виде цепочек конъюнкций.

Алгоритм случайного поиска с адаптацией (СПА) предназначен для поиска закономерностей при наличии зависимости между признаками, относящимися к различным переменным.

Алгоритм работает следующим образом. Пусть имеется множество возможных событий Т = {Ti}, I = 1…p. Из этого множества требуется отобрать цепочки конъюнкций Ti1  Ti2  …  Tl заданной длины l, максимизирующие некоторый критерий J.

Случайным образом отбирается некоторое количество цепочек конъюнкций. Для отобранных цепочек вычисляются значения критерия J. Затем происходит повторный выбор из цепочек, выбранных на первом этапе, причем вероятность попадания в следующий этап тем выше, чем выше значение критерия J. Рассмотренный метод можно считать разновидностью генетического алгоритма. Трудоемкость этого алгоритма зависит от значения задаваемых параметров, таких, как количество испытаний, вероятности перехода на следующий уровень и др.

ЛЕКЦИЯ 21. Принятие решений. Основные понятия

Вопросы:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]