Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Teoria_Obrabotki_Informatsii.docx
Скачиваний:
8
Добавлен:
01.05.2025
Размер:
60.7 Кб
Скачать

12 Февраля 2013

Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты для которых известны значения, как независимых, так и зависимых переменных. На основании обучающей выборки строиться модель, определение значения зависимой переменной. Ее часто называют функцией классификации или регрессии. К обучающей выборке предъявляются следующие требования:

1. кол-во объектов входящих в выборку должно быть достаточно большим.

2. в выборку должны входить объекты представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии.

3. Для каждого класса задачи классификации или для каждого интервала области значений их задачи регрессии выборка должны содержать достаточное кол-во объектов.

На втором этапе построенную модель применяют к анализируемому объекту (к объектам с неопределенным значением зависимых переменных). Основные проблемы с которыми сталкиваются при решении задач классификации и регрессии - это неуд. качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения.

Задача поиска ассоциативных правил.

Поиск ассоциативных правил является одним из самых популярных приложений. Суть задачи заключается в определении часто встречающихся наборов объектов в большом множестве таких наборов. Данная задача является частным случаем задачи классификации. Например, в медицине анализу могут подвергаться симптомы и болезни наблюдаемые у пациентов. В этом случае знания о том какие сочетания болезней и симптомов встречаются наиболее часто помогают в будущем правильно ставить диагноз. При анализе часто вызывает интерес последовательность происходящих событий. При обнаружении закономерностей в таких последовательностях можно с некоторой долей вероятности предсказать появление событий в будущем, что позволяет принимать более правильного решения. Такая задача является разновидностью задачи поиска ассоциативных правил и называется сиквенциальным анализом. Основным отличием задачи сиквенцианального анализа от поиска ассоциативных правил является установление отношения порядка между исследуемыми наборами. При анализе последовательности событий происходящих во времени объектами таких наборов являются события, а отношения порядка соответствуют хронологии появления. Сиквенциональный анализ широко используется, например, в телекоммуникационных компаниях для анализа данных об авариях на различных узлах сети. Информация о последовательности совершения аварий может помочь в обнаружении неполадок и предупреждение новых аварий. Например, если известна последовательность сбоев, {Е52713...} где Еi - код сбоя, то на основании факта появления сбоя Е2 можно сделать вывод о скором появлении сбоя Е7. Зная это можно принять профилактические меры. Если дополнительно обладать знаниями о времени между сбоями то можно предсказать не только факт его появления, но и время, что часто не менее важно.

Задача кластеризации.

Состоит в разделении на группы "похожих объектов" называемых кластерами. Кластер с английского - сгусток, пучок, группа. Часто такая задача называется кластерным анализом. Кластеризация может применяться практически в любой области, где необходимо исследование экспериментальных или статистических данных. Традиционным примером является таблица элементом Менделеева.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]