Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
STBDiIS шпоры1.doc
Скачиваний:
16
Добавлен:
26.09.2019
Размер:
275.46 Кб
Скачать

40.Функциональные возможности odm. Алгоритм Support Vector Machine.

Дата мининг--это процесс обнаружения знаний в сырых данных , ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации данных, необходимых для принятия решений в различных сферах человеческой деятельности.

ОДМ(оракле дата мининг)- набор функций. особенности дата мининг:1.работа в архитектуре клиент-сервер.2.широкое использование техники параллельных вычислений.3.высокая степень масштабируемости.

Прогнозирующие модели и дескрипторные(описательные).

Прогнозирующие.1.классификации.2.регрессии.3.поиск сущ-х атрибутов.

1.наиве бейс работает быстрее , т.е время построения модели меньше.2.предназанчен для небольшого кол-ва атрибутов(<200).3.точность меньше, чем у аналога(adaptive bayes)

ABN:

1.большое кол-во атрибутов.2.наглядность моделей, которые получаются. ,т.е можно посмотреть на результат. 3.модели более точные, чем у NB.4.больше возможностей и параметров, чем у NB.

Регрессия применяется для прогнозирования непрерывных величин. Основная задача- выявление атрибутов, наиболее важных для прогнозирования целевых значений.

Enchanced k-means.

1.кол-во кластеров задается пользователем.2.может работать с небольшим кол-вом только числовых атрибутов.3.кол-во обрабатываемых записей неограниченно.

О-Claster.

Алгоритм Support Vector Machine.(метод опорных векторов)

F(x)=ax+b, of(x)=-1, дельта f(x)=1, эмпирический риск-уровень ошибки классификации на тренировочном наборе.

Недостаток:и: исполняется на эмпирической выборке.

Достоинства: небольшая выборка для построения модели за счет использования опорных векторов.

41.Функциональные возможности odm. Алгоритм k-means. Проверка качества кластеризации.

Дата мининг--это процесс обнаружения знаний в сырых данных , ранее неизвестных, практически полезных, необходимых для принятия решений в различных сферах человеческой деятельности.

ОДМ(оракле дата мининг)- набор функций. ОСОБЕННОСТИ ДАТА МИНИНГ:1.работа в архитектуре клиент-сервер.2.широкое использование техники параллельных вычислений.3.высокая степень масштабируемости.

Прогнозирующие.1.классификации.2.регрессии.3.поиск сущ-х атрибутов.

1.наиве бейс работает быстрее , т.е время построения модели меньше.2.предназанчен для небольшого кол-ва атрибутов(<200).3.точность меньше, чем у аналога(adaptive bayes)

ABN:

1.большое кол-во атрибутов.2.наглядность моделей, которые получаются. 3.модели более точные, чем у NB.4.больше возможностей и параметров, чем у NB.

Регрессия применяется для прогнозирования непрерывных величин. Основная задача - выявление атрибутов, наиболее важных для прогнозирования целевых значений.

Enchanced k-means.

1.кол-во кластеров задается пользователем.2.может работать с небольшим кол-вом только числовых атрибутов.3.кол-во обрабатываемых записей неограниченно.

О-Claster.

Алгоритм k-means.

Центр кластера- это среднее геометрическое место точки в пространстве. Радиус кластера определяется либо по среднеквадратичному отклонению объектов , либо радиусом кластера.

Спорный объект- это объект, по мере сходства может быть отнесен к нескольким кластерам.

2 предложения работы кластера:1.рассматриваемые признаки объекта в принципе допускают желательное разбиение объектов на кластеры.2.выбран правильный масштаб и единицы измерения признаков.

Алгоритм К-средних. Строит к-кластеров, расположенных на максимально большом расстоянии друг от друга. Кол-во кластеров можно задать.

Описание алгоритма:1.первоначальное распределение объектов по кластерам(выбирается К центров кластеров).Выбор начальных центров:а)выбор К наблюдений для максимизации нач. расстояния.б)случайный выбор К наблюдений.в)выбор первых К наблюдений.

2.Итеративный процесс.1.вычисляем значение центра.2.переопределяем кластеры.

До тех пор пока не выполнено 1 из условий:1.кластерные центры стабилизировались.2.число итераций равно максимально возможному.

Достоинства:1.простота использования.2.быстрота использования.3.понятность и прозрачность самого алгоритма.

Недостатки:1.чувствителен к выбросам, кот-е могут искажать.2.на больших объемах данных может работать медленно.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]