Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
shp.docx
Скачиваний:
87
Добавлен:
27.09.2019
Размер:
807.77 Кб
Скачать

40. Data Mining. Классификация.

Data mining – это процесс выделения их данных неявной объективной и практически полезной информации и представление ее в виде, пригодном для использования.

выделяют 5 стандартных типов закономерностей, которые позволяют выявить методы Data Mining:

1) ассоциация

2) классификация

3) кластеризация

4) Последовательность

5) прогнозирование

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. По этим признакам новый объект можно отнести к той или иной группе.

Цель процесса классификации состоит в том, чобы построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и на выходе получает значение зависимого атрибута.

Классификатор – некая сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков.

Процесс классификации в общем случае состоит из 2 этапов:

1) Конструирование модели – описание множества предопределенных классов

2) использование модели – классификация новых или неизвестных знаний, оценка правильности и точности модели.

Уровень точности – процент правильно классифицированных примеров в тестовом множестве.

Тестовое множество не должно зависеть от обучающего множества.

Методы, применяемые для решения задач классификации:

1) деревья решений

2) искусственные НС

3) Байесовская классификация

4) метод опорных векторов

5) статистические методы, в частности, линейная регрессия

6) генетические алгоритмы

7) метод ближайшего соседа

Точность классификации – оценка уровня ошибок.

Оценка точности классификации может производиться при помощи кросс-проверки (процедуры оценки точности классификации на данных из тестового множества и кросс-проверочного множества)

Если точность классификации на обучающей выборке примерно равна точности на проверочной, то модель прошла кросс-проверку.

Оценивание методов классификации можно проводить из следующих характеристик:

1) скорость создания модели для классификации и скорость ее использования

2) Робастность – устойчивость к данным с помехами

3) Интерпретируемость – возможность понимания модели аналитиком

4) Надежность

41. Data Mining. Кластеризация.

Data mining – это процесс выделения их данных неявной объективной и практически полезной информации и представление ее в виде, пригодном для использования.

выделяют 5 стандартных типов закономерностей, которые позволяют выявить методы Data Mining:

1) ассоциация

2) классификация

3) кластеризация

4) Последовательность

5) прогнозирование

Кластеризация предназначена для разбиения совокупности объектов на отдельные группы.

Кластеризация отличается от классификации тем, что сами группы заранее не заданны. DM самостоятельно выделяет группы на основе набора признаков. результатом кластеризации является разбиение на группы.

Цель кластеризации – поиск соответствующих структур данных.

Кластеризация является описательной процедурой и не делает никаких статистических выводов, но позволяет изучить внутреннюю структуру данных, которые исследуются.

Кластером можно считать группу объектов, в которой присутствует:

1) внутренняя однородность

2) Внешняя изолированность

Подходы к кластеризации: алгоритмы, основанные на разделении данных (в том числе итеративные):

1) разделение объектов на k-кластеры и итеративное перераспределение объектов для улучшения кластеризации

2) Методы, основанные на концентрации объектов

3) Грит-методы – основаны на квантовании объектов в грит-стуктуры

4)Иерархические алгоритмы, например, агломерация

5) Модельные методы

Оценка качества кластеризации:

Используются следующие процедуры:

1) ручная провурка

2) Установление контрольных точек и проверка не полученных кластерах

3) Проверка стабильности кластеризации путем добавления новых переменных или объектов

4)Сравнение полученных кластеров с использованием различных методов

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]