
3 курс (заочка) / Доклад - Data Mining / Полезности по теме / Data Mining хорошая методичка
.pdfформальные конструкции, вид которых зависит от используемого метода Data Mining. Этот процесс выполняется на стадии свободного поиска, у первой же
|
|
|
группы методов данная стадия в принципе отсутствует. |
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
На стадиях прогностического моделирования и анализа исключений |
|||||||||||||||||||||||||||||||||
|
|
|
используются результаты стадии свободного поиска, они значительно |
|||||||||||||||||||||||||||||||||||
|
|
|
компактнее самих баз данных. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
Напомним, |
|
что конструкции этих моделей могут быть трактуемыми |
|||||||||||||||||||||||||||||||
|
|
|
аналитиком либо нетрактуемыми ("черными ящиками"). |
|
|
|
|
|
|
|
|
|
|
О |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
Г |
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
|
|
Методы этой группы: логические методы; методы визуализации; методыК |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
кросс-табуляции; методы, основанные на уравнениях. |
|
|
|
|
|
|
|
В |
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
Е |
|
|
|
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
Логические методы, |
или методы логической индукции, |
Ш |
|
|
|
|
|||||||||||||||||||||||||||
|
|
|
|
|
|
включают: |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
нечеткие запросы |
и |
|
анализы; |
символьные правила; |
деревья |
|
решений; |
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
||
|
|
|
генетические алгоритмы. |
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
ЧЕ |
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
Методы этой группы являются, пожалуй, наиболее интерпретируемыми |
|||||||||||||||||||||||||||||||||
|
|
|
- они оформляют |
найденные |
закономерности, |
|
. |
|
|
|
|
|
случаев, в |
|||||||||||||||||||||||||
|
|
|
в большинствеГ |
|
||||||||||||||||||||||||||||||||||
|
|
|
достаточно |
|
прозрачном виде |
с точки зрения |
. |
|
|
|
. Полученные |
|||||||||||||||||||||||||||
|
|
|
|
пользователяН |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
НИ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
правила могут включать непрерывные и дискретные переменные. Деревья |
|||||||||||||||||||||||||||||||||||
|
|
|
решений могут быть легко преобразованы в наборыЕ символьных правил путем |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
М |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
генерации одного правила по пути от корня дерева до его терминальной |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
вершины. |
|
Деревья |
|
решений |
и |
|
|
|
|
Е |
|
являются |
разными |
||||||||||||||||||||||
|
|
|
|
|
правила фактически |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
способами решения одной задачи и отличаются лишь по своим возможностям. |
|||||||||||||||||||||||||||||||||||
|
|
|
Кроме |
того, |
|
реализация |
правил |
|
Сосуществляется |
более |
|
|
медленными |
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
алгоритмами, чем индукция деревьевЕ |
решений. |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Методы кросс-табуляцииИ: агенты, баесовские (доверительные) сети, |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
кросс-табличная визуализацияУ. Последний метод не совсем отвечает одному |
|||||||||||||||||||||||||||||||||||
|
|
|
из |
|
свойств Data |
|
Mining Й- |
самостоятельному |
поиску |
закономерностей |
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
аналитической системой. Однако, предоставление информации в виде кросс- |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
таблиц |
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
Mining |
- |
поиск |
||||||||||
|
|
|
обеспечивает |
реализацию основной задачи Data |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
шаблонов, поэтому этот метод можно также считать одним из методов Data |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Mining. |
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
Д |
на основе уравнений. Методы этой |
группы |
|
выражают |
|||||||||||||||||||||||||
|
|
|
|
|
Методы |
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
выявленные закономерности в виде математических выражений - уравнений. |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Они могутО |
работать лишь с численными переменными, и переменные других |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
Й |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
типов должны быть закодированы соответствующим образом. Это несколько |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
К |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ограничивает применение методов данной группы, тем не менее они широко |
|||||||||||||||||||||||||||||||||||
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
при |
|
|
решении |
различных |
задач, |
особенно |
|
задач |
||||||||||||||||||
|
|
|
используются |
|
|
|
|
|
||||||||||||||||||||||||||||||
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
А |
Опрогнозирования. Основные методы данной группы: статистические методы и |
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Р |
|
нейронные сети. Статистические методы наиболее часто применяются для |
||||||||||||||||||||||||||||||||||||
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
А |
|
|
решения |
|
задач |
|
|
прогнозирования. |
|
Существует множество |
|
методов |
||||||||||||||||||||||||||
|
|
|
статистического анализа данных, среди них, например, корреляционно- |
|||||||||||||||||||||||||||||||||||
|
|
|
регрессионный анализ, корреляция рядов динамики, выявление тенденций |
|||||||||||||||||||||||||||||||||||
|
|
|
динамических рядов, гармонический анализ. |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
Другая классификация разделяет все многообразие методов Data Mining |
|||||||||||||||||||||||||||||||||
|
|
|
на |
|
две |
группы: |
|
статистические |
и |
кибернетические |
методы. |
|
Эта |
схема |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
21 |
разделения основана на различных подходах к обучению математических моделей.
|
|
|
|
|
|
|
|
|
Статистические методы Data mining. |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
Эти методы представляют собой четыре взаимосвязанных раздела: |
|
|
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
предварительный анализ |
|
|
природы |
|
статистических |
|
данных |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
(проверка гипотез стационарности, нормальности, независимости, |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
однородности, |
|
|
оценка |
|
|
вида |
функции распределения, |
|
|
О |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Гее |
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
параметров и т.п.); |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
К |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
выявление связей и закономерностей (линейный и нелинейныйВ |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
регрессионный анализ, корреляционный анализ и др.); |
Е |
|
|
|
|
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ш |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
многомерный статистический анализ (линейный и Ынелинейный |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
дискриминантный анализ, кластерный анализ, Ркомпонентный |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
анализ, факторный анализ и др.); |
|
|
|
|
ЧЕ |
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г |
|
|
рядов. |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
динамические модели и прогноз на основе временных. |
|
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Арсенал статистических методов Data Mining классифицирован на |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
четыре группы методов: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
НИ |
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1. Дескриптивный анализ и описание исходных данных. |
|
|
|
|
|
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
М |
|
|
|
|
анализ, факторный |
|||||||
|
|
|
|
|
|
|
|
|
2. Анализ связей (корреляционный и регрессионныйИ |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
анализ, дисперсионный анализ). |
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
анализ |
(компонентный |
анализ, |
|||||||||||
|
|
|
|
|
|
|
|
|
3. Многомерный статистический |
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
дискриминантный анализ, многомерный регрессионный анализ, канонические |
|||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
корреляции и др.). |
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4. Анализ временных рядов (динамические модели и прогнозирование). |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Й |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
Кибернетические методы Data Mining. |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
Второе |
|
|
|
|
|
Ы |
Data Mining |
- это |
множество |
|
подходов, |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
направлениеН |
|
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
объединенных |
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
математики |
и |
использования |
теории |
|||||||||||||||||||||
|
|
|
|
|
идеейЕкомпьютерной |
|
|
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
искусственного интеллектаТ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
относятся такие методы: |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
К этой группеР |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
А |
|
|
|
|
|
нейронные сети (распознавание, кластеризация, |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
искусственныеД |
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Спрогноз); |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
О |
эволюционное программирование; |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
Й |
|
|
генетические алгоритмы (оптимизация); |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
К |
|
|
|
|
ассоциативная память (поиск аналогов, прототипов); |
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
В |
|
|
|
|
|
|
нечеткая логика; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
О |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
Т |
|
|
|
|
|
|
|
|
деревья решений; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
Р |
|
|
|
|
|
|
|
|
системы обработки экспертных знаний. |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Методы Data Mining также можно классифицировать по задачам Data Mining. В соответствии с такой классификацией выделяем две группы. Первая из них – это подразделение методов Data Mining на решающие задачи сегментации (т.е. задачи классификации и кластеризации) и задачи прогнозирования.
22
В соответствии со второй классификацией по задачам методы Data Mining могут быть направлены на получение описательных и
|
|
|
прогнозирующих результатов. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
Описательные методы служат для нахождения шаблонов или образцов, |
||||||||||||||||||||||||||||||||||||||
|
|
|
описывающих данные, которые поддаются интерпретации с точки зрения |
|||||||||||||||||||||||||||||||||||||||
|
|
|
аналитика. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
К методам, |
направленным на получение описательных результатов, |
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
относятся итеративные методы кластерного анализа, в том числе: алгоритмГk- |
|||||||||||||||||||||||||||||||||||||||
|
|
|
средних, |
|
|
k-медианы, |
|
|
иерархические |
|
|
методы |
|
кластерного |
|
|
|
|
О |
|
, |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
анализаК |
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
самоорганизующиеся |
|
|
|
карты |
|
Кохонена, |
|
методы |
|
|
|
|
|
|
В |
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
кросс-табличной |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
визуализации, различные методы визуализации и другие. |
|
|
|
|
Ш |
|
|
|
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
Прогнозирующие методы используют значения одних переменных для |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
предсказания/прогнозирования неизвестных |
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
(пропущенных) или будущих |
|||||||||||||||||||||||||||||||||||||||
|
|
|
значений других (целевых) переменных. |
|
|
|
|
|
|
|
ЧЕ |
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
результатов, |
||||||||
|
|
|
|
К методам, направленным на получение прогнозирующихГ |
||||||||||||||||||||||||||||||||||||||
|
|
|
относятся |
|
такие |
|
методы: нейронные |
|
сети, |
|
|
|
. |
решений, линейная |
||||||||||||||||||||||||||||
|
|
|
|
|
|
деревьяН |
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
НИ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
регрессия, метод ближайшего соседа, метод опорных векторов и др. |
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
М |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Задачи Data Mining |
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
основу технологии |
Data |
|
|
|
|
|
Е |
|
|
|
концепция шаблонов, |
||||||||||||||||||||||||||
|
|
|
|
Mining |
положена |
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
представляющих собой закономерности. В результате обнаружения этих, |
|||||||||||||||||||||||||||||||||||||||
|
|
|
скрытых от невооруженного глаза закономерностейС |
решаются задачи Data |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
, которые могут быть выражены в |
||||||||||||||||
|
|
|
Mining. Различным типам закономерностейЕ |
|||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
определенные задачи Data Mining. |
|
||||||||||||||||
|
|
|
форме, понятной человеку, соответствуютИ |
|
||||||||||||||||||||||||||||||||||||||
|
|
|
|
Задачи |
|
(tasks) Data |
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
УMining иногда называют закономерностями |
|||||||||||||||||||||||||||||||||||||
|
|
|
(regularity) |
или техниками (techniques)Й |
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Обычно |
|
|
|
|
|
|
|
|
Н |
следующие: |
|
классификация, |
|
кластеризация, |
||||||||||||||||||||||||
|
|
|
|
|
выделяют |
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
прогнозирование, |
|
|
Е |
|
|
|
|
визуализация, |
|
анализ |
и |
|
обнаружение |
||||||||||||||||||||||||||
|
|
|
|
ассоциация, |
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
отклонений, оценивание, анализ связей, подведение итогов. |
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
Классификация (Classification). Наиболее простая и распространенная |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
задача |
|
|
|
Д |
Mining. |
|
|
В |
результате |
|
решения |
задачи |
|
классификации |
|||||||||||||||||||||||||
|
|
|
Data |
|
|
|
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
признаки, |
которые |
|
характеризуют |
группы |
|
|
объектов |
||||||||||||||||||||||||
|
|
|
обнаруживаются |
|
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
исследуемогоО |
набора данных - классы; по этим признакам новый объект |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
Й |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
можно отнести к тому или иному классу. Для решения задачи классификации |
|||||||||||||||||||||||||||||||||||||||
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
К |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
могут использоваться методы: ближайшего соседа (Nearest Neighbor); k- |
|||||||||||||||||||||||||||||||||||||||
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
соседа |
|
|
(k-Nearest |
|
Neighbor); |
байесовские |
сети |
|
(Bayesian |
||||||||||||||||||||||||
|
|
|
ближайшего |
|
|
|
|
|
||||||||||||||||||||||||||||||||||
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
А |
ОNetworks); индукция деревьев решений; нейронные сети (neural networks). |
|
|
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Р |
|
|
Кластеризация |
|
|
(Clustering). Кластеризация |
является |
логическим |
||||||||||||||||||||||||||||||||||
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
А |
|
|
продолжением идеи классификации. Это задача более сложная, особенность |
кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Пример метода решения задачи кластеризации: обучение "без учителя" особого вида нейронных сетей - самоорганизующихся карт Кохонена
23
Ассоциация (Associations). В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи
|
|
|
|
|
поиска ассоциативных правил – алгоритм Apriori. |
|
|
|
|
|
|
|
|
|
|
О |
||||||||||||||||||||||
|
|
|
|
|
|
|
Последовательность (Sequence), |
или |
|
последовательная |
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
ассоциацияГ |
||||||||||||||||||||||||||||||
|
|
|
|
|
(sequential |
association). |
|
Последовательность |
позволяет |
найти |
|
|
|
О |
|
|||||||||||||||||||||||
|
|
|
|
|
|
временныеК |
||||||||||||||||||||||||||||||||
|
|
|
|
|
закономерности между транзакциями. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
||||||||||||||||
|
|
|
|
|
|
Задача последовательности подобна |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
ассоциации, но ее целью является установление закономерностей не между |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ш |
|
|
|
|
|
|
|
|
|
одновременно наступающими событиями, а между событиями, связанными во |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
времени (т.е. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|||||
|
|
|
|
|
происходящими с некоторым определенным интервалом во |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
времени). |
Другими словами, последовательность |
определяется |
высокой |
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ЧЕ |
|
|
|
|
|
|
|
|
|
|
|
|
вероятностью |
|
|
цепочки |
|
связанных во |
|
времени |
|
. |
. |
|
Фактически, |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
событийГ |
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ассоциация является частным случаем последовательностиН |
|
с временным |
|||||||||||||||||||||||||||||||
|
|
|
|
|
лагом, равным |
|
нулю. Эту задачу |
Data |
|
Mining |
также |
называют |
задачей |
|||||||||||||||||||||||||
|
|
|
|
|
нахождения |
|
последовательных |
шаблонов |
|
|
НИ |
|
pattern). |
Правило |
||||||||||||||||||||||||
|
|
|
|
|
|
|
(sequentialЕ |
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
М |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
последовательности: после события X через определенное время произойдет |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
событие Y. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
Прогнозирование |
(Forecasting). |
Т |
|
|
результате |
решения |
|
задачи |
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
В |
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
исторических данных оцениваются |
|||||||||||||||
|
|
|
|
|
прогнозирования на основе особенностейС |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
целевых численных показателей. Для |
|||||||||||||||
|
|
|
|
|
пропущенные или же будущие значенияЕ |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
решения |
таких |
|
задач |
|
|
В |
применяются |
методы математической |
|||||||||||||||||||||||||
|
|
|
|
|
|
|
широкоИ |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
статистики, нейронные сети иУдр. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
Определение отклоненийЙ |
или выбросов (Deviation Detection), анализ |
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
отклонений или выбросов. Цель решения данной задачи - обнаружение и |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
анализ данных, |
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
данных, |
|||||||||||
|
|
|
|
|
наиболее отличающихся от общего множества |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
выявление так называемых нехарактерных шаблонов. |
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Оценивание (Estimation). Задача оценивания сводится к предсказанию |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
непрерывных значений признака. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Анализ связей (Link Analysis) - задача нахождения зависимостей в |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
С |
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
наборе данныхО |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Визуализация (Visualization, Graph Mining). В результате визуализации |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
Й |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
создается графический образ анализируемых данных. Для решения задачи |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
К |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
визуализации используются графические методы, показывающие наличие |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Озакономерностей в данных. Пример методов визуализации - представление |
||||||||||||||||||||||||||||||||||
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
А |
|
данных в 2-D и 3-D измерениях. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
Подведение итогов (Summarization) - задача, |
цель которой - описание |
||||||||||||||||||||||||||||||||
А |
|
|
|
|
|
|||||||||||||||||||||||||||||||||
С |
|
|
|
|
конкретных групп объектов из анализируемого набора данных. |
|
|
|
|
|
|
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
Классификация задач Data Mining
Согласно классификации по стратегиям, задачи Data Mining подразделяются на следующие группы:
24
обучение с учителем;
обучение без учителя;
другие.
Категория обучение с учителем представлена следующими задачами Data Mining: классификация, оценка, прогнозирование. Категория обучение без учителя представлена задачей кластеризации. В категорию «другие»
|
|
|
|
|
входят задачи, не включенные в предыдущие две стратегии. |
|
|
|
|
|
|
О |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
Задачи Data Mining, в зависимости от используемых моделей, могут |
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
быть дескриптивными и прогнозирующими. |
|
|
|
|
|
|
|
|
|
|
О |
|
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
К |
|
|
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
В |
|
соответствии |
с |
|
этой |
|
|
классификацией, |
задачи |
Data |
|
С |
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
ВMining |
||||||||||||||||||||||||||||||||
|
|
|
|
|
представлены группами описательных и прогнозирующих задач. |
Е |
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
Ш |
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
В |
результате |
|
решения |
описательных |
|
(descriptive) |
|
аналитик |
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
задачЫ |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
поддаются |
|||||
|
|
|
|
|
получает шаблоны, описывающие данные, которыеР |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
интерпретации. Эти задачи описывают общую концепциюЧЕанализируемых |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
данных, определяют информативные, итоговые, отличительные особенности |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
данных. Концепция описательных задач подразумеваетН |
характеристику и |
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
сравнение |
наборов |
|
данных. |
|
Характеристика |
набора данных обеспечивает |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
НИ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
краткое |
|
и |
сжатое |
|
описание |
|
некоторого |
|
Е |
данных. |
Сравнение |
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
набора |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
М |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
обеспечивает сравнительное описание двух илиИ более наборов данных. |
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
Прогнозирующие |
(predictive) |
|
|
|
|
Т |
|
|
|
на |
анализе |
данных, |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
основываются |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
создании |
|
|
модели, |
|
предсказании |
|
|
|
|
Т |
|
|
|
или |
свойств |
новых или |
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
тенденций |
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
неизвестных данных. |
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
Достаточно близким |
к |
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
является |
|||||||||||||||||
|
|
|
|
|
|
|
вышеупомянутой классификации |
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
подразделение задач Data MiningИ |
на следующие: исследования и открытия, |
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
, объяснения и описания. |
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
прогнозирования и классификацииУ |
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
Автоматическое |
|
Й |
|
|
|
|
|
|
|
|
и открытие |
(свободный |
|
поиск). |
||||||||||||||||||||||
|
|
|
|
|
|
|
исследование |
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
новых сегментов рынка. Для решения данного |
||||||||||||||||||||||||
|
|
|
|
|
Пример задачи: обнаружениеН |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
методы кластерного анализа. |
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
класса задач используютсяЕ |
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
и классификация. |
Пример задачи: предсказание |
||||||||||||||||||||||||||
|
|
|
|
|
|
|
ПрогнозированиеТ |
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
роста объемов |
|
С |
|
|
|
|
|
|
|
|
|
|
|
текущих значений. Методы: регрессия, |
||||||||||||||||||||||||
|
|
|
|
|
Рпродаж на основе |
|
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
нейронные сетиД , генетические алгоритмы, деревья решений. |
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Задачи классификации и прогнозирования составляют группу так |
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
индуктивного |
|
моделирования, |
|
в |
результате |
которого |
|||||||||||||||||||||||||||
|
|
|
|
|
называемого |
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
обеспечиваетсяЙ |
изучение анализируемого объекта или системы. В процессе |
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
И |
этих задач на основе набора данных разрабатывается общая модель |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
решенияК |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вили гипотеза. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
О |
|
Объяснение и описание. Пример задачи: характеристика клиентов по |
|||||||||||||||||||||||||||||||||||||
|
|
|
Т |
|
|
||||||||||||||||||||||||||||||||||||||
|
|
А |
|
демографическим данным и историям покупок. Методы: деревья решения, |
|||||||||||||||||||||||||||||||||||||||
|
Р |
|
|
||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
А |
|
|
|
системы правил, правила ассоциации, анализ связей. |
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В интерпретации обобщенной модели аналитик получает новое знание. Группировка объектов происходит на основе их сходства.
Главная ценность Data Mining - это практическая направленность данной технологии, путь от сырых данных к конкретному знанию, от постановки задачи к готовому приложению, при поддержке которого можно
принимать решения. Рассмотрим подробнее задачи классификации и кластеризации.
Задачи классификации и кластеризации
|
|
|
|
|
|
|
|
Задача классификации |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
Классификация является наиболее простой и одновременно наиболее |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
|
часто решаемой |
|
задачей |
Data Mining. Ввиду |
распространенности |
|
|
|
Г |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
задач |
|||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
классификации необходимо четкое понимания сути этого понятия. |
|
|
|
|
|
О |
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
К |
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
Приведем несколько определений. |
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ш |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
Классификация - системное распределение изучаемых предметов, |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
явлений, процессов по родам, видам, типам, по каким-либо существеннымЫ |
|||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
понятий и |
|||||||
|
|
|
|
|
признакам для удобства их исследования; группировка исходныхР |
|||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
расположение |
|
их |
|
в |
|
определенном |
|
порядке, |
отражающемЧЕ |
степень |
|
этого |
|||||||||||||||||||||||||||||
|
|
|
|
|
сходства. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Классификация - упорядоченное по некоторомуНпринципу множество |
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
НИ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
объектов, которые имеют сходные классификационные признаки (одно или |
|||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
М |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
несколько свойств), выбранных для определения сходства или различия |
|||||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
между этими объектами. |
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Классификация требует соблюдения следующих правил: |
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
в |
каждом |
|
акте |
деления |
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
одно |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
необходимо применять только |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
основание; |
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
деление должно быть соразмерным, т.е. общий объем видовых |
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
понятий должен равняться объему делимого родового понятия; |
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
члены деления должны взаимно исключать друг друга, их объемы |
||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Й |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
не должны перекрещиваться; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
деление должно быть последовательным. |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Различают: |
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
(искусственную) |
классификацию, |
|
которая |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
вспомогательную |
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
производится по внешнему признаку и служит для придания |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
множеству предметов (процессов, явлений) нужного порядка; |
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
Сестественную |
|
классификацию, |
которая производится |
|
|
по |
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
Г |
|
существенным |
|
признакам, |
|
|
|
характеризующим |
внутреннюю |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
Й |
|
|
|
|
|
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
общность предметов и явлений. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
К |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
С |
|
Последняя |
|
является |
результатом |
|
|
и важным |
средством |
|
|
научного |
|||||||||||||||||||||||||||||
|
|
|
|
|
В |
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
и |
|
закрепляет |
результаты |
|
|
|
изучения |
|||||||||||||
|
|
|
Т |
исследования, т.к. предполагает |
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
А |
|
закономерностей классифицируемых объектов. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
А |
|
|
|
|
|
|
В зависимости от выбранных признаков, их сочетания и процедуры |
|||||||||||||||||||||||||||||||||||||||
С |
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||||||||
|
|
|
|
деления понятий классификация может быть: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
простой - деление родового понятия только по признаку и только один раз до раскрытия всех видов. Примером такой классификации является дихотомия, при которой членами деления бывают только два понятия, каждое из которых является противоречащим другому (т.е. соблюдается принцип: "А и не А");
26
сложной - применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое. Примером такой классификации является периодическая система
|
|
|
|
|
|
|
|
|
химических элементов. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
Под классификацией будем понимать отнесение объектов (наблюдений, |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
событий) к одному из заранее известных классов. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
Классификация |
- |
это |
закономерность, |
позволяющая |
|
делать |
вывод |
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
|
|
относительно определения характеристик конкретной группы. Таким образомГ, |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
для проведения |
классификации |
|
должны |
|
присутствовать |
|
|
|
|
|
О |
|
, |
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
признакиК |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
характеризующие группу, к которой принадлежит то или иное событие или |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ш |
|
|
|
|
|
||
|
|
|
|
|
объект (обычно при этом на основании анализа уже классифицированных |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
событий формулируются некие правила). |
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
(supervised |
|||||||
|
|
|
|
|
|
|
Классификация относится к стратегии обучения с учителемР |
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ЧЕ |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
learning), |
которое |
также именуют |
|
контролируемым |
|
или |
|
управляемым |
|||||||||||||||||||||||||||
|
|
|
|
|
обучением. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
категориальной |
||||||||||
|
|
|
|
|
|
|
Задачей классификации часто называют предсказаниеН |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
НИ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
зависимой переменной (т.е. зависимой переменной, являющейся категорией) |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
М |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
на основе выборки непрерывных и/или категориальных переменных. |
|
|
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
Например, |
можно |
предсказать, |
|
кто Ииз |
|
клиентов |
фирмы |
|
является |
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
потенциальным |
|
покупателем |
|
|
|
|
|
|
Е |
товара, |
а |
кто |
- |
|
|
нет, кто |
|||||||||||||||||||
|
|
|
|
|
|
определенного |
|
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
воспользуется услугой фирмы, а кто - нет, и т.д. Этот тип задач относится к |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
задачам |
бинарной |
классификации, |
|
Св |
них зависимая |
переменная |
может |
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
принимать только два значения (напримерЕ |
, да или нет, 0 или 1). |
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
Другой вариант классификацииИ |
возникает, если зависимая переменная |
||||||||||||||||||||||||||||||||
|
|
|
|
|
может принимать |
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
предопределенных |
|||||||||||||||||||
|
|
|
|
|
значения Уиз некоторого множества |
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Й |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
классов. Например, когда необходимо предсказать, какую марку автомобиля |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
захочет купить клиент. НВ этих случаях рассматривается множество классов |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
для зависимой переменной. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
может быть одномерной (по одному |
признаку) и |
||||||||||||||||||||||||
|
|
|
|
|
|
|
КлассификацияТ |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
многомерной (по двум и более признакам). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Процесс классификации. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Цель процесса классификации состоит в том, чтобы построить модель, |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
которая Оиспользует прогнозирующие атрибуты в качестве входных |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
параметровЙ |
|
|
и |
|
получает |
значение |
|
зависимого |
атрибута. |
|
|
|
Процесс |
||||||||||||||||||||||
|
|
|
|
|
|
|
И |
|
|
|
|
заключается в разбиении множества объектов на классы по |
||||||||||||||||||||||||||||
|
|
|
|
|
классификацииК |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
определенному критерию. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
О |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
Классификатором называется некая сущность, определяющая, какому из |
||||||||||||||||||||||||||||||||||
|
|
А |
|
|
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
Р |
|
|
предопределенных классов принадлежит объект по вектору признаков. |
|
|
|
|
||||||||||||||||||||||||||||||||
А |
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием в нашем случае выступает база данных.
Каждый объект (запись базы данных) несет информацию о некотором свойстве объекта.
27
Набор исходных данных (или выборку данных) разбивают на два множества: обучающее и тестовое.
|
|
|
|
|
|
|
Обучающее множество (training set) - множество, которое включает |
||||||||||||||||||||||||||||||||||||
|
|
|
данные, использующиеся для обучения (конструирования) модели. Такое |
||||||||||||||||||||||||||||||||||||||||
|
|
|
множество содержит входные и выходные (целевые) значения примеров. |
||||||||||||||||||||||||||||||||||||||||
|
|
|
Выходные значения предназначены для обучения модели. |
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
Тестовое (test |
set) |
множество также содержит входные и выходные |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
|
значения примеров. Здесь выходные значения используются для проверкиГ |
||||||||||||||||||||||||||||||||||||||||
|
|
|
работоспособности модели. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
К |
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
Процесс |
|
классификации |
состоит |
из |
двух |
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
этапов: конструирования |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
модели и ее использования. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ш |
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
1. |
Конструирование модели: описание множества предопределенных |
|||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
классов. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ЧЕ |
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
o |
Каждый |
|
пример |
|
набора |
|
данных |
|
относится |
|
к |
|
одному |
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
предопределенному классу. |
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
o На |
этом |
|
этапе используется |
|
|
|
|
|
|
. |
множество, |
на нем |
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
обучающееН |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
происходит конструирование модели. |
НИ |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
o |
Полученная |
|
модель |
представленаЕ |
|
классификационными |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
М |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
правилами, деревом решений или математической формулой. |
|
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
2. |
Использование |
|
модели: |
|
|
|
|
Е |
|
|
|
новых или |
|
неизвестных |
||||||||||||||||||||||
|
|
|
|
|
|
|
|
классификация |
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
значений. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
Оценка правильности (точностиС |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
o |
) модели. |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
a) |
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
примера |
сравниваются с |
|||||||||||
|
|
|
|
|
|
|
|
|
|
Известные значенияЕиз тестового |
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
полученной модели. |
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
результатами использованияИ |
|
|
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
- процент правильно классифицированных |
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
b) Уровень точностиУ |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
примеров в тестовомЙ |
множестве. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
c) Тестовое множество, т.е. множество, на котором тестируется |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
зависеть |
от |
|
обучающего |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
построенная модель, не должно |
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
множества. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
o |
|
|
Р |
|
|
|
|
|
|
|
|
|
допустима, |
|
возможно |
|
использование |
||||||||||||||||||
|
|
|
|
|
|
|
|
Если точность модели |
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
класс |
которых |
||||||||
|
|
|
|
|
|
|
|
|
модели для классификации новых примеров, |
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г |
неизвестен. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
ПроцессО |
|
классификации, |
|
а |
именно, |
|
конструирование |
|
модели и ее |
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
Й |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
использование, представлен на рис.7 и рис.8. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
К |
Методы, применяемые для решения задач классификации. |
|
|
|
|
|
||||||||||||||||||||||||||||||||
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
Для классификации используются различные методы. Основные из них: |
|||||||||||||||||||||||||||||||||||||
|
|
О |
|
|
|
||||||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
классификация с помощью деревьев решений; |
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||
|
|
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
байесовская (наивная) классификация; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
С |
|
|
|
|
|
|
|
классификация при помощи искусственных нейронных сетей; |
|
|
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
классификация методом опорных векторов; |
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
статистические методы, в частности, линейная регрессия; |
|
|
|
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
классификация при помощи метода ближайшего соседа; |
|
|
|
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
классификация CBR-методом; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
классификация при помощи генетических алгоритмов. |
|
|
|
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
28 |

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
К |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ш |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ЧЕ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рис.7 Процесс классификации. Конструирование модели |
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
НИ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
М |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Й |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
классификации. Использование модели |
|
|
|
|
|
|
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
Рис.8. ПроцессН |
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
|
|
: оценка уровня ошибок. |
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
Точность классификацииТ |
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
С |
|
классификации может проводиться при помощи кросс- |
||||||||||||||||||||||||||
|
|
|
|
|
|
|
Оценка точностиР |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
А |
-проверка (Cross-validation) - это процедура оценки точности |
||||||||||||||||||||||||||||
|
|
|
|
|
проверки. КроссД |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
У |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
классификации на данных из тестового множества, которое также называют |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
О |
|
|
|
множеством. Точность классификации тестового |
|||||||||||||||||||||||||||
|
|
|
|
|
кросс-проверочнымГ |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
множестваЙ |
сравнивается с точностью классификации обучающего множества. |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ЕслиК классификация тестового множества дает приблизительно такие же |
|||||||||||||||||||||||||||||||||
|
|
|
|
|
|
С |
|
по |
точности, |
как и классификация |
обучающего |
множества, |
||||||||||||||||||||||||||
|
|
|
|
|
Врезультаты |
|||||||||||||||||||||||||||||||||
|
|
|
|
О |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
считается, что данная модель прошла кросс-проверку. |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
А |
|
|
|
Разделение на обучающее и тестовое множества осуществляется путем |
||||||||||||||||||||||||||||||||
|
Р |
|
|
|
|
|||||||||||||||||||||||||||||||||
А |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
деления выборки |
в |
|
определенной пропорции, |
например, |
|
обучающее |
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
множество - две трети данных и тестовое - одна треть данных. Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться.
29
Задача кластеризации
Задача кластеризации сходна с задачей классификации и является ее логическим продолжением. Отличие состоит в том, что классы изучаемого набора данных заранее не предопределены.
Синонимами термина "кластеризация" являются "автоматическая классификация", "обучение без учителя" и "таксономия".
|
|
|
|
|
|
|
|
Кластеризация предназначена для разбиения совокупности объектов на |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
|
|
|
|
|
однородные группы (кластеры или классы). Если данные выборки представитьГ |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
О |
к |
|
|
|
|
|
как точки в признаковом пространстве, то задача кластеризации сводитсяК |
||||||||||||||||||||||||||||||||
|
|
|
|
|
определению "сгущений точек". |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
Цель кластеризации - поиск существующих структур. |
|
|
|
|
Е |
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
Ш |
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
Кластеризация |
является описательной процедурой, она |
|
делает |
||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
не |
|
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
|
|
|
||
|
|
|
|
|
никаких статистических выводов, но дает возможность провести разведочный |
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
||
|
|
|
|
|
анализ и изучить "структуру данных". |
|
|
|
|
|
|
ЧЕ |
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Само |
|
понятие |
"кластер" |
|
определено |
|
. |
|
: |
в |
каждом |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
неоднозначноГ |
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
исследовании свои "кластеры". Кластер можно охарактеризоватьН |
как группу |
|||||||||||||||||||||||||||||||
|
|
|
|
|
объектов, имеющих общие свойства. |
|
|
|
|
|
|
НИ |
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Характеристиками кластера можно назватьМЕдва признака: |
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
внутренняя однородность; |
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
внешняя изолированность. |
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вопрос, задаваемый аналитиками при решении многих задач, состоит в |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
И |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
том, |
как |
организовать |
данные в |
|
|
С |
|
|
|
|
|
|
|
|
|
|
развернуть |
|||||||||||||||
|
|
|
|
|
|
наглядные структуры, т.е. |
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
таксономии. Наибольшее применение кластеризация первоначально получила |
||||||||||||||||||||||||||||||||
|
|
|
|
|
в таких |
науках как |
|
|
В |
|
|
|
|
|
|
психология. |
|
|
Для решения |
||||||||||||||||||
|
|
|
|
|
биология,Иантропология, |
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Н |
|
|
|
длительное время мало использовалась |
||||||||||||||||
|
|
|
|
|
экономических задач кластеризацияУ |
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Й |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
из-за специфики экономических данных и явлений. |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
На |
рис. |
|
5.7 |
|
|
Ы |
|
представлены |
задачи |
классификации |
и |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
схематическиН |
||||||||||||||||||||||||||||
|
|
|
|
|
кластеризации. |
|
|
|
Н |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
Е |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В |
быть непересекающимися, или эксклюзивными (non- |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
Кластеры могутТ |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
С |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
overlapping, exclusive), и пересекающимися (overlapping). |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Р |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
А |
|
|
|
что в результате применения различных методов |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
Следует отметить, |
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
Д |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
У |
|
|
|
|
могут быть |
получены кластеры |
|
различной |
|
формы. |
|||||||||||||||||
|
|
|
|
|
кластерного анализа |
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
С |
возможны |
кластеры |
|
|
"цепочного" типа, |
когда |
|
кластеры |
||||||||||||||||||||
|
|
|
|
|
НапримерО, |
|
|
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
Г |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
представленыЙ |
длинными "цепочками", кластеры удлиненной формы и т.д., а |
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
И |
|
методы могут создавать кластеры произвольной формы. |
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
некоторыеК |
|
|
|
|
||||||||||||||||||||||||||||
|
|
|
|
|
|
С |
|
Различные методы могут стремиться создавать кластеры определенных |
|||||||||||||||||||||||||||||
|
|
|
|
|
В |
|
|||||||||||||||||||||||||||||||
|
|
|
|
О |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Т |
размеров (например, малых или крупных) либо предполагать в наборе данных |
|||||||||||||||||||||||||||||||||
|
|
А |
|
наличие кластеров различного размера. |
Некоторые методы кластерного |
||||||||||||||||||||||||||||||||
|
Р |
|
|
||||||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
А |
|
|
|
анализа особенно чувствительны к шумам или выбросам, другие - менее. |
|
|
|||||||||||||||||||||||||||||||
С |
|
|
|
|
|
|
|||||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В результате применения различных методов кластеризации могут быть получены неодинаковые результаты, это нормально и является особенностью работы того или иного алгоритма. Данные особенности следует учитывать при выборе метода кластеризации.