Скачиваний:
190
Добавлен:
02.05.2014
Размер:
796.16 Кб
Скачать

К-ближайший сосед

Подобно дереву решений алгоритм К- ближайший сосед наиболее подхо­дит для кластеризации и классификации. При кластеризации алгоритм вна­чале отображает каждую запись как точку в многомерном пространстве. За­тем он подстраивает веса измерений таким образом, чтобы точнее с близки­ми значениями целевых атрибутов объединялись в тесный кластер. Напри­мер, предположим, что целевое измерения для банка — «клиенту, который застраховался вторично» (берут заем повторно). Если измерениями являются возраст, сумма первой страховки, величина задолженности, годовой доход, тогда алгоритм будет последовательно подбирать веса этих измерений таким образом, что точки, которые представляют клиентов, получивших второй кредит, окажутся расположенными поблизости.

После того, как алгоритм К — ближайших соседей используется для кластеризации, он может помочь в классификации. Например, банк может отобразить потенциальных клиентов, претендующих на получение кредита, используя модель К- ближайших соседей. Банк может принять решение пред­положить повторный только тем клиентам, для которых оценка правдоподо­бия обращения за этой суммой составляет 66%.

Без К- ближайшего соседа все атрибуты взвешены одинаково, и ника­кой очевидной кластеризации не наблюдается. Наиболее явной группи­ровка объектов становится при следующих значениях весов age=2, объем первого кредита=0.5, долг=2, доход=3.

Технология deep data mining

Новая технология Deep Data Mining (DDM) основывается на представлениях специальной локальной геометрии. В этой геометрии каждый объ­ект существует в собственном локальном пространстве событий с индивидуальной метрикой. За счет свойств локальных пространств процедура по­иска логических закономерностей в данных получает геометрическое истолкование.

Перебор вариантов при поиске логических закономерностей методами локальной геометрии практически отсутствует. Поиск осуществляется с помощью модифицированного аппарата линейной алгебры.

Технология DDM дает возможность обнаруживать в данных IF ... THEN правила, включающие десятки, сотни и тысячи совместно встречающихся логических событий, характерных для одной совокупности данных и не ха­рактерных для всех остальных. Эффективность результатов близка к потен­циально возможной эффективности поиска правил путем полного перебора.

Существенным дополнением в новой технологии DDM является исполь­зование приема «данные + шум». Этот прием заключается во введении в анализ специальных фальсификаторов — объектов, равномерно в вероятно­стном смысле распределенных в пространстве событий. Доля таких фальси­фикаторов может соответствовать и даже в два-три раза превышать долю исходной информации. «Столкновение» данных с фальсификаторами спо­собствует устойчивости найденных логических закономерностей.

Результаты, полученные по новой технологии DDM, выдаются в виде таблицы IF ... THEN правил с указанием их характеристик (точности и пол­ноты) и дендрограммы полученных правил с описанием обобщающих поня­тий и метапонятий.

В целом технология DDM имеет следующие преимущества:

1. Поиск IF ... THEN правил в данных осуществляется без перебора вариантов.

2. Устойчивость закономерностей проверяется с помощью множества фальсификаторов.

  1. Выявляется метаструктура логических закономерностей в данных.

  2. Минимальные ошибки (в задачах классификации, распознавания обра­зов, прогнозирования).

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике