К-ближайший сосед

Подобно дереву решений алгоритм К- ближайший сосед наиболее подходит для кластеризации и классификации. При кластеризации алгоритм вначале отображает каждую запись как точку в многомерном пространстве. Затем он подстраивает веса измерений таким образом, чтобы точнее с близкими значениями целевых атрибутов объединялись в тесный кластер. Например, предположим, что целевое измерения для банка — «клиенту, который застраховался вторично» (берут заем повторно). Если измерениями являются возраст, сумма первой страховки, величина задолженности, годовой доход, тогда алгоритм будет последовательно подбирать веса этих измерений таким образом, что точки, которые представляют клиентов, получивших второй кредит, окажутся расположенными поблизости.

После того, как алгоритм К — ближайших соседей используется для кластеризации, он может помочь в классификации. Например, банк может отобразить потенциальных клиентов, претендующих на получение кредита, используя модель К- ближайших соседей. Банк может принять решение предположить повторный только тем клиентам, для которых оценка правдоподобия обращения за этой суммой составляет 66%.

Без К- ближайшего соседа все атрибуты взвешены одинаково, и никакой очевидной кластеризации не наблюдается. Наиболее явной группировка объектов становится при следующих значениях весов age=2, объем первого кредита=0.5, долг=2, доход=3.

Технология deep data mining

Новая технология Deep Data Mining (DDM) основывается на представлениях специальной локальной геометрии. В этой геометрии каждый объект существует в собственном локальном пространстве событий с индивидуальной метрикой. За счет свойств локальных пространств процедура поиска логических закономерностей в данных получает геометрическое истолкование.

Перебор вариантов при поиске логических закономерностей методами локальной геометрии практически отсутствует. Поиск осуществляется с помощью модифицированного аппарата линейной алгебры.

Технология DDM дает возможность обнаруживать в данных IF ... THEN правила, включающие десятки, сотни и тысячи совместно встречающихся логических событий, характерных для одной совокупности данных и не характерных для всех остальных. Эффективность результатов близка к потенциально возможной эффективности поиска правил путем полного перебора.

Существенным дополнением в новой технологии DDM является использование приема «данные + шум». Этот прием заключается во введении в анализ специальных фальсификаторов — объектов, равномерно в вероятностном смысле распределенных в пространстве событий. Доля таких фальсификаторов может соответствовать и даже в два-три раза превышать долю исходной информации. «Столкновение» данных с фальсификаторами способствует устойчивости найденных логических закономерностей.

Результаты, полученные по новой технологии DDM, выдаются в виде таблицы IF ... THEN правил с указанием их характеристик (точности и полноты) и дендрограммы полученных правил с описанием обобщающих понятий и метапонятий.

В целом технология DDM имеет следующие преимущества:

1. Поиск IF ... THEN правил в данных осуществляется без перебора вариантов.

2. Устойчивость закономерностей проверяется с помощью множества фальсификаторов.

Выявляется метаструктура логических закономерностей в данных.
Минимальные ошибки (в задачах классификации, распознавания образов, прогнозирования).

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1911 12 13 14 15 16 17 18 19 > Следующая >>>

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике

#
02.05.2014478.21 Кб232ГЛАВА 1.doc
#
02.05.2014796.16 Кб190ГЛАВА 10.doc
#
02.05.2014270.85 Кб141ГЛАВА 11.doc
#
02.05.2014177.15 Кб140ГЛАВА 12.doc
#
02.05.2014491.01 Кб127ГЛАВА 2.doc
#
02.05.2014836.61 Кб142ГЛАВА 3.doc
#
02.05.20141.06 Mб127ГЛАВА 4.doc