- •Глава 10. Машинное обучение
- •10.1. Компоненты процесса обучения
- •10.2. Индуктивное обучение
- •10.3. Система id3
- •10.4. Система induce
- •Индуктивно сгенерированные правила
- •Переменные, используемые для классификации
- •10.5. Алгоритм обучения понятиям
- •10.6. Неинкрементальное (параллельное) обучение в решетках Галуа
- •10.7. Адаптивная дискретизация непрерывных значений атрибутов
- •10.8. Открытие знаний
- •10.9. Типы закономерностей, выявляемых методами над
- •10.10. Бизнес-приложения методов иад
- •10.11. Классы систем иад Предметно-ориентированные аналитические системы
- •Статистические пакеты
- •Системы рассуждений на основе аналогичных случаев (cbr case based reasoning)
- •Деревья решений (decision trees)
- •Эволюционное программирование
- •Генетические алгоритмы
- •Алгоритмы ограниченного перебора
- •К-ближайший сосед
- •Технология deep data mining
- •10.12. Архитектура систем иад
- •10.13. Применение алгоритмов типа аво (вычисления оценок) для построения итерационных алгоритмов поиска
- •10.14. Алгоритм распознавания типа «Кора»
- •10.15. Обучение машин распознаванию образов
- •10.16. Алгоритмы автоматического построения классификаций
- •Общее описание методов партициальной кластеризации
- •Алгоритм партициальной кластеризации. Метод k-средних (k-means)
- •Алгоритмы иерархической кластеризации
- •Программные средства интеллектуального анализа данных
- •Ibm Visualization Data Explorer
- •Data mining suite
К-ближайший сосед
Подобно дереву решений алгоритм К- ближайший сосед наиболее подходит для кластеризации и классификации. При кластеризации алгоритм вначале отображает каждую запись как точку в многомерном пространстве. Затем он подстраивает веса измерений таким образом, чтобы точнее с близкими значениями целевых атрибутов объединялись в тесный кластер. Например, предположим, что целевое измерения для банка — «клиенту, который застраховался вторично» (берут заем повторно). Если измерениями являются возраст, сумма первой страховки, величина задолженности, годовой доход, тогда алгоритм будет последовательно подбирать веса этих измерений таким образом, что точки, которые представляют клиентов, получивших второй кредит, окажутся расположенными поблизости.
После того, как алгоритм К — ближайших соседей используется для кластеризации, он может помочь в классификации. Например, банк может отобразить потенциальных клиентов, претендующих на получение кредита, используя модель К- ближайших соседей. Банк может принять решение предположить повторный только тем клиентам, для которых оценка правдоподобия обращения за этой суммой составляет 66%.
Без К- ближайшего соседа все атрибуты взвешены одинаково, и никакой очевидной кластеризации не наблюдается. Наиболее явной группировка объектов становится при следующих значениях весов age=2, объем первого кредита=0.5, долг=2, доход=3.
Технология deep data mining
Новая технология Deep Data Mining (DDM) основывается на представлениях специальной локальной геометрии. В этой геометрии каждый объект существует в собственном локальном пространстве событий с индивидуальной метрикой. За счет свойств локальных пространств процедура поиска логических закономерностей в данных получает геометрическое истолкование.
Перебор вариантов при поиске логических закономерностей методами локальной геометрии практически отсутствует. Поиск осуществляется с помощью модифицированного аппарата линейной алгебры.
Технология DDM дает возможность обнаруживать в данных IF ... THEN правила, включающие десятки, сотни и тысячи совместно встречающихся логических событий, характерных для одной совокупности данных и не характерных для всех остальных. Эффективность результатов близка к потенциально возможной эффективности поиска правил путем полного перебора.
Существенным дополнением в новой технологии DDM является использование приема «данные + шум». Этот прием заключается во введении в анализ специальных фальсификаторов — объектов, равномерно в вероятностном смысле распределенных в пространстве событий. Доля таких фальсификаторов может соответствовать и даже в два-три раза превышать долю исходной информации. «Столкновение» данных с фальсификаторами способствует устойчивости найденных логических закономерностей.
Результаты, полученные по новой технологии DDM, выдаются в виде таблицы IF ... THEN правил с указанием их характеристик (точности и полноты) и дендрограммы полученных правил с описанием обобщающих понятий и метапонятий.
В целом технология DDM имеет следующие преимущества:
1. Поиск IF ... THEN правил в данных осуществляется без перебора вариантов.
2. Устойчивость закономерностей проверяется с помощью множества фальсификаторов.
Выявляется метаструктура логических закономерностей в данных.
Минимальные ошибки (в задачах классификации, распознавания образов, прогнозирования).