- •Подходы к пониманию проблемы [править]
- •Тест Тьюринга и интуитивный подход [править]
- •Символьный подход [править]
- •Логический подход [править]
- •Агентно-ориентированный подход [править]
- •Гибридный подход [править]
- •Модели и методы исследований [править] Символьное моделирование мыслительных процессов [править]
- •Работа с естественными языками [править]
- •Представление и использование знаний [править]
- •Машинное обучение [править]
- •Биологическое моделирование искусственного интеллекта [править]
- •Робототехника [править]
- •Машинное творчество [править]
- •Другие области исследований [править]
- •Современный искусственный интеллект [править]
- •Применение [править]
- •Язык и система Пролог
- •4. Применение языка пролог в области искусственного интеллекта.
- •7. Методы и алгоритмы искусственного интеллекта, стадии Data Mining.
- •Методы классификации и прогнозирования.
- •Методы кластерного анализа.
- •Методы поиска ассоциативных правил
- •Методы визуализации
- •1. Определение и анализ требований к данным
- •2. Сбор данных
- •3. Предварительная обработка данных
- •4. Построение моделей;·
- •Этап 5. Проверка и оценка моделей
- •9. Инструментальные среды интеллектуальной обработки информации и их характеристика.
- •10. Стандарты интеллектуального анализа данных (методология semma, стандарты cwm, crisp, pmml и др.)
7. Методы и алгоритмы искусственного интеллекта, стадии Data Mining.
Методы Data Mining можно классифицировать по задачам Data Mining.
Методы классификации и прогнозирования.
Метод «Деревья решений». При помощи данного метода решаются задачи классификации и прогнозирования.
Если зависимая (целевая переменная) принимает дискретные значения, при помощи метода дерева решений решается задача классификации. Если же зависимая переменная принимает непрерывные значения, то решается задача численного прогнозирования.
В наиболее простом виде дерево решений - это способ представления правил в иерархической, последовательной структуре. Основа такой структуры - ответы "Да" или "Нет" на ряд вопросов. Листьями дерева являются функции линейной регрессии. Деревья – бинарные, множественные.
Преимущества метода:
- интуитивность деревьев решений (модель является интуитивной и упрощает понимание решаемой задачи);
- деревья решений дают возможность извлекать правила из базы данных на естественном языке (Если Возраст > 35 и Доход > 200, то выдать кредит).
- быстрый процесс обучения.
Процесс создания дерева происходит сверху вниз (нисходящий). В ходе
процесса алгоритм должен найти такой критерий расщепления, чтобы разбить множество на подмножества, которые бы ассоциировались с данным узлом проверки. Каждый узел проверки должен быть помечен определенным атрибутом.
На сегодняшний день существует большое число алгоритмов, реализующих деревья решений: CART, C4.5, CHAID, CN2, NewId, ITrule и другие.
Алгоритмы построения деревьев решений различаются следующими характеристиками:
вид расщепления - бинарное (binary), множественное (multi-way)
критерии расщепления
возможность обработки пропущенных значений
процедура сокращения ветвей или отсечения
возможности извлечения правил из деревьев.
Атрибуты набора данных могут иметь как дискретное, так и числовое значение. Алгоритм CART предназначен для построения бинарного дерева решений (+ все перечисленные характеристики).
Алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла. Данный алгоритм может работать только с дискретным зависимым атрибутом и поэтому может решать только задачи классификации.
Sprint, являющийся масштабируемым вариантом алгоритма CART, предъявляет минимальные требования к объему оперативной памяти.
Метод «Линейная регрессия» (+ кластеризация)
Если значение правила больше, чем порог, то предсказываемая переменная принимает значение истина, иначе – ложь – другими словами при выполнении для параметров объектов заданного условия, объекты принадлежат одному, в противном случае – другому классу).
Метод опорных векторов
Метод опорных векторов относится к группе граничных методов. Он определяет классы при помощи границ областей.
При помощи данного метода решаются задачи бинарной классификации.
В основе метода лежит понятие плоскостей решений.
Цель метода опорных векторов - найти плоскость, разделяющую два множества объектов;
Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев
Следует сразу отметить, что метод "ближайшего соседа" ("nearest neighbour") относится к классу методов, работа которых основывается на хранении данных в памяти для сравнения с новыми элементами. При появлении новой записи для прогнозирования находятся отклонения между этой записью и подобными наборами данных, и наиболее подобная (или ближний сосед) идентифицируется.
При таком подходе используется термин "k-ближайший сосед" -
выбирается k "верхних" (ближайших) соседей для их рассмотрения в качестве множества "ближайших соседей".
Байесовская классификация
Так называемая наивная классификация или наивно-байесовский подход
является наиболее простым вариантом метода, использующего байесовские сети.
"Наивная" классификация - достаточно прозрачный и понятный метод классификации. "Наивной" она называется потому, что исходит из предположения о взаимной независимости признаков.
Свойства наивной классификации:
1. Использование всех переменных и определение всех зависимостей между ними.
2. Наличие двух предположений относительно переменных:
o все переменные являются одинаково важными;
o все переменные являются статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой.
Нейронные сети (+ кластеризация)
Нейронные сети (Neural Networks) - это модели биологических нейронных сетей мозга, в которых нейроны имитируются относительно простыми, часто однотипными, элементами (искусственными нейронами).
Нейронная сеть может быть представлена направленным графом с взвешенными связями, в котором искусственные нейроны являются вершинами, а синаптические связи - дугами.
Если говорить простым языком, слоистая нейронная сеть представляет собой
совокупность нейронов, которые составляют слои. В каждом слое нейроны между собой никак не связаны, но связаны с нейронами предыдущего и следующего слоев. Информация поступает с первого на второй слой, со второго - на третий и т.д.
Перед использованием нейронной сети ее необходимо обучить.
Процесс обучения нейронной сети заключается в подстройке ее внутренних параметров под конкретную задачу. Алгоритм работы нейронной сети является итеративным, его шаги называют эпохами или циклами. Процесс обучения осуществляется на обучающей выборке.
Нейронные сети бывают с обратными связями и без обратных связей.
Сети без обратных связей
- Сети с обратным распространением ошибки. Сети этой группы характеризуются фиксированной структурой, итерационным обучением, корректировкой весов по ошибкам.
- Другие сети (когнитрон, неокогнитрон, другие сложные модели).
Сети с обратными связями
- Сети Хопфилда (задачи ассоциативной памяти).
- Сети Кохонена (задачи кластерного анализа).