
- •1. Базы знаний. Основные определения и назначение дисциплины.
- •2. Знания и данные.
- •3. Модели представления знаний. Формальные логические модели. Продукционные модели.
- •4. Модели представления знаний. Семантические сети. Фреймы.
- •5. Формальные логические модели представления знаний.
- •6. Метод резолюций.
- •7. Продукционная модель представления знаний. Виды продукций (3).
- •8. Процесс разработки продукционной модели знаний. И-Или граф.
- •9. Экспертные системы. Методология разработки экспертных систем. Стратегии разрешения конфликтов.
- •10. Деревья решений. Определение, назначение.
- •11. Алгоритмы обучения деревьев решений. Алгоритм id3. Критерии разбиений.
- •12. Алгоритм c4.5
- •13. Алгоритм cart. Построение дерева классификации и регрессии.
- •14. Ансамбли деревьев решений. Алгоритм Random Forest.
- •15. Алгоритм cart. Метод Cost complexity tree pruning.
- •16. Алгоритм сart. Выбор итогового дерева решений. Метод V-fold cross-validation.
- •17. Модель представления знаний на основе семантических сетей.
- •18. Ассоциативные сети.
- •19. Концептуальные графы.
- •20. Фреймовая модель представления знаний. Описание модели.
- •21. Применение фреймовых моделей.
- •22. Ооп как модель представления знаний.
- •24. Семантические технологии Web (Semantic Web). Определение и общее назначение технологии. Преимущества семантических сетей для интернета.
- •25. Технологии Semantic Web. Архитектура Semantic Web. Описание стека технологий и как они приведут к реализации Semantic Web.
- •26. Технологии Semantic Web. Xml. XmlSchema.
- •27. Технологии Semantic Web. Rdf.
- •29. Особенности поисковых систем. Структура организации и алгоритм работы.
- •30. Язык запросов поисковых систем.
- •31. Семантическая поисковая система.
- •34. Процесс разработки онтологий.
- •35. Технологии Semantic Web. Owl.
- •36. Компоненты онтологического языка Web на основе owl.
- •37. Применение онтологий. Значение онтологий для бизнеса.
- •38. Система разработки онтологий Protйgй. Назначение. Модель
- •39. Data Mining. Определение, назначение и решаемые задачи.
- •40. Data Mining. Классификация.
- •41. Data Mining. Кластеризация.
- •42. Date Mining. Прогнозирование.
11. Алгоритмы обучения деревьев решений. Алгоритм id3. Критерии разбиений.
Обучающий алгоритм является прямым, если он обеспечивает правильные классификации, которые классифицируют еще не встречающиеся примеры.
Обучение деревьев решений – обучение с учителем.
Состоит из следующих этапов:
1. Вид-разбиение.
2. Критерий расчленения.
3. Процедура сокращения ветвей – отсечение.
4. Тестирование и извлечение правил.
Для того, чтобы начать строить или обучать дерево решений необходимо:
1. Собрать множество примеров большого объема.
2. Разделить это множество на два непересекающихся – обучающее и проверочное.
3. применить сам алгоритм для построения текущего дерева решений.
4. определить какой процент примеров в тестовом множестве классифицируется деревом.
5. Если дерево не удовлетворяет, то повторять 2-4 для различных алгоритмов и эвристик.
Алгоритм ID3.
Один из наиболее ранних алгоритмов обучения деревьев решений , использующих рекурсивное разбиение подмножеств в узлах дерева по одному из выбранных атрибутов. Начинает работу с корня дерева, в котором содержатся все примеры обучающего множества. Для разделения в нем выбирается один из атрибутов, и для каждого принимаемого им значения строится ветвь, и создается дочерний узел, в который распределяются все содержащие его записи.
Пусть, например, атрибут принимает три значения:: A, B и C. Тогда при разбиении исходного множества алгоритм создаст три дочерних узла T1(A), T2(B) и T3(C), в первый из которых будут помещены все записи со значением A, во второй – B, а в третий – C. В случае конфликтов, решения принимаются большинством.
Процедура повторяется рекурсивно до тех пор, пока в узлах не останутся только примеры одного класса, после чего они будут объявлены листами и ветвление прекратится. Наиболее проблемным этапом здесь является выбор атрибута, по которому будет производиться разбиение. Классический алгоритм ID3 использует для этого критерий увеличения информации или уменьшения энтропии.
В общем, алгоритм ID3 следующий:
1. Взять все неиспользованные признаки и посчитать их энтропию относительно тестовых образцов.
2. Выбрать признак, для которого энтропия минимальна (а информационная выгода соответственно максимальна).
3. Сделать узел дерева, содержащий этот признак.
Если в качестве критерия используют значение энтропии, не используют эвристик усечения дерева.
Алгоритм допускает множественные листья.
Практическое применение классической реализации ID3 сталкивается с рядом проблем, характерных для моделей, основанных на обучении вообще и деревьев решений в частности. Основными из них являются переобучение и наличие пропусков в данных. Поэтому алгоритм был усовершенствован, в результате чего появилась его новая версия С4.5. Она позволяет работать с пропущенными значениями признаков, а также имеет меньшую склонность к переобучению.
Энтропия.
Предположим, что имеется множество А из n элементов, m из которых обладают некоторым свойством S. Тогда энтропия множества А по отношению к свойству S – это
H(A,S)=-(m/n)log2(m/n)-(n-m/n)log2(n-m/n).
Энтропия зависит от пропорции, в которой разделяется множество. Чем «ровнее» поделили, тем больше энтропия. По мере возрастания пропорции от 0 до ½ - энтропия увеличивается, а после – убывает.
Если свойство S не бинарное, а может принимать s различных значений, каждое из которых реализуется в mi случаях, то
H(A,S)=-∑(mi/n)log2(mi/n).
Энтропия – это среднее количество битов, которые требуются, чтобы закодировать атрибут S у элемента множества A.
При выборе атрибута для классификации нужно выбирать его так, чтобы энтропия стала гораздо меньше, при этом энтропия будет разной на разных потомках и выбирать потомка надо с наилучшим вкладом.
Предположим, что множество А из n элементов классифицировано посредством атрибута Q, имеющего q возможных значений, тогда прирост информации (уменьшение энтропии) выделится как
Gain(A,Q)=H(A,S)-∑от 1 до q(|Ai|/A)H(Ai,S), где Ai – множество элементов А, на которых Q=qi.