
- •1. Базы знаний. Основные определения и назначение дисциплины.
- •2. Знания и данные.
- •3. Модели представления знаний. Формальные логические модели. Продукционные модели.
- •4. Модели представления знаний. Семантические сети. Фреймы.
- •5. Формальные логические модели представления знаний.
- •6. Метод резолюций.
- •7. Продукционная модель представления знаний. Виды продукций (3).
- •8. Процесс разработки продукционной модели знаний. И-Или граф.
- •9. Экспертные системы. Методология разработки экспертных систем. Стратегии разрешения конфликтов.
- •10. Деревья решений. Определение, назначение.
- •11. Алгоритмы обучения деревьев решений. Алгоритм id3. Критерии разбиений.
- •12. Алгоритм c4.5
- •13. Алгоритм cart. Построение дерева классификации и регрессии.
- •14. Ансамбли деревьев решений. Алгоритм Random Forest.
- •15. Алгоритм cart. Метод Cost complexity tree pruning.
- •16. Алгоритм сart. Выбор итогового дерева решений. Метод V-fold cross-validation.
- •17. Модель представления знаний на основе семантических сетей.
- •18. Ассоциативные сети.
- •19. Концептуальные графы.
- •20. Фреймовая модель представления знаний. Описание модели.
- •21. Применение фреймовых моделей.
- •22. Ооп как модель представления знаний.
- •24. Семантические технологии Web (Semantic Web). Определение и общее назначение технологии. Преимущества семантических сетей для интернета.
- •25. Технологии Semantic Web. Архитектура Semantic Web. Описание стека технологий и как они приведут к реализации Semantic Web.
- •26. Технологии Semantic Web. Xml. XmlSchema.
- •27. Технологии Semantic Web. Rdf.
- •29. Особенности поисковых систем. Структура организации и алгоритм работы.
- •30. Язык запросов поисковых систем.
- •31. Семантическая поисковая система.
- •34. Процесс разработки онтологий.
- •35. Технологии Semantic Web. Owl.
- •36. Компоненты онтологического языка Web на основе owl.
- •37. Применение онтологий. Значение онтологий для бизнеса.
- •38. Система разработки онтологий Protйgй. Назначение. Модель
- •39. Data Mining. Определение, назначение и решаемые задачи.
- •40. Data Mining. Классификация.
- •41. Data Mining. Кластеризация.
- •42. Date Mining. Прогнозирование.
40. Data Mining. Классификация.
Data mining – это процесс выделения их данных неявной объективной и практически полезной информации и представление ее в виде, пригодном для использования.
выделяют 5 стандартных типов закономерностей, которые позволяют выявить методы Data Mining:
1) ассоциация
2) классификация
3) кластеризация
4) Последовательность
5) прогнозирование
С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. По этим признакам новый объект можно отнести к той или иной группе.
Цель процесса классификации состоит в том, чобы построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и на выходе получает значение зависимого атрибута.
Классификатор – некая сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков.
Процесс классификации в общем случае состоит из 2 этапов:
1) Конструирование модели – описание множества предопределенных классов
2) использование модели – классификация новых или неизвестных знаний, оценка правильности и точности модели.
Уровень точности – процент правильно классифицированных примеров в тестовом множестве.
Тестовое множество не должно зависеть от обучающего множества.
Методы, применяемые для решения задач классификации:
1) деревья решений
2) искусственные НС
3) Байесовская классификация
4) метод опорных векторов
5) статистические методы, в частности, линейная регрессия
6) генетические алгоритмы
7) метод ближайшего соседа
Точность классификации – оценка уровня ошибок.
Оценка точности классификации может производиться при помощи кросс-проверки (процедуры оценки точности классификации на данных из тестового множества и кросс-проверочного множества)
Если точность классификации на обучающей выборке примерно равна точности на проверочной, то модель прошла кросс-проверку.
Оценивание методов классификации можно проводить из следующих характеристик:
1) скорость создания модели для классификации и скорость ее использования
2) Робастность – устойчивость к данным с помехами
3) Интерпретируемость – возможность понимания модели аналитиком
4) Надежность
41. Data Mining. Кластеризация.
Data mining – это процесс выделения их данных неявной объективной и практически полезной информации и представление ее в виде, пригодном для использования.
выделяют 5 стандартных типов закономерностей, которые позволяют выявить методы Data Mining:
1) ассоциация
2) классификация
3) кластеризация
4) Последовательность
5) прогнозирование
Кластеризация предназначена для разбиения совокупности объектов на отдельные группы.
Кластеризация отличается от классификации тем, что сами группы заранее не заданны. DM самостоятельно выделяет группы на основе набора признаков. результатом кластеризации является разбиение на группы.
Цель кластеризации – поиск соответствующих структур данных.
Кластеризация является описательной процедурой и не делает никаких статистических выводов, но позволяет изучить внутреннюю структуру данных, которые исследуются.
Кластером можно считать группу объектов, в которой присутствует:
1) внутренняя однородность
2) Внешняя изолированность
Подходы к кластеризации: алгоритмы, основанные на разделении данных (в том числе итеративные):
1) разделение объектов на k-кластеры и итеративное перераспределение объектов для улучшения кластеризации
2) Методы, основанные на концентрации объектов
3) Грит-методы – основаны на квантовании объектов в грит-стуктуры
4)Иерархические алгоритмы, например, агломерация
5) Модельные методы
Оценка качества кластеризации:
Используются следующие процедуры:
1) ручная провурка
2) Установление контрольных точек и проверка не полученных кластерах
3) Проверка стабильности кластеризации путем добавления новых переменных или объектов
4)Сравнение полученных кластеров с использованием различных методов