- •Конспект по курсу «Информационные интеллектуальные системы»
- •1. Введение
- •3. Общение с иис на естественном языке
- •3.1. Проблема диалогового общения
- •3.2. Ограниченный естественный язык. Синтаксис, семантика, словари
- •3.3. Ограниченный естественный язык. Грамматики
- •3.4. Методы интерпретации естественного языка
- •3.5. Пример лингвистической обработки сообщений
- •Обработка вВод вывод
- •3.6. Пример: диалоговая система управления процессом сборки редуктора.
- •4. Обработка информации в иис
- •4.1. Виды, задачи, источники информации
- •4.2. Уровни обработки данных в иис
- •4.3. Слияние информации и принятие решений
- •4.4. Сегментация и классификация
- •4.5. Проблема распознавания речи
- •4.6. Проблема распознавания лиц
- •4.7. Проблема распознавания трехмерных объектов
- •4. Получение знаний
- •4.1. Извлечение знаний
- •4.2. Автоматическое формирование знаний (Обучение)
- •5.2. Раскопка данных и раскрытие знаний
- •Основные понятия интеллектуального анализа данных
- •Постановка задачи
- •Подготовка данных
- •Просмотр данных
- •Построение моделей
- •Исследование и проверка моделей
- •Развертывание и обновление моделей
- •Алгоритмы интеллектуального анализа данных
- •Алгоритм дерева принятия решений (Microsoft)
- •Упрощенный алгоритм Байеса (Microsoft)
- •Алгоритм кластеризации (Microsoft)
- •Алгоритм нейронной сети (Microsoft)
- •Алгоритм логистической регрессии (Microsoft)
- •Алгоритм временных рядов (Microsoft)
- •Алгоритм кластеризации последовательностей (Microsoft)
- •Алгоритм взаимосвязей (Microsoft)
- •5.3. Пример прогнозирования продаж автомобилей
- •4.1. Раскрытие данных. (Data Mining)
- •6. Получение знаний в иис
- •6.1. Проблема обучения машин
- •6.2. Методы обучения в иис
- •6.3. Экспертное (копирующее) обучение
- •6.4. Обучение с подкреплением
- •6.5. Пример управления роботом-уборщиком
- •Использование знаний в иис
- •7.1. Управление знаниями
- •7.2. Знания в Интернете и поиск
- •7.3. Онтологии и поиск Веб-источников
- •7.4. Раскопка Веб-сайтов
- •8. Многоагентные иис
- •8.1. Системы с интеллектуальными агентами на правилах
- •8.2. Системы с интеллектуальными агентами на логике
- •8.3. Системы с когнитивными агентами
- •9. Когнитивные системы
- •Когнитивный подход в психологии и машинном интеллекте
- •Нейрологические средства управления.
- •Реализация базовых нейрологических модулей
- •Когнитивные нейрологические системы управления и агенты.
- •Список литературы (по главе 9)
5.2. Раскопка данных и раскрытие знаний
В прошлом процесс добычи золота в горной промышленности состоял из выбора участка земли и дальнейшего ее просеивания большое количество раз. Иногда искатель находил несколько ценных самородков или мог натолкнуться на золотоносную жилу, но в большинстве случаев он вообще ничего не находил и шел дальше к другому многообещающему месту или же вовсе бросал добывать золото, считая это занятие напрасной тратой времени.
Сегодня появились новые научные методы и специализированные инструменты, сделавшие горную промышленность намного более точной и производительной. Data Mining для данных развилась почти таким же способом. Старые методы, применявшиеся математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.
Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.
Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining.
Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных.
Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др
Рис.1. Data Mining, как мультидисциплинарная область.
Классификация аналитических систем
Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин "Business Intelligence" (BI), деловой интеллект или бизнес-интеллект. Этот термин, предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений.
В 1996 году агентство уточнило определение данного термина.
Business Intelligence - программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений.
Понятие BI объединяет в себе различные средства и технологии анализа и обработки данных масштаба предприятия.
На основе этих средств создаются BI-системы, цель которых - повысить качество информации для принятия управленческих решений.
BI-системы также известны под названием Систем Поддержки Принятия Решений (СППР, DSS, Decision Support System). Эти системы превращают данные в информацию, на основе которой можно принимать решения, т.е. поддерживающую принятие решений.
Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов:
средства построения хранилищ данных (data warehousing, ХД);
системы оперативной аналитической обработки (OLAP);
информационно-аналитические системы (Enterprise Information Systems, EIS);
средства интеллектуального анализа данных (data mining);
инструменты для выполнения запросов и построения отчетов (query and reporting tools).
Классификация Gartner базируется на методе функциональных задач, где программные продукты каждого класса выполняют определенный набор функций или операций с использованием специальных технологий.
SQL Server Business Intelligence Development Studio
Сегодня на рынке представлено множество инструментов, включающих различные методы, которые делают Data Mining прибыльным делом, все более доступным для большинства компаний. Данный список включает в себя как коммерческие, так и свободно распространяемые инструменты. Мы остановимся на рассмотрении средств, предоставляемыми компанией Microsoft в пакете SQL Server 2005.
Microsoft Сервер SQL Server имеет интегрированную среду, предназначенную для создания моделей интеллектуального анализа данных и работы с ними - SQL Server Business Intelligence Development Studio. В этой работе рассматриваются сценарии прямой почтовой рассылки, прогнозирования, анализа потребительской корзины и кластеризации последовательностей с целью продемонстрировать использование алгоритмов интеллектуального анализа данных, средств просмотра моделей интеллектуального анализа и инструментальных средств, включенных в состав служб Microsoft SQL Server 2005 Analysis Services (SSAS).
