Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
InfIntSys-09Conspect_add.doc
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
3.64 Mб
Скачать

5.2. Раскопка данных и раскрытие знаний

В прошлом процесс добычи золота в горной промышленности состоял из выбора участка земли и дальнейшего ее просеивания большое количество раз. Иногда искатель находил несколько ценных самородков или мог натолкнуться на золотоносную жилу, но в большинстве случаев он вообще ничего не находил и шел дальше к другому многообещающему месту или же вовсе бросал добывать золото, считая это занятие напрасной тратой времени.

Сегодня появились новые научные методы и специализированные инструменты, сделавшие горную промышленность намного более точной и производительной. Data Mining для данных развилась почти таким же способом. Старые методы, применявшиеся математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.

Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.

Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining.

Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных.

Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др

Рис.1. Data Mining, как мультидисциплинарная область.

Классификация аналитических систем

Агентство Gartner Group, занимающееся анализом рынков информационных технологий, в 1980-х годах ввело термин "Business Intelligence" (BI), деловой интеллект или бизнес-интеллект. Этот термин, предложен для описания различных концепций и методов, которые улучшают бизнес решения путем использования систем поддержки принятия решений.

В 1996 году агентство уточнило определение данного термина.

Business Intelligence - программные средства, функционирующие в рамках предприятия и обеспечивающие функции доступа и анализа информации, которая находится в хранилище данных, а также обеспечивающие принятие правильных и обоснованных управленческих решений.

Понятие BI объединяет в себе различные средства и технологии анализа и обработки данных масштаба предприятия.

На основе этих средств создаются BI-системы, цель которых - повысить качество информации для принятия управленческих решений.

BI-системы также известны под названием Систем Поддержки Принятия Решений (СППР, DSS, Decision Support System). Эти системы превращают данные в информацию, на основе которой можно принимать решения, т.е. поддерживающую принятие решений.

Gartner Group определяет состав рынка систем Business Intelligence как набор программных продуктов следующих классов:

  • средства построения хранилищ данных (data warehousing, ХД);

  • системы оперативной аналитической обработки (OLAP);

  • информационно-аналитические системы (Enterprise Information Systems, EIS);

  • средства интеллектуального анализа данных (data mining);

  • инструменты для выполнения запросов и построения отчетов (query and reporting tools).

Классификация Gartner базируется на методе функциональных задач, где программные продукты каждого класса выполняют определенный набор функций или операций с использованием специальных технологий.

SQL Server Business Intelligence Development Studio

Сегодня на рынке представлено множество инструментов, включающих различные методы, которые делают Data Mining прибыльным делом, все более доступным для большинства компаний. Данный список включает в себя как коммерческие, так и свободно распространяемые инструменты. Мы остановимся на рассмотрении средств, предоставляемыми компанией Microsoft в пакете SQL Server 2005.

Microsoft Сервер SQL Server имеет интегрированную среду, предназначенную для создания моделей интеллектуального анализа данных и работы с ними - SQL Server Business Intelligence Development Studio. В этой работе рассматриваются сценарии прямой почтовой рассылки, прогнозирования, анализа потребительской корзины и кластеризации последовательностей с целью продемонстрировать использование алгоритмов интеллектуального анализа данных, средств просмотра моделей интеллектуального анализа и инструментальных средств, включенных в состав служб Microsoft SQL Server 2005 Analysis Services (SSAS).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]