- •Содержание
- •Обнаружение знаний в базах данных
- •Новые возможности обработки баз данных
- •Особенности Data Mining
- •Типы закономерностей, выявляемых методами Data Mining
- •Традиционные логические методы Data Mining
- •Характеристика новой технологии
- •1Основные этапы процесса интеллектуального анализа и обработки данных.
Новые возможности обработки баз данных
Ключевым фактором деятельности коммерческих, производственных, государственных и других структур является оперативное принятие эффективных решений. Однако естественное стремление усовершенствовать процессы принятия решений нередко наталкивается на труднопреодолимое препятствие — огромный объем и высокая сложность данных, содержащихся в разнообразных оперативных и других информационных системах. Сделать такую информацию доступной для анализа — одна из наиболее серьезных задач, стоящих сегодня перед профессионалами в области информационных технологий.
Современные подходы к решению этой задачи связаны с построением хранилища данных (data warehouse), позволяющего "высвободить" информацию из жестких рамок оперативных систем и лучше осознать проблемы реальной деятельности. Хранилище данных — это интегрированный накопитель информации, собранной из других систем, на основе которого строятся процессы принятия решений и анализа данных. Несмотря на то, что хранилища данных бывают различных типов и могут опираться на разные методологии, и даже философии, построения, все они имеют следующие общие признаки:
Информация в хранилище данных организовывается вокруг базовых понятий, используемых в деятельности подразделений
"Сырые" данные собираются из не интегрированных оперативных и унаследованных приложений, очищаются от ошибок, затем агрегируются и представляются в виде, понятном конечным пользователям.
На основании откликов пользователей, а также закономерностей, обнаруженных с помощью соответствующих методов, архитектура хранилища данных со временем претерпевает изменения – то есть процесс создания хранилища является итеративным.
Хранилище данных – это собрание данных, предназначенное для поддержки принятия управленческих решений и отличающееся предметной ориентированностью, интегрированностью, поддержкой хронологии и неизменяемостью. Иными словами, хранилище данных ориентировано на ключевые понятия (например, цели операций), а не на процессы (например, оформление какой-либо документации), и содержит всю существенную информацию, относящуюся к этим понятиям, которая собрана из различных обрабатывающих систем. Эта информация собирается и представляется за согласованные периоды времени и не подвержена оперативным изменениям.
Одними из основных новых возможностей, появляющихся в результате построения хранилищ данных, являются следующие:
применение средств поддержки принятия решений на основе технологий интеллектуального анализа данных (Data Mining — добыча данных, knowledge discovery in databases — обнаружение знаний в базах данных), включающих методы логического вывода, нейронных сетей и нейрокомпьютеров, и др.
использование средств, повышающих простоту поиска информации и обращения к конкретным прикладным функциям, например, гипертекстовым, естественного языка, речевого ввода.
Особенности Data Mining
Ключевое достоинство Data Mining по сравнению с предшествующими методами — возможность автоматического порождения гипотез о взаимосвязи между различными параметрами или компонентами данных. Работа аналитика при работе с традиционным пакетом обработки данных сводится фактически к проверке или уточнению одной-двух порожденных им самим гипотез. В тех случаях, когда начальных предположений нет, а объем данных значителен, существующие системы теряют работоспособность и превращаются в пожирателей времени аналитика.
Еще одна важная особенность систем Data Mining — возможность обработки многомерных запросов и поиска многомерных зависимостей. Уникальна также способность систем Data Mining автоматически обнаруживать исключительные ситуации — т.е. элементы данных, “выпадающие” из общих закономерностей.