
- •Лекция 1. Data Mining и перегрузка информацией.
- •1.1. Задачи систем поддержки принятия решений.
- •1.2. Базы данных — основа сппр.
- •1.3. Неэффективность использования oltp-систем для анализа данных.
- •Лекция 2.
- •2.1 Концепции, принципы и парадигмы выработки решений.
- •2.2. Факторы, определяющие эффективность решения.
- •2.3. Процесс выработки решений в сложных ситуациях.
- •Модель проблемной ситуации принятия решений. Лекция 3. Хранилище данных.
- •3.1. Концепция хранилища данных
- •3.2. Организация хд
- •3.3. Очистка данных
- •3.4. Хранилища данных и анализ
- •Выводы.
Лекция 1. Data Mining и перегрузка информацией.
В 2002 году, согласно оценке профессоров из университета Berkeley, объем информации в мире увеличился на пять миллиардов миллиардов (5,000,000,000,000,000,000) байт. Согласно другим оценкам, информация удваивается каждые 2—3 года. Этот потоп, цунами данных приходит из науки, бизнеса, Интернета и других источников. Среди самых больших баз данных в 2003 году France Telecom имела СППР (DSS system) размером 30,000 миллиардов байт, a Alexa Internet Archive содержал 500,000 миллиардов байт.
На первом семинаре, посвященном поиску знаний в данных (Knowledge Discovery in Data workshop), который я организовал в 1989 году, один мегабайт (1,000,000) считался размером для большой базы данных. На последней конференции KDD-2003 один докладчик обсуждал базу данных для астрономии размером во много терабайт и предсказывал необходимость иметь дело с петабайтами (1 терабайт = 1,000 миллиардов байт, а 1 петабайт = 1,000 терабайт).
Из-за огромного количества информации очень малая ее часть будет когда-либо увидена человеческим глазом. Наша единственная надежда понять и найти что-то полезное в этом океане информации — широкое применение методов Data Mining.
Data Mining (также называемая Knowledge Discovery In Data— обнаружение знаний в данных) изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных. Data Mining лежит на пересечении нескольких наук, главные из которых — это системы баз данных, статистика и искусственный интеллект.
Область Data Mining выросла из одного семинара в 1989 году до десятков международных конференций в 2003 году с тысячами исследователей во многих странах мира. Data Mining широко используется во многих областях с большим объемом данных. В науке — астрономии, биологии, биоинформатике, медицине, физике и других областях. В бизнесе — торговле, телекоммуникациях. банковском деле, промышленном производстве и т. д. Благодаря сети Интернет Data Mining используется каждый день тысячи раз в секунду— каждый раз, когда кто-то использует Гугл (Google) или другие поисковые системы (search engines) на просторах Интернета.
Виды информации, с которыми работают исследователи, включают не только цифровые данные, но и все более текст, изображение, видео, звук и т. д. Одна новая и быстро растущая часть Data Mining — это анализ связей между данными (Jink analysis), которая имеет приложения в таких разных областях, как биоинформатика, цифровые библиотеки и защита против терроризма.
Математический и статистический подходы являются основой для Data Mining. Как уроженцу Москвы и ученику известной в 1970-е годы 2-й математической школы, мне особенно приятно писать предисловие к первой книге на русском языке, покрывающей эту важную и интересную область.
1.1. Задачи систем поддержки принятия решений.
С появлением первых ЭВМ наступил этап информатизации разных сторон человеческой деятельности. Если раньше человек основное внимание уделял веществу, затем энергии, то сегодня можно без преувеличения сказать, что наступил этап осознания процессов, связанных с информацией. Вычислительная техника создавалась, прежде всего, для обработки данных. В настоящее время современные вычислительные системы и компьютерные сети позволяют накапливать большие массивы данных для решения задач обработки и анализа. К сожалению, сама по себе машинная форма представления данных содержит информацию, необходимую человеку, в скрытом виде, и для ее извлечения нужно использовать специальные методы анализа данных.
Большой объем информации, с одной стороны, позволяет получить более точные расчеты и анализ, с другой — превращает поиск решений в сложную задачу. Неудивительно, что первичный анализ данных был переложен на компьютер. В результате появился целый класс программных систем, призванных облегчить работу людей, выполняющих анализ (аналитиков). Такие системы принято называть системами поддержки принятия решений — СППР (DSS, Decision Support System).
Для выполнения анализа СППР должна накапливать информацию, обладая средствами ее ввода и хранения.
Таким образом, можно выделить три основные задачи, решаемые в СППР:
ввод данных;
хранение данных;
анализ данных.
Настоящее время Время
Рис. 1.1 Уровень использования человеком различных объектов материального мира
Таким образом, СППР — это системы, обладающие средствами ввода, хранения и анализа данных, относящихся к определенной предметной области, с целью поиска решений.
Ввод данных в СППР осуществляется либо автоматически от датчиков, характеризующих состояние среды или процесса, либо человеком-оператором. В первом случае данные накапливаются путем циклического опроса, либо по сигналу готовности, возникающему при появлении информации. Во втором случае СППР должны предоставлять пользователям удобные средства ввода данных, контролирующие корректность вводимых данных и выполняющие сопутствующие вычисления. Если ввод осуществляется одновременно несколькими операторами, то система должна решать проблемы параллельного доступа и модификации одних и тех же данных.
Постоянное накопление данных приводит к непрерывному росту их объема. В связи с этим на СППР ложится задача обеспечить надежное хранение больших объемов данных. На СППР также могут быть возложены задачи предотвращения несанкционированного доступа, резервного хранения данных, архивирования и т. п.
Основная задача СППР — предоставить аналитикам инструмент для выполнения анализа данных. Необходимо отметить, что для эффективного использования СППР ее пользователь — аналитик должен обладать соответствующей квалификацией. Основная задача СППР — предоставить аналитикам инструмент для выпол¬нения анализа данных. Очевидно, что, с одной стороны, качество принятых решений зависит от квалификации аналитика. С другой — рост объемов анализируемых данных, высокая скорость обработки и анализа, а также сложность использования машинной формы представления данных стимулируют исследования и разработку интеллектуальных СППР. Для таких СППР характерно наличие функций, реализующих отдельные умственные возможности человека.
По степени "интеллектуальности" обработки данных при анализе выделяют три класса задач анализа:
информационно-поисковый— СППР осуществляет поиск необходимых данных. Характерной чертой такого анализа является выполнение заранее определенных запросов;
оперативно-аналитический— СППР производит группирование и обобщение данных в любом виде, необходимом аналитику. В отличие от информационно-поискового анализа в данном случае невозможно заранее предсказать необходимые аналитику запросы;
интеллектуальный— СППР осуществляет поиск функциональных и логических закономерностей в накопленных данных, построение моделей и правил, которые объясняют найденные закономерности и/или (с определенной вероятностью) прогнозируют развитие некоторых процессов.
Таким образом, обобщенная архитектура СППР может быть представлена следующим образом (рис. 1.2).
Рассмотрим отдельные подсистемы более подробно.
Подсистема ввода данных. В таких подсистемах, называемых OLTP (Online transaction processing), реализуется операционная (транзакционная) обработка данных. Для их реализации используют обычные системы управления базами данных (СУБД).
Подсистема хранения. Для реализации данной подсистемы используют современные СУБД и концепцию хранилищ данных.
Подсистема анализа. Данная подсистема может быть построена на основе:
подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов с использованием языка SQL (Structured Query Language);
подсистемы оперативного анализа. Для реализации таких подсистем применяется технология оперативной аналитической обработки данных OLAP (On-line analytical processing), использующая концепцию многомерного представления данных;
подсистемы интеллектуального анализа. Данная подсистема реализует ме тоды и алгоритмы Data Mining ("добыча данных").