Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
122
Добавлен:
23.03.2016
Размер:
952.83 Кб
Скачать

Лекция 1. Data Mining и перегрузка информацией.

В 2002 году, согласно оценке профессоров из университета Berkeley, объем информации в мире увеличился на пять миллиардов миллиардов (5,000,000,000,000,000,000) байт. Согласно другим оценкам, информация уд­ваивается каждые 2—3 года. Этот потоп, цунами данных приходит из науки, бизнеса, Интернета и других источников. Среди самых больших баз данных в 2003 году France Telecom имела СППР (DSS system) размером 30,000 мил­лиардов байт, a Alexa Internet Archive содержал 500,000 миллиардов байт.

На первом семинаре, посвященном поиску знаний в данных (Knowledge Discovery in Data workshop), который я организовал в 1989 году, один мегабайт (1,000,000) считался размером для большой базы данных. На последней кон­ференции KDD-2003 один докладчик обсуждал базу данных для астрономии размером во много терабайт и предсказывал необходимость иметь дело с петабайтами (1 терабайт = 1,000 миллиардов байт, а 1 петабайт = 1,000 терабайт).

Из-за огромного количества информации очень малая ее часть будет когда-либо увидена человеческим глазом. Наша единственная надежда понять и найти что-то полезное в этом океане информации — широкое применение методов Data Mining.

Data Mining (также называемая Knowledge Discovery In Data— обнаружение знаний в данных) изучает процесс нахождения новых, действительных и по­тенциально полезных знаний в базах данных. Data Mining лежит на пересечении нескольких наук, главные из которых — это системы баз данных, статистика и искусственный интеллект.

Область Data Mining выросла из одного семинара в 1989 году до десятков международных конференций в 2003 году с тысячами исследователей во многих странах мира. Data Mining широко используется во многих областях с большим объемом данных. В науке — астрономии, биологии, биоинформатике, медицине, физике и других областях. В бизнесе — торговле, телекоммуникациях. банковском деле, промышленном производстве и т. д. Благодаря сети Интернет Data Mining используется каждый день тысячи раз в секун­ду— каждый раз, когда кто-то использует Гугл (Google) или другие поиско­вые системы (search engines) на просторах Интернета.

Виды информации, с которыми работают исследователи, включают не только цифровые данные, но и все более текст, изображение, видео, звук и т. д. Одна новая и быстро растущая часть Data Mining — это анализ связей между дан­ными (Jink analysis), которая имеет приложения в таких разных областях, как биоинформатика, цифровые библиотеки и защита против терроризма.

Математический и статистический подходы являются основой для Data Mining. Как уроженцу Москвы и ученику известной в 1970-е годы 2-й математиче­ской школы, мне особенно приятно писать предисловие к первой книге на русском языке, покрывающей эту важную и интересную область.

1.1. Задачи систем поддержки принятия решений.

С появлением первых ЭВМ наступил этап информатизации разных сторон человеческой деятельности. Если раньше человек основное внимание уделял веществу, затем энергии, то сегодня можно без преувеличения ска­зать, что наступил этап осознания процессов, связанных с информацией. Вы­числительная техника создавалась, прежде всего, для обработки данных. В на­стоящее время современные вычислительные системы и компьютерные сети позволяют накапливать большие массивы данных для решения задач обра­ботки и анализа. К сожалению, сама по себе машинная форма представления данных содержит информацию, необходимую человеку, в скрытом виде, и для ее извлечения нужно использовать специальные методы анализа данных.

Большой объем информации, с одной стороны, позволяет получить более точные расчеты и анализ, с другой — превращает поиск решений в сложную задачу. Неудивительно, что первичный анализ данных был переложен на компьютер. В результате появился целый класс программных систем, при­званных облегчить работу людей, выполняющих анализ (аналитиков). Такие системы принято называть системами поддержки принятия решений — СППР (DSS, Decision Support System).

Для выполнения анализа СППР должна накапливать информацию, обладая средствами ее ввода и хранения.

Таким образом, можно выделить три основные задачи, решаемые в СППР:

  • ввод данных;

  • хранение данных;

  • анализ данных.

Настоящее время Время

Рис. 1.1 Уровень использования человеком различных объектов материального мира

Таким образом, СППР — это системы, обладающие средствами ввода, хране­ния и анализа данных, относящихся к определенной предметной области, с целью поиска решений.

Ввод данных в СППР осуществляется либо автоматически от датчиков, ха­рактеризующих состояние среды или процесса, либо человеком-оператором. В первом случае данные накапливаются путем циклического опроса, либо по сигналу готовности, возникающему при появлении информации. Во втором случае СППР должны предоставлять пользователям удобные средства ввода данных, контролирующие корректность вводимых данных и выполняющие сопутствующие вычисления. Если ввод осуществляется одновременно не­сколькими операторами, то система должна решать проблемы параллельного доступа и модификации одних и тех же данных.

Постоянное накопление данных приводит к непрерывному росту их объема. В связи с этим на СППР ложится задача обеспечить надежное хранение больших объемов данных. На СППР также могут быть возложены задачи предотвращения несанкционированного доступа, резервного хранения дан­ных, архивирования и т. п.

Основная задача СППР — предоставить аналитикам инструмент для выпол­нения анализа данных. Необходимо отметить, что для эффективного исполь­зования СППР ее пользователь — аналитик должен обладать соответствую­щей квалификацией. Основная задача СППР — предоставить аналитикам инструмент для выпол¬нения анализа данных. Очевидно, что, с одной стороны, качество принятых решений зависит от квалификации аналитика. С другой — рост объемов анализируемых данных, высокая ско­рость обработки и анализа, а также сложность использования машинной формы представления данных стимулируют исследования и разработку ин­теллектуальных СППР. Для таких СППР характерно наличие функций, реа­лизующих отдельные умственные возможности человека.

По степени "интеллектуальности" обработки данных при анализе выделяют три класса задач анализа:

  • информационно-поисковый— СППР осуществляет поиск необходимых данных. Характерной чертой такого анализа является выполнение заранее определенных запросов;

  • оперативно-аналитический— СППР производит группирование и обоб­щение данных в любом виде, необходимом аналитику. В отличие от ин­формационно-поискового анализа в данном случае невозможно заранее предсказать необходимые аналитику запросы;

  • интеллектуальный— СППР осуществляет поиск функциональных и ло­гических закономерностей в накопленных данных, построение моделей и правил, которые объясняют найденные закономерности и/или (с опреде­ленной вероятностью) прогнозируют развитие некоторых процессов.

Таким образом, обобщенная архитектура СППР может быть представлена следующим образом (рис. 1.2).

Рассмотрим отдельные подсистемы более подробно.

Подсистема ввода данных. В таких подсистемах, называемых OLTP (On­line transaction processing), реализуется операционная (транзакционная) обра­ботка данных. Для их реализации используют обычные системы управления базами данных (СУБД).

Подсистема хранения. Для реализации данной подсистемы используют современные СУБД и концепцию хранилищ данных.

Подсистема анализа. Данная подсистема может быть построена на основе:

  • подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов с использованием языка SQL (Structured Query Language);

  • подсистемы оперативного анализа. Для реализации таких подсистем при­меняется технология оперативной аналитической обработки данных OLAP (On-line analytical processing), использующая концепцию многомерного представления данных;

  • подсистемы интеллектуального анализа. Данная подсистема реализует ме­ тоды и алгоритмы Data Mining ("добыча данных").

Соседние файлы в папке Лекции по СППР!