
- •Федеральное агентство по образованию
- •1.2. Базы данных - основа сппр
- •1.3. Неэффективность использования oltp-систем для анализа данных
- •Лекция 2. Архитектура современной информационно- аналитической системы
- •2.1. Концепция хранилища данных
- •2.2. Организация хд
- •2.3. Очистка данных
- •2.4. Концепция хранилища данных и анализ
- •3.1. Многомерная модель данных
- •3.4.2. Rolap
- •Многомерное проектирование
- •Выбор архитектуры olap-приложения
- •Заключение
- •Общая структура мер и измерений
- •Лекция 5. Интеллектуальный анализ данных
- •1. Добыча данных – Data Mining
- •2. Задачи Data Mining
- •2.1. Классификация задач Data Mining
- •2.2. Задача классификации и регрессии
- •2.3. Задача поиска ассоциативных правил
- •2.4. Задача кластеризации
- •1.1. Предсказательные (predictive) модели
- •1.2. Описательные (descriptive) модели
- •2. Методы Data Mining
- •2.1. Базовые методы
- •2.2. Нечеткая логика
- •2.3. Генетические алгоритмы
- •2.4. Нейронные сети
- •3. Процесс обнаружения знаний
- •3.1. Основные этапы анализа
- •3.2. Подготовка исходных данных
1.3. Неэффективность использования oltp-систем для анализа данных
Практика использования OLTP-систем показала неэффективность их применениядля полноценного анализа информации. Такие системы достаточно успешно решаютзадачи сбора, хранения и поиска информации, но они не удовлетворяют требованиям,
предъявляемым ксовременнымСППР. Подходы,связанные снаращиваниемфункциональности OLTP-систем, не дали удовлетворительных результатов. Основнойпричиной неудачи является противоречивость требований, предъявляемых к системам OLTP и СППР. Перечень основных противоречий между этими системами приведен втабл. 1.
Таблица 1
Характеристика |
Требования к OLTP- системе |
Требования к системе анализа |
Степень детализации хранимых данных |
Хранениетолькодета- лизированных данных |
Хранениекак детализированных,так иобобщенных данных |
Качество данных |
Допускаютсяневерные данные из-за ошибок ввода |
Не допускаютсяошибки в данных |
Формат хранения данных |
Может содержать данные в разныхформатах взависимости от приложений |
Единыйсогласованный формат хранения данных |
Допущение избыточных данных |
Должнаобеспечиваться максимальная нормализация |
Допускаетсяконтролируемая денормализация (избыточность)дляэффективногоизвлеченияданных |
Управление данными |
Должна быть возможность в любоевремядобавлять,удалять и изменять данные |
Должнабытьвозможность периодическидобавлятьданные |
Количество хранимых данных |
Должныбытьдоступнывсе оперативныеданные,требующиеся в данный момент |
Должны быть доступны все данные,накопленные втечениепродолжительногоинтервала времени |
Характер запросов к данным |
Доступ кданнымполь- зователейосуществляетсяпозаранее составленным запросам |
Запросы кданныммогут бытьпроизвольными изаранее не оформлены |
Времяобработки обращений к данным |
Времяоткликасистемы измеряется всекундах |
Времяоткликасистемы может составлять несколько минут |
Характер вычислительнойнагрузки на систему |
Постоянно средняя загрузка процессора |
Загрузкапроцессора формируетсятолькопривыполнении запроса, но на 100 % |
Приоритетность характеристик системы |
Основнымиприоритетами являютсявысокая производительность идоступность |
Приоритетнымиявляются обеспечение гибкости системы и независимости работыпользователей |
Рассмотрим требования,предъявляемые к системам OLTP и СППР более подробно.
1. Степень детализации хранимых данных. Типичный запрос в OLTP-системе,как правило, выборочно затрагивает отдельные записи в таблицах, которые эффективноизвлекаются с помощью индексов. В системах анализа, наоборот, требуется выполнять
запросы сразу над большим количеством данных с широким применением группировок иобобщений (суммирования,агрегирования и т. п.).
Например, в стандартных системах складского учета наиболее часто выполняются
операции вычисления текущего количества определенного товара на складе, продажи иоплаты товаров покупателями и т. д. В системах анализа выполняются запросы,связанные с определением общей стоимости товаров, хранящихся на складе, категорийтоваров, пользующихся наибольшим и наименьшим спросом, обобщение по категориям исуммирование по всем продажам товаров и т. д.
2. Качество данных. OLTP-системы,какправило,хранятинформацию,
вводимую непосредственно пользователями систем (операторами ЭВМ). Присутствие"человеческогофактора"привводеповышаетвероятность ошибочных данных иможет создать локальные проблемы в системе. При анализе ошибочные данные могутпривести к неправильным выводам и принятию неверных стратегических решений.
3. Формат хранения данных. OLTP-системы,обслуживающие различныеучастки работы, не связаны между собой. Они часто реализуются на разных программно-аппаратных платформах. Одни и те же данные в разных базах могут быть представлены в различномвиде имогутнесовпадать(например,данные оклиенте,которыйвзаимодействовал с разными отделами компании, могут не совпадать в базах данных этихотделов). В процессе анализа такое различие форматов чрезвычайно затрудняет совмест-ный анализ этих данных. Поэтому к системам анализа предъявляется требование единогоформата. Как правило, необходимо, чтобы этот формат был оптимизирован для анализаданных (нередко за счет их избыточности).
4. Допущение избыточных данных. Структура базы данных, обслуживающей
OLTP-систему, обычно довольно сложна. Она может содержать многие десятки и дажесотни таблиц, ссылающихся друг на друга. Данные в такой БД сильно нормализованы дляоптимизациизанимаемых ресурсов.Аналитическиезапросы кБДоченьтрудноформулируются и крайне неэффективно выполняются, поскольку содержат в себепредставления, объединяющие большое количество таблиц. При проектировании системанализастараютсямаксимальноупроститьсхемуБД иуменьшитьколичествотаблиц, участвующих в запросе. С этой целью часто допускают денормализацию(избыточность данных) БД.
5. Управление данными. Основное требование к OLTP-системам - обеспечитьвыполнение операций модификации над БД. При этом предполагается, что они должнывыполняться в реальном режиме, и часто очень интенсивно. Например, при оформлении розничных продаж в систему вводятся соответствующие документы. Очевидно, чтоинтенсивность ввода зависит от интенсивности покупок и в случае ажиотажа будет оченьвысокой, а любое промедление ведет кпотере клиента. В отличие от OLTP-системданные всистемаханализаменяются редко.Единождыпопав всистему,данныеужепрактическинеизменяются.Вводновыхданных,какправило,носитэпизодическийхарактер ивыполняется впериодынизкойактивности системы(например, раз внеделю на выходных).
6. Количество хранимых данных. Как правило, системы анализа предназначеныдля анализа временных зависимостей, в то время как OLTP-системыобычно имеют дело стекущимизначениямикаких-либопараметров. Например,типичноескладскоеприложение OLTP оперирует с текущими остатками товара на складе, в то время как всистеме анализа может потребоваться анализ динамики продаж товара. По этой причине в OLTP-системах допускается хранение данных за небольшой период времени (например,за последний квартал). Для анализа данных, наоборот, необходимы сведения замаксимально большой интервал времени.
7. Характер запросов к данным. В OLTP-системах из-за нормализации БДсоставление запросов является достаточно сложной работой и требует необходимойквалификации. Поэтому для таких систем заранее составляется некоторый ограниченный
набор статических запросов к БД, необходимый для работы с системой (например,наличие товара на складе, размер задолженности покупателей и т. п.). Для СППРневозможно заранее определить необходимые запросы, поэтому к ним предъявляетсятребование обеспечить формирование произвольных запросов к БД аналитиками.
8. Время обработки обращений к данным. OLTP-системы, как правило,
работают в режиме реального времени,поэтому к ним предъявляются жесткие требованияпо обработке данных. Например, время ввода документов продажи товаров (расходныхнакладных) и проверки наличия продаваемого товара на складе должно быть минимально,т. к. от этого зависит время обслуживания клиента. В системах анализа, по сравнению с OLTP, обычно выдвигают значительно менее жесткие требования ко времени выполнениязапроса. При анализе данных аналитик может потратить больше времени для проверкисвоихгипотез. Его запросы могут выполняться в диапазоне от несколькихминут донескольких часов.
9. Характер вычислительной нагрузки на систему. Как уже отмечалось ранее, работа с OLTP-системами, как правило, выполняется в режиме реальноговремени. Всвязи с этим такие системы нагружены равномерно в течение всего интервала времени работы с ними. Документы продажи или прихода товара оформляются в общем случаепостоянно в течение всего рабочего дня. Аналитик при работе с системой анализаобращается к ней для проверки некоторых своих гипотез и получения отчетов, графиков,диаграмм и т. п. При выполнении запросов степень загрузки системы высокая, т. к.обрабатывается большое количество данных, выполняются операции суммирования,группирования и т. п. Таким образом, характер загрузки систем анализа являетсяпиковым. На рис. 3 приведены данные фирмы Oracle, отражающие загрузку процессора втечение дня, для систем OLTP, на рис. 4 - для систем анализа.
100
80
60
40
20
CPU %
80
60
40
20
7:00 9:00 11:00 13:00 15:00 17:00
7:00 9:00 11:00 13:00 15:00 17:00
Рисунок 3. Загрузка процессора для систем OLTP Рисунок 4. Загрузка процессора для систем анализа
10. Приоритетность характеристик системы. Для OLTP-систем приоритетным является высокая производительность и доступность данных, т. к. работа с ними ведется в режиме реального времени. Для систем анализа более приоритетными являются задачиобеспечения гибкости системы и независимости работы пользователей, т. е. то, чтонеобходимо аналитикам для анализа данных.
Противоречивость требований к OLTP-системам и системам, ориентированным наглубокий анализ информации, усложняет задачу их интеграции как подсистем единойСППР. В настоящее время наиболее популярным решением этой проблемы являетсяподход,ориентированный на использование концепции хранилищ данных.
Общая идея хранилищ данных заключается в разделении БД для OLTP-систем иБДдлявыполненияанализа ипоследующемихпроектировании сучетомсоответствующих требований.
Выводы
Из материала,изложенного вданной лекции,можно сделать следующие выводы.
СППР решаюттриосновныезадачи:сбор,хранение ианализхранимой
информации. Задача анализа в общем виде может включать: информационно-
поисковый анализ,оперативно-аналитический анализ и интеллектуальный анализ.
Подсистемы сбора, хранения информации и решения задач информационно-поисковогоанализа внастоящеевремяуспешно реализуются в рамках ИСР средствами СУБД. Для реализации подсистем, выполняющихоперативно-аналитический анализ, используется концепция многомерного представленияданных (OLAP). Подсистема интеллектуального анализа данных реализует методы и алгоритмы Data Mining.
Исторически выделяют три основные структуры БД: иерархическую, сетевую и реляционную. Первые две не нашли широкого применения на практике. Внастоящеевремя,подавляющеебольшинствоБД реализует реляционнуюструктуру представления данных.
Основной недостаток реляционных БД заключается в невозможности обработкиинформации, которую нельзя представить в табличном виде. В связи с этимпредлагаетсяиспользоватьпостреляционныемодели,напримеробъектно-ориентированные.
Дляупрощения разработкиприкладныхпрограмм,использующихБД,создаютсясистемыуправлениябазамиданных(СУБД) -программноеобеспечение для управления данными, их хранения и безопасности данных.
В СУБД развит механизм управлениятранзакциями, что сделало их основным
средствомсозданиясистемоперативнойобработкитранзакций(OLTP-систем). К таким системам относятся первые СППР, решающие задачиинформационно-поискового анализа - ИСР.
OLTP-системынемогутэффективноиспользоватьсядля решениязадач
оперативно-аналитического и интеллектуального анализа информации. Основнаяпричина заключается впротиворечивости требований к OLTP- системе и к СППР.
Внастоящеевремядляобъединения в рамкаходнойсистемы OLTP-
подсистем и подсистем анализа используется концепция хранилищ данных. Общая
идея заключается в выделении БДдля OLTP-подсистем и БД для выполненияанализа.