Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИАС / Лекции по ИАС.doc
Скачиваний:
221
Добавлен:
17.05.2015
Размер:
3.26 Mб
Скачать

1.3. Неэффективность использования oltp-систем для анализа данных

Практика использования OLTP-систем показала неэффективность их применениядля полноценного анализа информации. Такие системы достаточно успешно решаютзадачи сбора, хранения и поиска информации, но они не удовлетворяют требованиям,

предъявляемым ксовременнымСППР. Подходы,связанные снаращиваниемфункциональности OLTP-систем, не дали удовлетворительных результатов. Основнойпричиной неудачи является противоречивость требований, предъявляемых к системам OLTP и СППР. Перечень основных противоречий между этими системами приведен втабл. 1.

Таблица 1

Характеристика

Требования к OLTP-

системе

Требования к системе анализа

Степень детализации

хранимых данных

Хранениетолькодета-

лизированных данных

Хранениекак

детализированных,так иобобщенных данных

Качество данных

Допускаютсяневерные

данные из-за ошибок ввода

Не допускаютсяошибки в

данных

Формат хранения

данных

Может содержать данные в

разныхформатах взависимости от приложений

Единыйсогласованный

формат хранения данных

Допущение

избыточных данных

Должнаобеспечиваться

максимальная нормализация

Допускаетсяконтролируемая

денормализация

(избыточность)дляэффективногоизвлеченияданных

Управление данными

Должна быть возможность в

любоевремядобавлять,удалять и изменять данные

Должнабытьвозможность

периодическидобавлятьданные

Количество хранимых

данных

Должныбытьдоступнывсе

оперативныеданные,требующиеся в данный момент

Должны быть доступны все

данные,накопленные втечениепродолжительногоинтервала времени

Характер запросов

к данным

Доступ кданнымполь-

зователейосуществляетсяпозаранее составленным запросам

Запросы кданныммогут

бытьпроизвольными изаранее не оформлены

Времяобработки

обращений к данным

Времяоткликасистемы

измеряется всекундах

Времяоткликасистемы

может составлять несколько

минут

Характер

вычислительнойнагрузки на систему

Постоянно средняя загрузка

процессора

Загрузкапроцессора

формируетсятолькопривыполнении запроса, но на 100

%

Приоритетность

характеристик

системы

Основнымиприоритетами

являютсявысокая

производительность идоступность

Приоритетнымиявляются

обеспечение гибкости системы

и независимости работыпользователей

Рассмотрим требования,предъявляемые к системам OLTP и СППР более подробно.

1. Степень детализации хранимых данных. Типичный запрос в OLTP-системе,как правило, выборочно затрагивает отдельные записи в таблицах, которые эффективноизвлекаются с помощью индексов. В системах анализа, наоборот, требуется выполнять

запросы сразу над большим количеством данных с широким применением группировок иобобщений (суммирования,агрегирования и т. п.).

Например, в стандартных системах складского учета наиболее часто выполняются

операции вычисления текущего количества определенного товара на складе, продажи иоплаты товаров покупателями и т. д. В системах анализа выполняются запросы,связанные с определением общей стоимости товаров, хранящихся на складе, категорийтоваров, пользующихся наибольшим и наименьшим спросом, обобщение по категориям исуммирование по всем продажам товаров и т. д.

2. Качество данных. OLTP-системы,какправило,хранятинформацию,

вводимую непосредственно пользователями систем (операторами ЭВМ). Присутствие"человеческогофактора"привводеповышаетвероятность ошибочных данных иможет создать локальные проблемы в системе. При анализе ошибочные данные могутпривести к неправильным выводам и принятию неверных стратегических решений.

3. Формат хранения данных. OLTP-системы,обслуживающие различныеучастки работы, не связаны между собой. Они часто реализуются на разных программно-аппаратных платформах. Одни и те же данные в разных базах могут быть представлены в различномвиде имогутнесовпадать(например,данные оклиенте,которыйвзаимодействовал с разными отделами компании, могут не совпадать в базах данных этихотделов). В процессе анализа такое различие форматов чрезвычайно затрудняет совмест-ный анализ этих данных. Поэтому к системам анализа предъявляется требование единогоформата. Как правило, необходимо, чтобы этот формат был оптимизирован для анализаданных (нередко за счет их избыточности).

4. Допущение избыточных данных. Структура базы данных, обслуживающей

OLTP-систему, обычно довольно сложна. Она может содержать многие десятки и дажесотни таблиц, ссылающихся друг на друга. Данные в такой БД сильно нормализованы дляоптимизациизанимаемых ресурсов.Аналитическиезапросы кБДоченьтрудноформулируются и крайне неэффективно выполняются, поскольку содержат в себепредставления, объединяющие большое количество таблиц. При проектировании системанализастараютсямаксимальноупроститьсхемуБД иуменьшитьколичествотаблиц, участвующих в запросе. С этой целью часто допускают денормализацию(избыточность данных) БД.

5. Управление данными. Основное требование к OLTP-системам - обеспечитьвыполнение операций модификации над БД. При этом предполагается, что они должнывыполняться в реальном режиме, и часто очень интенсивно. Например, при оформлении розничных продаж в систему вводятся соответствующие документы. Очевидно, чтоинтенсивность ввода зависит от интенсивности покупок и в случае ажиотажа будет оченьвысокой, а любое промедление ведет кпотере клиента. В отличие от OLTP-системданные всистемаханализаменяются редко.Единождыпопав всистему,данныеужепрактическинеизменяются.Вводновыхданных,какправило,носитэпизодическийхарактер ивыполняется впериодынизкойактивности системы(например, раз внеделю на выходных).

6. Количество хранимых данных. Как правило, системы анализа предназначеныдля анализа временных зависимостей, в то время как OLTP-системыобычно имеют дело стекущимизначениямикаких-либопараметров. Например,типичноескладскоеприложение OLTP оперирует с текущими остатками товара на складе, в то время как всистеме анализа может потребоваться анализ динамики продаж товара. По этой причине в OLTP-системах допускается хранение данных за небольшой период времени (например,за последний квартал). Для анализа данных, наоборот, необходимы сведения замаксимально большой интервал времени.

7. Характер запросов к данным. В OLTP-системах из-за нормализации БДсоставление запросов является достаточно сложной работой и требует необходимойквалификации. Поэтому для таких систем заранее составляется некоторый ограниченный

набор статических запросов к БД, необходимый для работы с системой (например,наличие товара на складе, размер задолженности покупателей и т. п.). Для СППРневозможно заранее определить необходимые запросы, поэтому к ним предъявляетсятребование обеспечить формирование произвольных запросов к БД аналитиками.

8. Время обработки обращений к данным. OLTP-системы, как правило,

работают в режиме реального времени,поэтому к ним предъявляются жесткие требованияпо обработке данных. Например, время ввода документов продажи товаров (расходныхнакладных) и проверки наличия продаваемого товара на складе должно быть минимально,т. к. от этого зависит время обслуживания клиента. В системах анализа, по сравнению с OLTP, обычно выдвигают значительно менее жесткие требования ко времени выполнениязапроса. При анализе данных аналитик может потратить больше времени для проверкисвоихгипотез. Его запросы могут выполняться в диапазоне от несколькихминут донескольких часов.

9. Характер вычислительной нагрузки на систему. Как уже отмечалось ранее, работа с OLTP-системами, как правило, выполняется в режиме реальноговремени. Всвязи с этим такие системы нагружены равномерно в течение всего интервала времени работы с ними. Документы продажи или прихода товара оформляются в общем случаепостоянно в течение всего рабочего дня. Аналитик при работе с системой анализаобращается к ней для проверки некоторых своих гипотез и получения отчетов, графиков,диаграмм и т. п. При выполнении запросов степень загрузки системы высокая, т. к.обрабатывается большое количество данных, выполняются операции суммирования,группирования и т. п. Таким образом, характер загрузки систем анализа являетсяпиковым. На рис. 3 приведены данные фирмы Oracle, отражающие загрузку процессора втечение дня, для систем OLTP, на рис. 4 - для систем анализа.

CPU %

100

80

60

40

20

CPU %

100

80

60

40

20

7:00 9:00 11:00 13:00 15:00 17:00

7:00 9:00 11:00 13:00 15:00 17:00

Рисунок 3. Загрузка процессора для систем OLTP Рисунок 4. Загрузка процессора для систем анализа

10. Приоритетность характеристик системы. Для OLTP-систем приоритетным является высокая производительность и доступность данных, т. к. работа с ними ведется в режиме реального времени. Для систем анализа более приоритетными являются задачиобеспечения гибкости системы и независимости работы пользователей, т. е. то, чтонеобходимо аналитикам для анализа данных.

Противоречивость требований к OLTP-системам и системам, ориентированным наглубокий анализ информации, усложняет задачу их интеграции как подсистем единойСППР. В настоящее время наиболее популярным решением этой проблемы являетсяподход,ориентированный на использование концепции хранилищ данных.

Общая идея хранилищ данных заключается в разделении БД для OLTP-систем иБДдлявыполненияанализа ипоследующемихпроектировании сучетомсоответствующих требований.

Выводы

Из материала,изложенного вданной лекции,можно сделать следующие выводы.

 СППР решаюттриосновныезадачи:сбор,хранение ианализхранимой

информации. Задача анализа в общем виде может включать: информационно-

поисковый анализ,оперативно-аналитический анализ и интеллектуальный анализ.

 Подсистемы сбора, хранения информации и решения задач информационно-поисковогоанализа внастоящеевремяуспешно реализуются в рамках ИСР средствами СУБД. Для реализации подсистем, выполняющихоперативно-аналитический анализ, используется концепция многомерного представленияданных (OLAP). Подсистема интеллектуального анализа данных реализует методы и алгоритмы Data Mining.

 Исторически выделяют три основные структуры БД: иерархическую, сетевую и реляционную. Первые две не нашли широкого применения на практике. Внастоящеевремя,подавляющеебольшинствоБД реализует реляционнуюструктуру представления данных.

 Основной недостаток реляционных БД заключается в невозможности обработкиинформации, которую нельзя представить в табличном виде. В связи с этимпредлагаетсяиспользоватьпостреляционныемодели,напримеробъектно-ориентированные.

 Дляупрощения разработкиприкладныхпрограмм,использующихБД,создаютсясистемыуправлениябазамиданных(СУБД) -программноеобеспечение для управления данными, их хранения и безопасности данных.

 В СУБД развит механизм управлениятранзакциями, что сделало их основным

средствомсозданиясистемоперативнойобработкитранзакций(OLTP-систем). К таким системам относятся первые СППР, решающие задачиинформационно-поискового анализа - ИСР.

 OLTP-системынемогутэффективноиспользоватьсядля решениязадач

оперативно-аналитического и интеллектуального анализа информации. Основнаяпричина заключается впротиворечивости требований к OLTP- системе и к СППР.

 Внастоящеевремядляобъединения в рамкаходнойсистемы OLTP-

подсистем и подсистем анализа используется концепция хранилищ данных. Общая

идея заключается в выделении БДдля OLTP-подсистем и БД для выполненияанализа.

Соседние файлы в папке ИАС