Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
информационные системы в экономике (лекция).docx
Скачиваний:
25
Добавлен:
19.04.2015
Размер:
835.09 Кб
Скачать

Основы технологии olap.

OLAP базируется на использовании концепции ХД и многомерного представления массива данных.

Основной объект OLAP – OLAP-гиперкуб. Это многомерный массив данных, состоящий из отдельных ячеек, содержащих значения показателей.

Измерения – последовательность конкретных значений атрибутов анализируемого показателя.

Мера – числовое значение показателя, соответствующее определенным меткам измерений.

«Объем продаж»

Метки на осях измерений могут иметь внутреннюю иерархию: мир-страна-регион-город-район-магазин.

Собственно OLAP сводится к последовательности нескольких типовых операций с гиперкубами:

1. Срез (сечение, Slice). В результате среза из исходного куба формируется подмножество значений показателя, соответствующее метке на оси измерений подвергшихся сечению. Для пользователя результатом среза является двухмерная таблица, заголовки строк и столбцов в которой соответствуют неразрезанным измерениям.

2. Rotate. Поворот/Вращение. В результате строки и столбцы меняются местами.

3. Консолидация (свертка).

В результате гиперкуб уменьшается в размерах, за счет консолидации значений показателей по одному или нескольким измерениям.

4. Детализация (развертка) – Drill Down.

В результате выполнения детализации гиперкуб увеличивается, за счет детализации показателей по одному или нескольким измерениям.

5. Построение линий трендов. Строится график зависимостей показателей.

6. Построение кросс – таблиц. Создание перекрестных таблиц из двух и более.

Исходным сырьем для OLAP является обычные двухмерные таблицы.

Разновидности OLAP:

1. ROLAP – реляционный OLAP. При использовании этой технологии массивы для анализа представляют собой реляционные базы. Для реализации OLAP в этом случае используют схему данных, называемая «Звезда».

Fact

Dim. 1

Dim. 2

Dim.3

Таблица фактов содержит данные, например, о числовых значениях показателя. Таблицы измерений содержат данные об атрибутах этого показателя. Т.е. эти данные меняются редко/

Схема «Снежинка».

Dim. 3.1.

В этом случае таблицы измерений могут связываться с консольными таблицами (3.1). Такая схема может использоваться если атрибуты измерений имеют внутреннюю иерархию.

Схема «Созвездие».

Dim. 2.2.

Fact 2

Dim. 2.1.

«Созвездием» эта схема называется потому, что в ней соединяется несколько «Звезд».

В этих схемах используется связь один ко многим (от Dim к Fact).

«+»: В использовании обычных реляционных баз для хранения данных.

«-»: Не слишком высокая эффективность анализа.

2. MOLAP – многомерный OLAP. В этом случае анализу подвергаются именно гиперкубы данных. Фактически каждый гиперкуб представляет собой большую плоскую таблицу, содержащую все значения атрибутов измерений и соответствующие им значения показателей, но система воспринимает как многомерный массив.

«+»: Высокая эффективность анализа.

«-»: Относительная сложность построения таких массивов.

3. HOLAP – гибридный OLAP. Используется сочетание многомерного способа представления данных и реляционного.

«+» предыдущих двух комбинируются.

4. DOLAP (Desktop OLAP) – настольный OLAP. Эти термином обозначают средства для OLAP, которыми можно пользоваться в персональном режиме (на ПК, например).

Требования к средствам OLAP:

Полный список требований к программным средствам реализации OLAP составляют «12 правил Кодда», дополненные позже еще 6 правилами. В сжатом виде эти требования содержатся в тесте FASMI (Fast of Analysis Shared Multidimensional Information) - быстрый анализ разделяемой многомерной информации.

Быстрый означает, что большая часть запросов должна обрабатываться в течении времени, в пределах 3 секунд, при этом наиболее простые – не дольше 1 секунды, а самые сложные – не дольше 20 секунд.

Анализ означает, что OLAP – средство должно обеспечивать выполнение всех видов многомерного, а так же статистического анализа массивов данных.

Разделяемая означает, что в OLAP – средстве должен быть предусмотрен разделяемый доступ к любым элемента массива данных, вплоть до отдельных ячеек.

Многомерной означает, что OLAP – средство должно поддерживать многомерное представление информации, обеспечивать анализ многомерно представленной информации.

Информация. Это слово означает, что OLAP – средство должно предоставлять результаты анализа в любой, необходимой пользователю форме. Это средство должно обеспечивать анализ любой доступной информации.

Технология OLAP практически реализуется с помощью инструментов (приложений) 3 типов:

1. Простые OLAP – средства, интегрированные в различные пакеты общего назначения, например в таблицы.

2. OLAP – средства, интегрированные в большие СУБД, а так же в информационные системы управления предприятием.

3. Автономные OLAP – средства. Например, аналитическая платформа «Контур» и др. Это средства, которые приобретаются отдельно.

ОСНОВЫ ТЕХНОЛОГИЙ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ИНФОРМАЦИОННЫХ СИСТЕМАХ.

Data Mining (добыча данных). Этот термин точнее, чем наименование «интеллектуальный анализ данных».

Data Mining – это методы и средства машинной «добычи» из массивов необработанных данных информации, которая является новой, практически ценной, нетривиальной, доступной для интерпретации человеком.

Типовые задачи Data Mining:

1. Классификация – это разделение совокупности на классы, причем количество классов определено заранее, известны признаки, соответствующие каждому классу.

2. Кластеризация – подобна задаче классификации, но классы заранее не определены.

Кластеры

Классификация кластеризация.

3. Выявление последовательностей – шаблонов в данных, соответствующих событиям, происходящим в определенной последовательности.

4. Выявление ассоциаций – шаблонов в данных, соответствующих событиям, происходящим одновременно.

5. Построение регрессионных моделей и прогнозирование.

Y=a0+a1x

Средствами Data Mining добывается ценная информация из текстовых, гипертекстовых документов сети Internet, а так же находящихся в других источниках. Для обозначения этих технологий используется:

1.Web Content Mining – методы и средства автоматического аннотирования и классификации текстовых и гипертекстовых документов из сети Internet.

2.Web Usage Mining – методы и средства, позволяющие выявить закономерности в поведении пользователей web-узлов.

Text Mining – добыча информации из текстового документа.

Основные средства и технологии Data Mining:

1. Стандартные методы математической статистики:

1.1. регрессионный анализ (построение регрессионных моделей).

1.2. Корреляционный анализ – определение коэффициента ясности связи. (1 – абсолютный предел связи).

1.3. Дисперсионный анализ.

1.4. Кластерный анализ.

2. Переборные методы:

Переборные методы просты в реализации, но их эффективность невысокая, поэтому на практике переборные механизмы улучшаются применением эвристик (улучшения, произведенные опытным путем).

3. Искусственные нейронные сети (ИНС).

ИНС могут быть универсальными классификаторами -апроксиматорами и прогнозаторами.

4. Системы с нечеткой логикой и нечеткие модели:

Используются в областях и конкретных задачах, для которых типична неопределенность в исходных данных и логических правилах. Неопределенность данных может быть связана с неполнотой, недостоверностью, противоречивостью, нечеткостью. При решении многих задач исходная информация недостаточна, противоречива и т.п.

5. Генетические алгоритмы.

Эволюционные стратегии, используемые при решении задач оптимизации.

6. Методы логических шаблонов в шаблонах массивов данных.

Шаблон – последовательность, определенная цепочка событий.

Инструменты Data Mining:

Статистические методы реализуются либо в специальных пакетах (SPSS, STATISTICA, R), несложный анализ выполняется в электронных таблицах (MS Excel, Open Office Calc).

Интеллектуальный анализ выполняется в специальных пакетах (SAS, Polyanalist, MATLAB(имеет пакет расширения для интеллектуального анализа данных): Neural Network, Fuzzy Logic (нечеткая логика), Genetic Algorithm and Direct Search (генетический алгоритм и прямой поиск).

Основные методологии управления, используемые в АИСУП.

В методологии современных АИСУП можно выделить следующие эволюционные этапы:

1. MPS SIC MRP CRP MRPII ERP

- MPS(Master Planning Sheduling – объемно-календарное планирование) – ее внедрение позволяет автоматизировать подготовку календарных графиков (план закупки сырья, материалов и т.п.). Недостаток этой методологии в том, что она не позволяет прогнозировать показатели спроса и т.п. и не предусматривает оптимизацию складских запасов.

- SIC (Statistical Inventory Control – статистическое управление запасами) – применение этой технологии позволяет оптимизировать издержки, связанные со складскими запасами и их пополнением. В основе SIC применение моделей управления запасами.

- MRP (Material Requirements Planning – планирование потребности в материалах) – основным объектом является информация об объекте материального учета (единица сырья, полуфабриката). Основным документом является «Ведомость материалов», которая отражает движение объектов учета.

MRP позволяет при управлении производственным процессом соотнести перечень необходимых комплектующих со складскими запасами, планом закупок.

- CPR (Capacity Requirements Planning – планирование потребностей в мощности) – эта методология позволяет использовать единый подход не только к управлению материалами, но производственными мощностями, такими ресурсами как, финансовые, кадровые, производственные ресурсы).

- MRP II (Manufacturing Resource Planning) – эта методология объединяет все предыдущие концепции. Используется единый подход управления всеми ресурсами компании.

- ERP (Enterprise Resource Planning – планирование ресурсов корпорации) – самая современная методология управления предприятием. Основная задача этих систем: интегрировать в едином информационном пространстве все подразделения крупного предприятия и все функции управления предприятием. Это достигается за счет использования единых баз данных, современных технологий локальных сетей, автоматизации планирования, анализа, контроля, прогнозирования. Наличие этой системы позволяет исключить повторный ввод данных.

Современные крупные АИСУП относятся к ERP-системам.