Скачиваний:
232
Добавлен:
02.05.2014
Размер:
478.21 Кб
Скачать

Структура репозитария хранилища данных

Общая структура репозитария Хранилища Данных — это отражение главной цели его построения, а именно, максимально полно и быстро удов­летворить потребности пользователей в той или иной информации. В зависимости от потребностей пользователей в информации можно выделить сле­дующие основные типы данных.

Персональная информация — это информация, используемая пользователями со строго определенными обязанностями и информационными потреб­ностями. Обычно требует большой предварительной обработки, т.е. имеет высокий уровень агрегации (под агрегацией мы понимаем не только сумми­рование, но и другие преобразования данных, производимые с помощью ад­дитивных и неаддитивных операций).

Информация по бизнес-темам — информация, относящаяся к определенной тематике (например, финансовая деятельность организации). Для организаций, имеющих близкие функциональные и организационные структуры, ее можно определить как информацию для подразделения (на­пример, для финансовой службы), имеющую более широкий спектр как в предметных областях, так и во времени, но в то же время напрямую ис­пользуемую реже, чем персонализированную информацию. Данные обыч­но хранятся в смешанных структурах, многомерные базы данных и реля­ционные таблицы.

Текущие детальные данные — самая подробная информация, доступная в Хранилище Данных. Обычными пользователями используется только в случае необходимости существенного уточнения информации. Такая информа­ция обычно является полем деятельности аналитиков по поиску знаний (или поиску скрытых зависимостей в больших объемах информации); хранится в реляционных структурах.

Прошлые детальные данные — это тот же самый низкий уровень агрегирования, что и у текущих детальных данных. Выделяется в особый тип по следующей причине. С одной стороны, детальные данные часто требу­ют больших ресурсов для хранения, а с другой — детальные данные с воз­растом (например, несколько лет) необходимы в очень редких случаях. Решением в данном случае является использование более дешевых и емких способов хранения, например, машинных лент или роботизированных биб­лиотек.

Построение ис на основе субд oracle 8i

Общая архитектура Хранилища Данных, реализованного средствами Oracle8i, представлена на рис. 1.2. Компоненты центральной части схемы отвечают за эффективное хранение данных, администрирование, проектирование структуры Хранилища и управление метаданными. Важнейшая задача, представленная на рисунке слева, — интеграция и согласование информации из различных источников путем ее извлечения, преобразования, очистки и загрузки в Хранилище Данных. Наконец, для нормальной работы конечных пользователей необходимо предоставить им аналитическую информацию в удобной и доступной форме — это обеспечивают компоненты правой части схемы. Существует целый спектр задач, связанных с организацией доступа к данным Хранилища, — от построения стандартных и нерегламентированных отчетов до сложного анализа типа «что-если», прогнозирования и алгорит­мов «извлечения знаний» (Data Mining).

В качестве механизма хранения в реляционных Хранилищах и Витринах Данных используется сервер Oracle8i, в многомерных Витринах — Express Server. Центральное инструментальное средство — Oracle Warehouse Builder— построение на базе современной архитектуры Common Warehouse Metadata и позволяет спроектировать структуру целевого Хранилища, соз­дать процедуры извлечения, согласования и загрузки данных из различных источников и сгенерировать метаданные. Для задач «извлечения знаний» ис­пользуется Darwin Data Mining Suite.

Рис. 1.2. Архитектура Хранилища Данных

Загрузка данных из различных источников, агрегирование, управление метаданными и интеграция инструментальных средств доступа.

Oracle Pure*Integrate предоставляет мощные средства автоматической очист­ки данных, включающие алгоритмы нечеткой логики, синтаксический раз­бор имен и адресов, вероятностные модели и т.д.

Для решения аналитических задач высокого уровня, связанных со сложными расчетами, прогнозированием, моделированием сценариев «что-если» и т.д., применяется особая технология. Она реализована в виде семейства OLAP-продуктов Oracle Express. Express Server включает в себя мощный механизм аналитических вычислений, включающий в себя более сотни встроенных функций — математических, статистических, функций анализа временных рядов, финансовых и других. Все они могут быть использованы для быстрого построения новых расчетных показателей. Имеется и более продвинутая аналитика — алгоритмы прогнозирования, элементы регресси­онного и частотного анализа, моделирование сценариев «что-если». В любой отчет встроен Селектор — графический инструмент нерегламентированных запросов, позволяющий конечному пользователю формулировать критерии отбора типа «Продажи каких продуктов из 20 имеющих наибольшую долю в общих продажах на 5 и более процентов ниже планируемых?» и получать соответствующие подмножества данных.

Соседние файлы в папке Романов В.П. Интеллектуальные информационные системы в экономике