Добавил:
Меня зовут Катунин Виктор, на данный момент являюсь абитуриентом в СГЭУ, пытаюсь рассортировать все файлы СГЭУ, преобразовать, улучшить и добавить что-то от себя Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика / Теория / подготовка к ит.doc
Скачиваний:
27
Добавлен:
10.08.2023
Размер:
685.06 Кб
Скачать

41. Технология хранилищ данных.

Одно из направлений интеграции информационных технологий связано с использованием хранилищ данных.

Хранилище данных - это предметно-ориентированное, интегрированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений.

Как следует из определения, технологии организации данных в хранилище отличаются следующими свойствами:

  • данные в хранилище организованы вокруг существенных аспектов прикладной деятельности организации, например, товар, покупатель, продажа и т.д. (свойство предметно-ориентированности);

  • информация в хранилище должна интегрироваться в целостную структуру, обеспечивающую возможности анализа данных (свойство интегрированности);

  • хранилище можно рассматривать как набор моментальных снимков состояния данных так, что атрибут времени всегда явно присутствует в структурах данных хранилища(свойство привязки ко времени);

  • данные, попав однажды в хранилище, никогда не изменяются, а только пополняются новыми данными из оперативных систем, где данные постоянно меняются (свойство неизменяемости).

Хранилища обладают общими характеристиками.

  • Хранилища данных являются структурированными, содержат базовые данные, которые образуют единый источник для обработки данных во всех системах поддержки принятия решений.

  • Элементарные данные, присутствующие в хранилище, могут быть представлены в различной форме. Хранилища данных исключительно велики, поскольку в них содержатся интегрированные и детализированные данные.

  • Наряду с общими для всех хранилищ данных характеристиками, разные типы хранилищ могут иметь свои индивидуальные особенности. Например, в финансовых хранилищах данных проявляются недостатки, связанные с тем, что сведения из финансовых хранилищ не совпадают с данными существующей финансовой среды.

Структурные компоненты хранилища данных.

Кратко охарактеризуем основные компоненты технологий хранилищ данных на примере описания хранилища данных для предприятия (см. рис.).

Рис. Основные компоненты и потоки хранилища данных.

Оперативные данные могут собираться из различных источников: иерархические и сетевые базы данных первого поколения, хранящие корпоративные данные; реляционные базы данных, хранящие оперативные данные различных подразделений; закрытые сервера; внешние системы (Интернет, базы данных поставщиков и т. д.).

Поступившие оперативные данные очищаются, интегрируются и складываются в реляционное хранилище. Такие данные доступны для анализа при помощи средств построения отчетов. Затем данные (полностью или частично) подготавливаются с использованием средств переноса и трансформации данных для OLAP-анализа, который реализуется применением средств доступа и анализа данных. Назначение систем класса OLAP (OnlineAnalytical Processing оперативная аналитическая обработка) — предоставить пользователям гибкий, интуитивно понятный и простой доступ к данным.

Важнейшим элементом хранилища являются так называемые метаданные. Метаданные описывают структуру, размещение, трансформацию данных, используемых любыми процессами хранилища.

Метаданные могут быть востребованы для различных целей, например: извлечения изагрузки данных; обслуживания хранилища и запросов.

Метаданные для различных процессов могут иметь различную структуру, т. е. для одного и того же элемента данных может существовать несколько вариантов метаданных.

42. Информационные потоки данных в хранилище.

В технологии хранилищ данных можно выделить пять основных информационных потоков данных.

Входной поток представляет процессы извлечения, очистки и загрузки исходных данных в хранилище. Поступающие данные в хранилище подвергаются перестройке в соответствии с определенными требованиями. Перестройка может включать следующие действия:

  • очистку данных;

  • преобразование данных;

  • проверку внутренней непротиворечивости данных и их непротиворечивости по отношению к данным хранилища.

Сложность процесса извлечения информации зависит от степени согласованности между различными источниками информации.

Восходящий поток связан повышением ценности сохраняемых в хранилище данных и включает следующие процессы:

  • обобщение данных посредством, как реляционных операций, так и проведения сложного статистического анализа данных для получения удобных и полезных для пользователя представлений информации;

  • упаковку данных с преобразованием в более удобный формат представления (электронные таблицы, диаграммы и многое другое);

  • распределение исходных данных на соответствующие группы для повышения их подготовленности к использованию и доступности.

Нисходящий поток определяет архивирование и резервное копирование данных. Нисходящий поток включает также процедуры, обеспечивающие возможность восстановления текущего состояния хранилища в случае потери данных после сбоев в программном или аппаратном обеспечении.

Выходной поток — предоставление данных пользователям. Для его формирования пользователю должна предоставляться среда с эффективно работающими инструментами, позволяющими создавать разнообразные запросы, обеспечивая доступ к наиболее подходящим данным хранилища. Данный поток может содержать и публикации различных объектов, которые доставляются по рассылке на рабочие станции конечным пользователям.

Метапоток определяет управление метаданными. Он связан с перемещением самих метаданных. Поскольку метаданные содержат описание информации хранилища данных, которое со временем меняется, то и сам метапоток должен соответственно обновляться во времени.

Глобальные хранилища данных.

Глобальные хранилища данных предназначены для глобального информационного представления корпорации. Различают три типа таких хранилищ:

географически преобладающая обработка данных (например, необходимо интегрировать бизнес в Москве с бизнесом в Ростове и так далее);

функционально преобладающая обработка данных (производственная деятельность должна быть интегрирована с поставками, которые необходимо интегрировать с продажами, а те с исследованиями и так далее);

отраслевая преобладающая обработка данных (например, требуется интегрировать печатное дело с консалтингом, который подлежит интеграции с бизнесом в сфере медицинского оборудования, а тот со специализацией в области программного обеспечения).

Особенность глобального хранилища данных заключается в том, что на глобальном уровне зачастую очень мало общих измерений. Единственное общее измерение — это деньги. И интеграция бизнеса может быть достигнута только с его помощью.

Помимо этого, глобальное хранилище данных подвержено воздействию перемен. Если в прочих хранилищах изменения базовых данных случаются нечасто, то для этого типа хранилищ они происходят постоянно и в самом основании. Поэтому структура и технология, используемая для размещения и обслуживания глобального хранилища данных, должна позволять поддерживать эти непрерывные перемены.