Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Раздаточный материал по информатике / 09a- Проектирование хранилищ данных (технология ETL).doc
Скачиваний:
67
Добавлен:
23.05.2015
Размер:
632.83 Кб
Скачать

Проблемы сбора данных

(1) Процесс может быть автоматизирован лишь частично.

Это в первую очередь связано с проблемой разнородности БД с точки зрения принципов построения, операционных систем, используемых программ.

(2) Комплексная проблема гетерогенности СУБД. Данные, поступающие в хранилище, могут извлекаться

(А) Из единственного источника, нескольких однотипных источников (имеющих одинаковый тип СУБД) , но чаще

(Б) Из нескольких разнородных источников (имеющих разный тип СУБД).

Существующие СУБД сильно отличаются поддерживаемыми моделями и типами данных, а также языками доступа (множество диалектов SQL). В различных СУБД по-разному реализованы процессы поддержания целостности, журнализации, восстановления, параллельности, репликации и т.д.

Другая проблема данной стадии состоит в необходимости извлекать данные из унаследованных устаревших систем (legacy system).

Большинство СОД, функционирующих сегодня в организациях, были созданы достаточно давно, и уже морально и физически устарели. Проблема унаследованного окружения настолько глубока, что многие специалисты считают ее проблемой номер один при построении хранилищ данных.

Организация процесса пополнения хранилища данных

Поступление данных из СОД не является разовым, а должно производиться для нормального функционирования хранилища с требуемой регулярностью.

Методы обнаружения изменений в данных

(1) непрерывные

  • C точки зрения постоянного поддержания хранилища данных в актуальном и целостном состоянии, наиболее перспективными являются методы непрерывного извлечении данные. Однако чаще всего применить подобные методы не представляется возможным, поскольку приходится извлекать данные из старых систем, не допускающих какого-либо вмешательства.

(2) периодические

  • Наличие среди БД некоторого количества унаследованных систем заставляет в большинстве случаев применять методы периодического извлечения.

Методы непрерывного извлечения данных имеют специальный механизм, который автоматически улавливает изменения в данных.

  • Эти методы больше подходят в случаях, когда количество изменений данных за определенный промежуток времени (например, между передачами данных в хранилище) значительно меньше, чем общий объем данных.

  • Непрерывные методы гораздо сложнее периодических методов, поскольку тесно связаны с СУБД или прикладным программным обеспечением.

Периодические методы отслеживания изменений данных связаны со снятием моментальных снимков данных в определенный момент времени.

Наиболее популярными являются три периодических метода:

  • статическое извлечение данных,

  • извлечение данных, основанное на временном факторе

  • извлечение данных, основанное на сравнении файлов.

Среди рассмотренных методов нет единственно наилучшего.

Таблица

Влияние на БД источника

Влияние на приложение

Сложность

реализации

Возможность извлечения исторических данных

Влияние на производительность БД

Статический

Нет

Нет

Низкая

Низкая

Низкое

Временной

Низкое

Низкое

Низкая

Нет

Низкое

Сравнение файлов

Нет

Нет

Высокая

Низкая

Низкое

Встроенный в приложение

Нет

Высокое

Высокая

Высокая

Высокое

Триггеры

Высокое

Нет

Средняя

Высокая

Высокое

Журнал транзакций

Нег

Нет

Средняя

Высокая

Низкое