
- •1. Введение
- •1.1. Меняющийся мир управления базами данных
- •1.2. Что дают исследования в области баз данных
- •2. Достижения последних лет
- •2.1. Объектно-ориентированные и объектно-реляционные субд
- •2.2. Поддержка новых типов данных
- •2.3. Обработка транзакций
- •3. Новые приложения баз данных
- •3.1. Eosdis
- •3.2. Электронная коммерция
- •3.3. Информационные системы здравоохранения
- •3.4. Электронные публикации
- •3.5. Коллективное проектирование
- •4. Тенденции, влияющие на исследования в области баз данных
- •4.1. Технологические тенденции
- •4.2. Архитектурные тенденции баз данных
- •4.3. Исследования и деловой климат
- •4.4. Информационная супермагистраль проходит через вашу квартиру
- •5. Новые направления исследований
- •5.1. Поддержка мультимедийных объектов
- •5.1.1. Третичная память
- •5.1.2. Новые типы данных
- •5.1.3. Качество обслуживания
- •5.1.4. Запросы с нечеткими критериями
- •5.1.5. Поддержка пользовательских интерфейсов
- •5.2. Распределение информации
- •5.2.1. Степень автономности
- •5.2.2. Учет и расчеты
- •5.2.3. Безопасность и конфиденциальность
- •5.2.4. Репликация и согласование данных
- •5.2.5. Интеграция и преобразование данных
- •5.2.6. Выборка и обнаружение данных
- •5.2.7. Качество данных
- •5.3. Новые применения баз данных
- •5.3.1. Интеллектуальный анализ данных
- •5.3.2. Хранилища данных
- •5.3.3. Репозитарии
- •5.4. Управление потоками работ и транзакциями
- •5.4.1. Управление потоками работ
- •5.4.2. Альтернативные модели транзакций
- •5.5. Простота использования
- •6. Выводы
5.3. Новые применения баз данных
Традиционно системы баз данных использовались для поддержки приложений обработки бизнес-данных, и основные направления исследований были ориентированы именно на этот класс приложений. В последнее время образовались новые важные области применения баз данных, и каждая из них представляет принципиально новую среду, к которой необходимо адаптировать технологии СУБД. Эти области получили на рынке названия интеллектульного анализа данных (data mining), хранилищ данных (data warehousing), репозитариев данных (data repository), и далее мы их по очереди обсудим.
5.3.1. Интеллектуальный анализ данных
Идея интеллектульного анализа данных (data mining), т.е. извлечения информации из огромных массивов данных, накопленных совсем для других целей, вызывает сегодня повышенный энтузиазм. Например, авиакомпании добиваются оптимального заполнения рейсов за счет анализа накопленных ранее данных о резервировании билетов. Можно привести еще одну совершенно замечательную историю о том, как была обнаружена неожиданная корреляция между покупками пива и покупками салфеток в послеобеденный период. Владелец магазина приблизил друг к другу отделы, торгующие пивом и салфетками, а между ними поместил еще прилавки с картофельными чипсами. В результате увеличились продажи всех трех видов товара.
С запросами, характерными для систем интеллектульного анализа данных, связан ряд необычных проблем.
Они включают, как правило, агрегацию огромных объемов данных.
Они имеют нерегламентированный характер; их формулируют лица, ответственные за принятие решений, когда им необходимо выявить какие-либо неочевидные взаимосвязи.
В приложениях, связанных, например, с торговлей ценными бумагами, очень важно малое время ответа. Суть проблемы состоит здесь в том, чтобы сократить общее время, необходимое для написания, отладки и выполнения запроса.
Довольно часто пользователь не в состоянии точно сформулировать запрос – ему просто нужно обнаружить "что-нибудь любопытное".
Таким образом, с добычей данных связаны следующие исследовательские направления.
Методы оптимизации сложных запросов, включающих, например, агрегацию и группирование.
Методы поддержки "многомерных" запросов, относящихся к данным, организованным в виде "куба", в ячейках которого находятся интересующие данные (например объемы продаж). "Измерениями" такого куба могут быть дата продажи, название магазина, наименование товара, цвет, поставщик.
Методы оптимизаци использования третичной памяти.
Языки запросов очень высокого уровня, а также интерфейсы для поддержки пользователей, не являющихся экспертами, которым нужны ответы на нерегламентированные запросы.
5.3.2. Хранилища данных
В хранилище данных накапливаются данные из одной или более баз данных. Существует множество потенциальных применений, а также подходов к организации хранилищ данных. Например, крупный магазин может поддерживать хранилище данных на основе транзакционных данных о кассовых операциях для целей добычи данных (разд. 5.3.1). В хранилище данных может сохраняться информация из многих баз данных для использования в чрезвычайных ситуациях. Например, в едином хранилище данных поддерживаются сведения о гражданской инфраструктуре (дороги, мосты, трубопроводы и т.п.), поскольку, например, после землетрясения вряд ли удастся получить эту информацию из городов, находящихся вблизи эпицентра. Еще один пример – использование хранилища данных как "материализованного представления" интегрированной информации. В 5.2.5 обсуждалась идея медиаторов, которые дают целостное представление данных, извлеченных из множества источников. Альтернативой медиаторных систем могут служить хранилища данных, обеспечивающие физическое хранение интегрированных данных. В отличие от хранилищ, медиаторы предоставляют информацию, рассылая запросы нескольким источникам, подобно тому, как это происходит при реализации представлений.
Некоторые исследовательские проблемы, касающиеся хранилищ данных, совпадают с теми, которые характерны для интеграции данных в целом, но есть и некоторые специфические проблемы.
Инструменты для создания насосов данных (data pump), т.е. модулей, функционирующих над средой источников данных и поставляющих в хранилище те изменения, которые существенны с точки зрения хранилища; при этом данные должны транслироваться в соответствии с глобальной моделью и схемой хранилища.
Методы "чистки данных" (data scrubbing), которые обеспечивают согласование данных, удаление элементов, соответствующих разным представлениям одного и того же объекта (например "Sally Tones" и "S.A. Tones"), а также удаление неправдоподобных значений.
Средства для создания и поддержания метасловаря, информирующего пользователей о способах получения данных.