- •Современные исследования в области бд
- •1.Введение
- •1.1.Реляционные системы
- •Интеграция и интероперабельность
- •1.2.Постреляционные системы
- •Активные бд
- •Дедуктивные бд
- •Темпоральные бд
- •Субд следующего поколения
- •Объектно-ориентированные базы данных
- •1.3.Распределенные субд
- •Распределенные и параллельные системы баз данных
- •Обзор известных механизмов репликации данных (тиражирование)
- •Тиражирование слиянием
- •Тиражирование моментального снимка данных
- •Тиражирование транзакций
- •Обновление на подписчике
- •Распределенные транзакции
- •Общие замечания
- •Тиражирование в sql Server 7.0
- •Оперативная аналитическая обработка данных
- •Способы аналитической обработки данных
- •Оперативная аналитическая обработка данных
- •Интеллектуальный анализ данных
- •Интеграция olap и иад
- •Критерии оценки существующих продуктов
- •1. Общее понятие
- •1.1 Архитектуры управления данными
- •1.2 План работ в области пространств данных
- •2. Примеры
- •3. Пространства данных
- •3.1 Логические компоненты пространств данных
- •3.2 Сервисы пространства данных
- •3.3 Системы пространств данных
- •4. Исследовательские проблемы
- •4.1 Модели данных и запросы в dssp
- •4.2 Раскрытие пространства данных
- •4.3 Повторное использование человеческого труда
- •4.4 Хранение и индексирование пространств данных
- •4.5 Гарантии корректности
- •4.6 Теоретические основы
- •5. Перспективы
- •5.1 Связь с другими областями
- •5.2 Обучение пространствам данных
- •5.3 Промышленные перспективы
- •6. Заключение
4.2 Раскрытие пространства данных
Ответственным компонентом построения пространства данных является раскрытие его участников и связей между ними. Очень распространенная проблема сегодняшних крупных предприятий состоит в том, что они даже не знают, какие источники данных имеются в организации. Окончательной целью раскрытия пространства данных является обнаружение участников пространства данных, создание связей между ними и повышение точности существующих связей между участниками. Основными компонентами системы раскрытия пространства данных являются (1) обнаружение участников в организации; (2) полуавтоматическое средство для кластеризации и нахождения связей между участниками и (3) средство для создания более точных связей между участниками (в пределе, отображений схем).
4.3 Повторное использование человеческого труда
Одним из ключевых свойств пространств данных является то, что семантическая интеграция развивается во времени и только там, где требуется. Наиболее дефицитным ресурсом, который можно использовать для семантической интеграции, является человеческий труд. Поэтому важно, чтобы DSSP знали, как повторно использовать работу, проделанную людьми, обобщать ее результаты и повторно их использовать для решения других задач. В сообществе управления данными уже разработаны методы повторного использования работы людей при создании семантических отображений между источниками данных, но это только первый шаг. Другие примеры человеческого труда, результаты которого можно повторно использовать, включают аннотации (например, в созданной вручную аннотации связываются два элемента данных из разных источниках), временные коллекции данных, создаваемые для решения конкретной задачи (называемые цифровыми рабочими средами), запросы над данными (позволяющие вывести некоторые связи, наличие которых невозможно установить каким-либо другим образом) и операции над данными (например, взятие значений из одного столбца электронной таблицы и их вставка в столбец другой таблицы). Задача состоит в том, что предыдущая работа должна быть запомнена в системе, и ее результаты следует использовать при попытках создания дополнительных связей между участниками пространства данных или ответов на запросы к этому пространству. Мы ожидаем, что здесь будут полезными методы машинного обучения (Machine Learning).
4.4 Хранение и индексирование пространств данных
Ключевые проблемы, возникающие при создании компонента DSSP локального хранения и индексации, связаны с неоднородностью индекса. Индекс должен единообразно индексировать все возможные элементы данных, являются ли они словами, встречающимися в тексте, значениями, встречающимися в базе данных, или элементом схемы одного из источников. Кроме того, в индексе должна предусматриваться возможность наличия нескольких способов ссылки на один и тот же объект реального мира. (Заметим, что пока исследования в области согласования ссылок фокусируются на определении ситуаций, когда несколько ссылок относятся к одному и тому же объекту.)
Сложно будет поддерживать индекс в актуальном состоянии, особенно для участников, не имеющих механизмов извещения об обновлениях. Кроме того, несколько интересных проблем автоматической настройки следуют из потребности решать, какие части пространства данных следует кэшировать в локальном хранилище, и какие индексы следует создавать и поддерживать.
