- •20.7. Средства sql
- •20.8. Резюме
- •21.1. Введение
- •21.2. Некоторые аспекты технологам поддержки принятия решений
- •21.3. Проектирование базы данных поддержки принятия решений
- •21.5. Хранилища данных и магазины данных
- •21.6. Оперативная аналитическая обработка
- •21.7. Разработка данных
- •21.8. Резюме
- •22.1. Введение
- •22.2. Хронологические данные
- •22.3. Основная проблема хронологических баз данных
- •22.4. Интервалы
- •22.5. Интервальные типы
- •22.6. Скалярные операторы для интервалов
- •22.7. Операторы обобщения для интервалов
- •22.8. Реляционные операторы для обработки интервалов
- •22.9. Ограничения, включающие интервалы
- •22.10. Операторы обновления, включающие интервалы
- •22.11. Проектирование базы данных
- •22.12. Резюме
- •23.1. Введение
- •23.2. Обзор основных концепций
- •23.3. Исчисление высказываний
- •23.4. Исчисление предикатов
- •23.5. Базы данных с точки зрения доказательно-теоретического подхода
- •23.6. Дедуктивные субд
- •23.7. Обработка рекурсивных запросов
- •23.8. Резюме
- •Часть VI
- •24.1. Введение
- •24.2. Объекты, классы, методы и сообщения
- •24.3. Еще раз об объектах и объектных классах
- •Cdo для класса set (ref(emp))
- •24.4. Простой пример
- •1 | Course с001 , с001 0ffs , с001 ny offs |
- •24.5. Дополнительные аспекты
- •24.6. Резюме
- •25.1. Введение
- •X2 rational, y2 rational ) ... ;
- •25.2. Первая грубейшая ошибка
- •25.3. Вторая грубейшая ошибка
- •25.4. Вопросы реализации
- •25.5. Преимущества реального сближения двух технологий
- •25.6. Резюме
21.7. Разработка данных
Разработку данных можно охарактеризовать как "исследовательский анализ данных". Цель такой разработки — отыскать интересные взаимосвязи среди данных, которые впоследствии могут использоваться для выработки стратегии деловой активности или для выявления необычного поведения, например внезапно возросшей активности кредитной карточки, что может означать ее кражу. В инструментах разработки данных используются статистические методы, применяемые для больших объемов данных, что и позволяет найти интересующие пользователя закономерности.
Замечание. Слово большие здесь нужно выделить особо. Базы для разработки данных часто чрезвычайно большие, поэтому очень важно, чтобы применяемые алгоритмы обеспечивали масштабируемость.
16
Отметим, что ключ в этой таблице —
{TXt,
PRODUCT}, данные
в таблице удовлетворяют функциональным
зависимостям TX§—>CUSTf
и
TXi~->TIMESTAMP,
а
значит, она не приведена к нормальной
форме Бойса-Кодда (БКНФ); версия таблицы,
в которой столбец PRODUCT
содержал
бы значения-отношения (а столбец TXt
был
бы ключом), могла
бы
быть в БКНФ и лучше бы подходила для
выполнения данных исследований (хотя,
возможно, меньше подходила бы для
других видов исследования).
PORALL tx ( Обувь е tx -» Носки е tx )
SALES
тх# |
CUST# |
TIMESTAMP |
PRODUCT |
ТХ1 |
С1 |
dl |
Обувь |
ТХ1 |
С1 |
dl |
Носки |
ТХ1 |
С1 |
dl |
Галстуки |
ТХ2 |
С2 |
d2 |
Обувь |
ТХ2 |
С2 |
d2 |
Носки |
ТХ2 |
С2 |
d2 |
Галстуки |
ТХ2 |
С2 |
d2 |
Пояса |
ТХ2 |
С2 |
d2 |
Сорочки |
ТХЗ |
СЗ |
d2 |
Обувь |
ТХЗ |
СЗ |
d2 |
Галстуки |
ТХ4 |
С2 |
d2 |
Обувь |
ТХ4 |
С2 |
d3 |
Носки |
ТХ4 |
С2 |
d3 |
Пояса |
Рис. 21.5. Таблица продаж SALES
Введем некоторые дополнительные термины. Множество всех сделок по продаже в данном примере называют совокупностью. Любое данное правило связи имеет уровень поддержки и уровень достоверности, или доверительный уровень. Поддержка — это доля совокупности, в которой правило удовлетворяется. Достоверность — это отношение объема совокупности, в которой удовлетворяется правило, к объему совокупности, в которой удовлетворяется условие. (Отметим, что условие и следствие необязательно должны относиться к одному продукту; они могут относиться к любому количеству различных продуктов.) Рассмотрим, например, такое правило.
FORALL tx (Носки е tx-4 Галстуки € tx)
Для нашего примера данных, представленного на рис. 21.5, совокупность составляет 4 сделки, поддержка равна 50%, а достоверность — 66,67%.
Более общие правила связи могут быть исследованы на соответствующих агрегациях данных. Например, после группирования по заказчикам можно проверить допустимость такого правила, как "Если заказчик покупает обувь, то, вероятно, он также покупает носки, хотя необязательно во время той же сделки".
Могут быть определены и другие виды правил. Например, правило зависимости следствия может использоваться для определения покупаемых образцов в течение некоторого времени ("Если заказчик купил обувь сегодня, то он, вероятно, купит носки в течение пяти дней"). Правило классификации может использоваться для принятия решения по удовлетворению заявки на получение товара в кредит ("Если доход заказчика превышает $75 ООО в год, то, вероятно, риск неплатежа будет невелик") и т.д. Подобно правилам связей правила зависимости следствий и правила классификации также имеют уровни поддержки и достоверности.
Разработка данных представляет собой огромную самостоятельную тему [21.1], поэтому, очевидно, что рассмотреть ее детально в этой книге невозможно. Мы ограничимся кратким описанием вероятного применения методов разработки данных к расширенной версии базы данных поставщиков и деталей. Прежде всего при отсутствии других источников данных мы можем использовать индукцию для классификации поставщиков по их специализации, например по крепежным деталям и деталям двигателя, и предварение значений, чтобы прогнозировать, какими поставщиками и какие детали наиболее вероятно будут поставляться. Затем мы можем использовать демографическую кластеризацию, т.е. разбивку на группы, чтобы связать расходы на поставки с географическим расположением посредством закрепления поставщиков за регионами поставок. После этого можно использовать исследование связей, чтобы определить те детали, которые получены вместе, в одной поставке. С помощью последовательного исследования образцов можно определить, что поставки крепежных деталей, в общем, следуют за поставками деталей двигателя, а путем исследования соответствующих временных циклов — что имеются сезонные количественные изменения в поставках определенных деталей (одни из таких изменений происходят осенью, а другие — весной).