Скачиваний:
79
Добавлен:
02.05.2014
Размер:
2.54 Mб
Скачать

21.7. Разработка данных

Разработку данных можно охарактеризовать как "исследовательский анализ дан­ных". Цель такой разработки — отыскать интересные взаимосвязи среди данных, кото­рые впоследствии могут использоваться для выработки стратегии деловой активности или для выявления необычного поведения, например внезапно возросшей активности кредитной карточки, что может означать ее кражу. В инструментах разработки данных используются статистические методы, применяемые для больших объемов данных, что и позволяет найти интересующие пользователя закономерности.

Замечание. Слово большие здесь нужно выделить особо. Базы для разработки дан­ных часто чрезвычайно большие, поэтому очень важно, чтобы применяемые алгоритмы обеспечивали масштабируемость.

16 Отметим, что ключ в этой таблице — {TXt, PRODUCT}, данные в таблице удовлетворяют функциональным зависимостям TX§—>CUSTf и TXi~->TIMESTAMP, а значит, она не приведена к нормальной форме Бойса-Кодда (БКНФ); версия таблицы, в которой столбец PRODUCT содержал бы значения-отношения (а столбец TXt был бы ключом), могла бы быть в БКНФ и лучше бы под­ходила для выполнения данных исследований (хотя, возможно, меньше подходила бы для других видов исследования).

Рассмотрим не очень большую таблицу продаж SALES, показанную на рис. 21.5, в ко­торой содержатся данные относительно определенных деловых сделок по продажам16. На основе этих данных требуется выполнить аначиз набора потребительских товаров, где под набором потребительских товаров понимается набор продуктов, закупленных во время одной сделки. Благодаря анализу можно определить, например, что потребитель, который покупает обувь, вероятно, покупает и носки как часть одной и той же сделки. Эта зависимость между обувью и носками— пример правила связи. Оно может быть выражено приблизительно так.

PORALL tx ( Обувь е tx -» Носки е tx )

SALES

Здесь Обувь б tx — антецедент, или условие, правила, Носки е tx — результат, или следствие, правила и tx изменяется по всем сделкам по продаже.

тх#

CUST#

TIMESTAMP

PRODUCT

ТХ1

С1

dl

Обувь

ТХ1

С1

dl

Носки

ТХ1

С1

dl

Галстуки

ТХ2

С2

d2

Обувь

ТХ2

С2

d2

Носки

ТХ2

С2

d2

Галстуки

ТХ2

С2

d2

Пояса

ТХ2

С2

d2

Сорочки

ТХЗ

СЗ

d2

Обувь

ТХЗ

СЗ

d2

Галстуки

ТХ4

С2

d2

Обувь

ТХ4

С2

d3

Носки

ТХ4

С2

d3

Пояса

Рис. 21.5. Таблица продаж SALES

Введем некоторые дополнительные термины. Множество всех сделок по продаже в данном примере называют совокупностью. Любое данное правило связи имеет уровень поддержки и уровень достоверности, или доверительный уровень. Поддержка — это доля совокупности, в которой правило удовлетворяется. Достоверность — это отноше­ние объема совокупности, в которой удовлетворяется правило, к объему совокупности, в которой удовлетворяется условие. (Отметим, что условие и следствие необязательно должны относиться к одному продукту; они могут относиться к любому количеству раз­личных продуктов.) Рассмотрим, например, такое правило.

FORALL tx (Носки е tx-4 Галстуки € tx)

Для нашего примера данных, представленного на рис. 21.5, совокупность составля­ет 4 сделки, поддержка равна 50%, а достоверность — 66,67%.

Более общие правила связи могут быть исследованы на соответствующих агрегациях данных. Например, после группирования по заказчикам можно проверить допустимость такого правила, как "Если заказчик покупает обувь, то, вероятно, он также покупает нос­ки, хотя необязательно во время той же сделки".

Могут быть определены и другие виды правил. Например, правило зависимости следствия может использоваться для определения покупаемых образцов в течение неко­торого времени ("Если заказчик купил обувь сегодня, то он, вероятно, купит носки в те­чение пяти дней"). Правило классификации может использоваться для принятия реше­ния по удовлетворению заявки на получение товара в кредит ("Если доход заказчика превышает $75 ООО в год, то, вероятно, риск неплатежа будет невелик") и т.д. Подобно правилам связей правила зависимости следствий и правила классификации также имеют уровни поддержки и достоверности.

Разработка данных представляет собой огромную самостоятельную тему [21.1], по­этому, очевидно, что рассмотреть ее детально в этой книге невозможно. Мы ограничим­ся кратким описанием вероятного применения методов разработки данных к расширен­ной версии базы данных поставщиков и деталей. Прежде всего при отсутствии других источников данных мы можем использовать индукцию для классификации поставщиков по их специализации, например по крепежным деталям и деталям двигателя, и предваре­ние значений, чтобы прогнозировать, какими поставщиками и какие детали наиболее ве­роятно будут поставляться. Затем мы можем использовать демографическую кластери­зацию, т.е. разбивку на группы, чтобы связать расходы на поставки с географическим расположением посредством закрепления поставщиков за регионами поставок. После этого можно использовать исследование связей, чтобы определить те детали, которые получены вместе, в одной поставке. С помощью последовательного исследования образ­цов можно определить, что поставки крепежных деталей, в общем, следуют за поставка­ми деталей двигателя, а путем исследования соответствующих временных циклов — что имеются сезонные количественные изменения в поставках определенных деталей (одни из таких изменений происходят осенью, а другие — весной).

Соседние файлы в папке Дейт К. Дж. Введение в системы баз данных [7 издание]