21.7. Разработка данных

Разработку данных можно охарактеризовать как "исследовательский анализ данных". Цель такой разработки — отыскать интересные взаимосвязи среди данных, которые впоследствии могут использоваться для выработки стратегии деловой активности или для выявления необычного поведения, например внезапно возросшей активности кредитной карточки, что может означать ее кражу. В инструментах разработки данных используются статистические методы, применяемые для больших объемов данных, что и позволяет найти интересующие пользователя закономерности.

Замечание. Слово большие здесь нужно выделить особо. Базы для разработки данных часто чрезвычайно большие, поэтому очень важно, чтобы применяемые алгоритмы обеспечивали масштабируемость.

¹⁶ Отметим, что ключ в этой таблице — {TXt, PRODUCT}, данные в таблице удовлетворяют функциональным зависимостям TX§—>CUSTf и TXi~->TIMESTAMP, а значит, она не приведена к нормальной форме Бойса-Кодда (БКНФ); версия таблицы, в которой столбец PRODUCT содержал бы значения-отношения (а столбец TXt был бы ключом), могла бы быть в БКНФ и лучше бы подходила для выполнения данных исследований (хотя, возможно, меньше подходила бы для других видов исследования).

Рассмотрим не очень большую таблицу продаж SALES, показанную на рис. 21.5, в которой содержатся данные относительно определенных деловых сделок по продажам¹⁶. На основе этих данных требуется выполнить аначиз набора потребительских товаров, где под набором потребительских товаров понимается набор продуктов, закупленных во время одной сделки. Благодаря анализу можно определить, например, что потребитель, который покупает обувь, вероятно, покупает и носки как часть одной и той же сделки. Эта зависимость между обувью и носками— пример правила связи. Оно может быть выражено приблизительно так.

PORALL tx ( Обувь е tx -» Носки е tx )

SALES

Здесь Обувь б tx — антецедент, или условие, правила, Носки е tx — результат, или следствие, правила и tx изменяется по всем сделкам по продаже.

тх#	CUST#	TIMESTAMP	PRODUCT
ТХ1	С1	dl	Обувь
ТХ1	С1	dl	Носки
ТХ1	С1	dl	Галстуки
ТХ2	С2	d2	Обувь
ТХ2	С2	d2	Носки
ТХ2	С2	d2	Галстуки
ТХ2	С2	d2	Пояса
ТХ2	С2	d2	Сорочки
ТХЗ	СЗ	d2	Обувь
ТХЗ	СЗ	d2	Галстуки
ТХ4	С2	d2	Обувь
ТХ4	С2	d3	Носки
ТХ4	С2	d3	Пояса

Рис. 21.5. Таблица продаж SALES

Введем некоторые дополнительные термины. Множество всех сделок по продаже в данном примере называют совокупностью. Любое данное правило связи имеет уровень поддержки и уровень достоверности, или доверительный уровень. Поддержка — это доля совокупности, в которой правило удовлетворяется. Достоверность — это отношение объема совокупности, в которой удовлетворяется правило, к объему совокупности, в которой удовлетворяется условие. (Отметим, что условие и следствие необязательно должны относиться к одному продукту; они могут относиться к любому количеству различных продуктов.) Рассмотрим, например, такое правило.

FORALL tx (Носки е tx-4 Галстуки € tx)

Для нашего примера данных, представленного на рис. 21.5, совокупность составляет 4 сделки, поддержка равна 50%, а достоверность — 66,67%.

Более общие правила связи могут быть исследованы на соответствующих агрегациях данных. Например, после группирования по заказчикам можно проверить допустимость такого правила, как "Если заказчик покупает обувь, то, вероятно, он также покупает носки, хотя необязательно во время той же сделки".

Могут быть определены и другие виды правил. Например, правило зависимости следствия может использоваться для определения покупаемых образцов в течение некоторого времени ("Если заказчик купил обувь сегодня, то он, вероятно, купит носки в течение пяти дней"). Правило классификации может использоваться для принятия решения по удовлетворению заявки на получение товара в кредит ("Если доход заказчика превышает $75 ООО в год, то, вероятно, риск неплатежа будет невелик") и т.д. Подобно правилам связей правила зависимости следствий и правила классификации также имеют уровни поддержки и достоверности.

Разработка данных представляет собой огромную самостоятельную тему [21.1], поэтому, очевидно, что рассмотреть ее детально в этой книге невозможно. Мы ограничимся кратким описанием вероятного применения методов разработки данных к расширенной версии базы данных поставщиков и деталей. Прежде всего при отсутствии других источников данных мы можем использовать индукцию для классификации поставщиков по их специализации, например по крепежным деталям и деталям двигателя, и предварение значений, чтобы прогнозировать, какими поставщиками и какие детали наиболее вероятно будут поставляться. Затем мы можем использовать демографическую кластеризацию, т.е. разбивку на группы, чтобы связать расходы на поставки с географическим расположением посредством закрепления поставщиков за регионами поставок. После этого можно использовать исследование связей, чтобы определить те детали, которые получены вместе, в одной поставке. С помощью последовательного исследования образцов можно определить, что поставки крепежных деталей, в общем, следуют за поставками деталей двигателя, а путем исследования соответствующих временных циклов — что имеются сезонные количественные изменения в поставках определенных деталей (одни из таких изменений происходят осенью, а другие — весной).

<<< < Предыдущая 1 2 3 4 5 67 / 417 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в папке Дейт К. Дж. Введение в системы баз данных [7 издание]

#
02.05.20142.66 Mб1801-270.doc
#
02.05.20142.3 Mб122271-540.doc
#
02.05.20142.28 Mб102541-800.doc
#
02.05.20142.54 Mб99801-1073.doc