
- •1. Интерактивная аналитическая обработка данных (olap)
- •1.1. Многомерная olap-технология
- •1.3. Категории оlар-инструментов
- •2. Технология разработки данных
- •2.1 Основные понятия технологии разработки данных
- •2.2 Методы разработки данных
- •2.3.Прогнозирующее моделирование
- •2.4.Сегментирование базы данных
- •2.5. Анализ связей
- •2.6. Обнаружение отклонений
- •2.7.Инструменты разработки данных
- •2.8.Разработка данных и хранилища данных
2.4.Сегментирование базы данных
Целью сегментирования базы данных является ее разбиение на некоторое, заранее неизвестное количество сегментов, или кластеров, состоящих из подобных записей, т.е, записей, обладающих некоторыми общими свойствами, что позволяет считать их однородными. (Сегменты обладают высокой внутренней однородностью и высокой внешней неоднородностью.) В этом подходе для обнаружения в базе данных популяций однородных записей используется неконтролируемое обучение, что позволяет повысить точность определения профилей. Сегментирование базы данных является менее точным методом» чем все остальные, а потому он менее чувствителен к избыточным или не относящимся к делу данным. Чувствительность можно понизить либо игнорируя то подмножество атрибутов, которые описывают каждый экземпляр, либо присваивая каждой переменной определенный весовой коэффициент. Метод сегментирования базы данных используется для определения профиля клиентов, прямого маркетинга и перекрестной продажи. Пример использования метода сегментирования базы данных на основе графика с точечными данными показан на рисунке 7.
В этом примере база данных состоит из 300 наблюдений для 100 истинных и 100 поддельных банкнот. Эти данные являются шестимерными, в них каждая размерность соответствует некоторому геометрическому параметру банкноты. Используя метод сегментации базы данных, можно легко обнаружить кластеры, которые соответствуют истинным и поддельным банкнотам. Обратите внимание, что имеются два кластера поддельных банкнот, что объясняется тем, что их изготовляют две разные группы фальшивомонетчиков (Girolami et al., 1997).
Метод сегментирования базы данных также связан с методами демографической и нейронной кластеризации, которые отличаются допустимыми вводными данными, методами расчета расстояния между записями и представлением результирующих сегментов.
Рисунок7. Пример использования метода сегментирования базы данных ни основе графика
2.5. Анализ связей
Целью анализа связей является установление связей, или ассоциации, между отдельными записями или наборами записей в базе данных. Метод анализа связей имеет три различные специализации; поиск ассоциаций, поиск последовательных закономерностей и поиск аналогичных временных последовательностей.
При поиске ассоциаций требуется найти некоторые объекты, которые предполагают наличие других объектов в том же событии. Подобное сходство между объектами представляется с помощью ассоциативных правил. Например: "Если клиент арендует объект недвижимости более двух лет и он старше 25 лет, то в 40% случаев клиент приобретет эту недвижимость. Данная ассоциативная связь наблюдалась в 35% случаев из всех случаев аренды объектов недвижимости клиентами".
При поиске последовательных закономерностей требуется найти закономерности между событиями, т.е. наличие одного набора объектов сопровождается появлением в базе данных другого набора объектов спустя некоторое время. Подобный подход, в частности, может использоваться для достижения понимания долговременного поведения клиентов при совершении покупок.
Поиск сходных временных зависимостей может использоваться, например, для поиска связей между двумя наборами зависящих от времени данных. Он основан на степени подобия между временными закономерностями, которые демонстрируют оба временных ряда. Например, в течение трех месяцев после покупки недвижимости новые владельцы будут приобретать такие товары, как кухонные плиты, холодильники и стиральные машины.
Методы анализа связей применяются для анализа сходства продукции, прямого маркетинга и изменения курса акций.