Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Общий конспект по Технологии анализа и обработ...docx
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
2.66 Mб
Скачать

4. Применение

Наиболее распространенные приложения с применением ассоциативных правил:

  • розничная торговля: определение товаров, которые стоит продвигать совместно; выбор местоположения товара в магазине; анализ потребительской корзины; прогнозирование спроса;

  • перекрестные продажи: если есть информация о том, что клиенты приобрели продукты A, B и C, то какие из них вероятнее всего купят продукт D?

  • маркетинг: поиск рыночных сегментов, тенденций покупательского поведения;

  • сегментация клиентов: выявление общих характеристик клиентов компании, выявление групп покупателей;

  • оформление каталогов, анализ сбытовых кампаний фирмы, определение последовательностей покупок клиентов (какая покупка последует за покупкой товара А);

  • анализ Web-логов.

  1. «Методология Data Mining: crisp-dm»

  1. Определение

  2. Преимущества методологии

  3. Жизненный цикл Data Mining согласно CRISP-DM

1) ОПРЕДЕЛЕНИЕ

CRISP-DM (CRoss Industry Standard Process for Data Mining) наиболее распространенная и популярная методология ведения проектов интеллектуального анализа данных. В соответствии со стандартом CRISP, Data Mining является непрерывным процессом со многими циклами и обратными связями.

2) ПРЕИМУЩЕСТВА МЕТОДОЛОГИИ

  • Пригодна для любой индустрии.

  • Можно использовать любые инструменты.

  • Делает основной упор на интеллектуальном анализе данных.

3) ЖИЗНЕННЫЙ ЦИКЛ DATA MINING СОГЛАСНО CRSIP-DM

CRISP-DM разбивает процесс анализа данных на шесть основных этапов:

  1. Понимание бизнеса (Business Understanding)

Первая фаза процесса направлена на определение целей проекта и требований со стороны бизнеса. Затем эти знания конвертируются в постановку задачи интеллектуального анализа данныхи предварительный план достижения целей проекта.

    1. Определить бизнес цели

    2. Оценить ситуацию

    3. Определить цели анализа данных

    4. Составить план проекта

  1. Понимание данных (Data Understanding)

Вторая фаза начинается со сбора данных и ставит целью познакомиться с данными как можно ближе. Для этого необходимо выявить проблемы с качеством данных такие как ошибки или пропуски, понять что за данные имеются в наличии, попробовать отыскать интересные наборы данных или сформировать гипотезы о наличии скрытых закономерностей в данных.

    1. Собрать исходные данные

    2. Описать данные

    3. Исследовать данные

    4. Проверить качество данных

  1. Подготовка данных (Data Preparation)

Фаза подготовки данных ставит целью получить итоговый набор данных, которые будут использоваться при моделировании, из исходных разнородных и разноформатных данных. Задачи подготовки данных могут выполняться много раз без какого-либо наперед заданного порядка. Они включают в себя отбор таблиц, записей и атрибутов, а также конвертацию и очистку данных для моделирования.

    1. Отобрать данные

    2. Очистить данные

    3. Сделать производные данные

    4. Объединить данные

    5. Привести данные в нужный формат

  1. Моделирование (Modeling)

В этой фазе к данным применяются разнообразные методики моделирования, строятся модели и их параметры настраиваются на оптимальные значения. Обычно для решения любой задачи анализа данных существует несколько различных подходов. Некоторые подходы накладывают особые требования на представление данных. Таким образом часто бывает нужен возврат на шаг назад к фазе подготовки данных.

    1. Выбрать методику моделирования

    2. Сделать тесты для модели

    3. Построить модель

    4. Оценить модель