ИИС
.pdfИзвлечение информации из процесса.
Осуществим извлечение данных (сделаем срез) из процесса Продажи, например, за последние 3 месяца от имеющихся данных. Для этого проделаем следующие действия.
Выберите загруженные данные процесса Продажи в сценариях.
Правой кнопкой мыши откройте меню и выберите
Мастер импорта.
Выберите тип источника данных- Deductor Warehouse, на следующем шаге - ХД Фармация, а затем - процесс Продажи. Далее задайте, какие измерения и атрибуты из выбранного на предыдущем шаге процесса должны быть импортированы (рис. 7). Заметим, что внутри измерения Товар. Код появилась возможность доступа к измерению Группа. Код.
260
Рис. 7. Выбор импортируемых измерений и атрибутов.
Определите импортируемые факты и виды их агрегаций В большинстве случаев требуется агрегация в виде суммы.
Определите условие и значение среза «Все продажи за последние 3 месяца от имеющихся данных».
261
Изменение цвета пиктограммы у объекта хранилища на красный говорит о том, что по нему настроен срез.
Нажмите Далее. Убедитесь в правильности среза. Покажите результат преподавателю.
Чтобы задать другие параметры среза для данного измерения или атрибута, необходимо выделить его в дереве объектов, выбрать условие и щелкнуть по кнопке выбора значений- . В результате откроется диалоговое окно, в котором нужно задать параметры фильтрации.
Список условий содержит несколько значений, основные из которых следующие:
<пусто>- фильтрация по указанному объекту не производится;
= - указывается значение, которое нужно импортировать;
<>- указывается значение, которое не нужно импортировать.
в списке - указываются значения, которые входят в список импортируемых;
вне списка — указываются значения, которые не входят в список импортируемых.
содержит - указывается подстрока, которая должна содержаться в импортируемых значениях измерений;
не содержит - указывается подстрока, которая не должна содержаться в импортируемых значениях измерений;
начинается на- указывается подстрока, с которой должны начинаться импортируемые значения измерений; начинается на- указывается подстрока, с которой не должны начинаться импортируемые значения измерений; заканчивается на- указывается подстрока, на которую
262
должны заканчиваться импортируемые значения измерений;
не заканчивается на- указывается подстрока, на которую
не должны заканчиваться импортируемые значения измерений.
Для измерений типа вещественное и целое число
дополнительно доступны следующие основные фильтры:
<, <=, >, >= - соответствующие операции сравнения чисел;
в интервале - выбираются значения, попадающие в заданный числовой интервал;
вне интервала - выбираются значения за пределами
заданного числового интервала; Для измерений типа дата/время дополнительно
доступны следующие основные фильтры:
в интервале - выбираются записи, для которых измерение
лежит в заданном диапазоне дат;
вне интервала - выбираются записи, для которых измерение не входит в заданный диапазон дат,
последний - выбираются записи, для которых измерение лежит в указанном промежутке времени (промежуток задается), предшествующем указанной дате;
не последний — выбираются все записи, кроме тех, для которых измерение лежит в указанном промежутке времени, предшествующем указанной дате.
Извлечение информации из измерений.
Импорт измерений ничем не отличается от импорта из процесса. Аналогично в мастере импорта выбирается интересующее измерение из списка доступных объектов хранилища. Дальше нужно выбрать атрибуты текущего
263
измерения, которые будут включены в выходной набор данных и связанные измерения (если существует иерархия измерений). Для этого требуемые атрибуты или связанные измерения помечаются флагом, расположенным слева от имени атрибута.
Неотмеченные объекты не будут включены в итоговый набор.
Задания для проверки (самопроверки):
1.Создать срез «Продажи в аптеке №2 за летние месяцы».
2.Создать срез «Продажи в аптеке №1 с 8 до14 часов».
3.Создать срез «Продажи в аптеке №3 за 4 квартал».
и.т.п.
264
ЛАБОРАТОРНАЯ РАБОТА №5. АНАЛИТИЧЕСКАЯ ПЛАТФОРМА DEDUCTOR. АССОЦИАТИВНЫЕ ПРАВИЛА
Тема: АНАЛИТИЧЕСКАЯ ПЛАТФОРМА DEDUCTOR.
АССОЦИАТИВНЫЕ ПРАВИЛА.
Учебные вопросы:
9.Введение в ассоциативные правила.
10.Генерация ассоциативных правил.
11.Интерпретация ассоциативных правил.
12.Визуализатор «Что-если» в ассоциативных правилах.
Время: 4 часа.
Место: компьютерный класс.
Материально-техническое обеспечение:
8.ПЭВМ.
9.Аналитическая платформа Deductorверсии Academic, которую можно скачать с официального сайта фирмыразработчика BaseGroupLabs (www.basegroup.ru) или с диска, прилагающегося к источнику [4].
10.Файлы с исходными данными в формате txt. Архив файлами можно скачать с сайта фирмы разработчика
(http://www.basegroup.ru/download/demoprg/practicum/)
или с диска, прилагающегося к источнику [4].
Методические рекомендации по проведению занятия.
Перед началом занятий необходимо распаковать архив с файлом исходных данных в папку «Мои документы\Лаб5».
Первый |
учебный вопрос |
рекомендуется изучить |
и |
законспектировать в рабочую тетрадь. |
|
||
Ответы |
на вопросы для |
проверки в конце каждого |
|
|
265 |
|
учебного вопроса могут быть письменными или устными.
1. Введение в ассоциативные правила.
Одним из распространенных аналитических методов является аффинитивный анализ (англ: affinityanalysis). Название метода происходит от английского слова affinity – близость, сходство. Целью данного метода является исследование взаимной связи между событиями, которые происходят совместно. Одной из разновидностей аффинитивного анализа является анализ рыночной корзины (англ: marketbasketanalysis), цель которого – обнаружить ассоциации между различными событиями, т.е. найти правила для количественного описания взаимной связи между двумя или более событиями. Такие правила называются ассоциативными правилами (англ.: associationrules)[4].
Примерами приложения ассоциативных правил могут быть следующие задачи:
1.Обнаружение наборов товаров, которые в супермаркетах часто покупаются вместе или никогда не покупаются вместе.
2.Определение доли клиентов, положительно относящихся к нововведениям в их обслуживании.
3.Определение профиля посетителя веб-ресурса.
4.Определение доли случаев, в которых новое лекарство показывает опасный побочный эффект.
Базовым понятием в теории ассоциативных правил
является транзакция.
Транзакция – некоторое множество событий, происходящих совместно.
266
Типичной транзакцией является приобретение клиентом некоторого товара в супермаркете. В табл. 1 представлен простой пример набора транзакций. В каждой строке содержится комбинация продуктов, приобретенных за одну покупку[4].
Таблица 1. Пример набора транзакций.
№ транзакции |
Товары |
1 |
сливы, салат, помидоры |
2 |
сельдерей, конфеты |
3 |
конфеты |
4 |
яблоки, морковь, помидоры, картофель, конфеты |
5 |
яблоки, апельсины, салат.конфеты, помидоры |
6 |
персики, апельсины, сельдерей, помидоры |
7 |
фасоль, салат, помидоры |
8 |
апельсины, салат.помидоры |
9 |
яблоки, сливы, морковь, помидоры, лук, конфеты |
10 |
яблоки, картофель |
Хотя на практике приходится иметь дело с миллионами транзакций, в которых участвуют десятки и сотни различных продуктов, данный пример ограничен 10 транзакциями, содержащими 13 видов продуктов, что достаточно для иллюстрации методики обнаружения ассоциативных правил.
В подавляющем большинстве случаев клиент приобретает не один товар, а некоторый набор товаров, который и называется рыночной корзиной. При этом возникает вопрос: является ли покупка одного товара в
267
корзине следствием или причиной покупки другого товара, т.е. являются ли данные события связанными? Эту связь и устанавливают ассоциативные правила. Например, может быть обнаружено ассоциативное правило, утверждающее, что покупатель, купивший молоко, с вероятностью 75% купит и хлеб.
Анализ рыночной корзины – это анализ наборов данных для определения комбинаций товаров, связанных между собой. Иными словами, производится поиск товаров, присутствие которых в транзакции влияет на вероятность наличия других товаров или комбинаций товаров[4].
Современные кассовые аппараты в супермаркетах позволяют собирать информацию о покупках, которая может храниться в базе данных. Накопленные данные затем могут использоваться для построения систем поиска ассоциативных правил.
Визуальный анализ примера (табл.1) показывает, что все четыре транзакции, в которых фигурирует салат, также включают и помидоры, и что четыре из семи транзакций, содержащих помидоры, также содержат и салат. Салат и помидоры в большинстве случаев покупаются вместе. Ассоциативные правила позволяют обнаруживать и количественно описывать такие совпадения.
Ассоциативное правило состоит из двух наборов предметов, называемых условие (англ: antecedent) и следствие (англ: consequent), записываемых в виде X →Y, что читается «из X следует Y». Таким образом, ассоциативное правило формулируется в виде «Если условие, то следствие».
Условие часто ограничивают содержанием только одного предмета. Правила обычно отображаются с помощью
268
стрелок, направленных от условия к следствию, например, (помидоры) → (салат). Условие и следствие часто называются соответственно левосторонним (LHS – lefthandside) и правосторонним (RHS – right-handside)
компонентом ассоциативного правила.
Ассоциативные правила описывают связь между наборами предметов, соответствующим условию и следствию. Эта связь характеризуется двумя показателями – поддержкой и достоверностью.
Обозначим Dкак базу данных транзакций, а Nкак число транзакций в этой базе. Каждая транзакция Diпредставляет собой некоторый набор предметов. Зададим, что S(англ.: support) – поддержка, C (англ.: confidence) – достоверность.
Поддержка ассоциативного правила – это число транзакций, которые содержат как условие, так и следствие.
Например, для ассоциации A→Bможно записать:
Достоверность ассоциативного правила- это мера точности правила, которая определяется как отношение количества транзакций, содержащих как условие, так и следствие, к количеству транзакций, содержащих только условие.
Например, для ассоциации A→Bможно записать:
269