Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пособие_2011.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
7.53 Mб
Скачать

Расшифровка записей в правилах

Обозначение

Значение

1

Вероятность правила (Rule's probability)

Это значение равно отношению количества случаев, подтверждаемых правилом «Если – То», к общему количеству случаев, содержащих условие «Если»

2

Правило проявляется… (The rule exists…)

Количество объектов, для которых срабатывает правило

3

Уровень значимости (Significance Level)

Определяет степень, с которой можно полагаться на правило, на основании которого делается распознавание прогноз. Если значение меньше 0.05 – это правило не случайно для данной выборки

4

Положительные примеры (Positive Examples)

Список объектов, для которых правило осуществляет корректное распознавание

5

Отрицательные примеры (Negative Examples)

Список объектов, для которых правило осуществляет ошибочное распознавание

Как ви:зуализировать:

Система WizWhy предоставляет возможность визуализации полученного правила. Для этого нужно щёлкнуть на правиле левой кнопкой мыши и затем с помощью правой кнопки вызвать контекстное меню, в котором выбрать диаграмму правила Rule Chart (рис. 15).

Рис. 15. Диаграмма выделенного правила № 1

Диаграмма иллюстрирует отдельные компоненты правила, даёт их графическое отображение и также отображает результат взаимодействия переменных.

4. Отчёт о трендах (Trend Report)

Отчёт о трендах представляет результаты сегментации отдельных признаков. Окно данного отчёта разделено на три области.

В области, расположенной в левом верхнем углу, мы задаём анализируемый признак (Field to be analyzed). Здесь можно не только выбирать требуемый признак, но и сортировать признаки по какому-либо критерию (в алфавитном порядке, по номеру поля, по информативности).

Другие две области предназначены для отражения отношений между значениями признака и зависимой переменной (в нашем случае это INCOMEALL). В верхней правой области окна отчёта приводятся статистические характеристики сегментов выделенного признака. В нижней области отчёта приводится графическая иллюстрация информативности каждого сегмента.

На графике (рис. 16) по горизонтальной оси располагаются, в случае качественных признаков возможные значения, а в случае количественных признаков сегменты, на которые выбранный признак автоматически разбивается системой WizWhy.

По вертикальной оси откладывается отношение количества объектов класса if-then правил к общему количеству объектов, попадающих в сегмент. Таким образом, высота столбиков на графике отражает информативность сегментов. Синяя горизонтальная линия соответствует значению начальной относительной частоты целевого значения в выборке. Если столбик выше синей горизонтальной черты, значит, в данный сегмент чаще попадают объекты класса if-then, а если ниже горизонтальной черты – класса if-then-NOT. Чем больше разница между чертой и высотой столбика, тем лучше осуществляется прогнозирование целевого значения по исследуемому признаку.

В свою очередь, ширина столбиков пропорциональна количеству объектов, относящихся к данному сегменту

В качестве меры информативности в данном случае используется предсказанная вероятность значения (отношение числа правильно распознанных объектов к общему числу объектов с целевым значением в данном интервале).

Рис. 16. Отчет о трендах

Для нашего примера: посмотрим на рисунок 16 Используя отчёт о трендах анализируем «вклад» по информативности (Prediction Power) переменной RISK в анализируемую (зависимую, целевую) переменную. Из графика видно, что для зависимой переменной большую информативность имеют акции с риском 1-3.

5. Анализ неожиданных правил (Unexpected Rule).

Под неожиданными правилами в системе WizWhy понимаются правила в виде конъюнкции (объединения) двух и более простых высказываний, комбинация которых дает точность и полноту прогноза выше, чем это можно было бы ожидать при независимости простых высказываний. Например, это могут быть объединенные правила, состоящие из одного высказывания, либо правила с большей, чем заданной в качестве начальных параметров поиска доверительной вероятностью. Это представление, по-видимому, имеет цель дополнительно заинтриговать конечного пользователя возможностью открывать в данных нетривиальные закономерности.

В отчете приводится две группы правил: 1) неожиданные (Unexpected Rule) и 2) основные правила (Basic Rules), которые объединяет неожиданное правило.

Окно отчёта о неожиданных правилах разделено на три секции. В левой верхней секции отображается в стандартной форме найденное неожиданное правило. Правая верхняя секция содержит информацию об элементах, из которых составлено неожиданное правило. И наконец, нижняя секция предназначена для сортировки неожиданных правил и графического представления результатов. (см. рис. 17) На рисунке приведен анализ неожиданного правила для нашего примера.

Рис.17. Отчет о полученных неожиданных правилах

Так, в нашем случае первое неожиданное правило, изображённое на рис. …, расшифровывается следующим образом: если INCOME03 (доходы за 2003 г) от 2 до 10 и INCOME04 (доходы за 2004 г) и EXPENSES (затраты) равны 1, то INCOMEALL (суммарный доход за 5 лет) больше чем 13500.

В данном правиле выдаются две новые характеристики – уровень неожиданности (Level of Unlikelihood – в нашем случае 1) и ожидавшаяся вероятность правила (Expected rule probability - в нашем случае 0,807) (левая верхняя секция).

Как видно, за счёт взаимосвязи элементов правила точность целого правила составила 1,000 и оказалась значительно выше ожидавшейся (0,807).

Нижняя секция о неожиданных правилах разделена на две части. В левой части располагаются элементы управления для сортировки этих правил. По умолчанию правила проранжированы по величине разности между реальной и оказавшейся точностями правила. Если установить переключатель в поле Field и выбрать из списка какой либо признак, то будут отображаться только не неожиданные правила, в которых встречается указанный признак. В свою очередь, в поле Type можно выбрать один из трех типов фильтров правил – All (все правила), if-then правила и if-then-NOT.

В правой части нижней секции отчета о неожиданных правилах дается графическое представление характеристик правил и их составляющих. Первый слева столбик (красного цвета) относится к найденному неожиданному правилу – его высота равна точности, а ширина пропорциональна количеству покрываемых (задействованных) объектов. Следующий столбик отображает ожидавшиеся характеристики правила, а остальные столбики соответствуют базисным правилам (зеленые) и трендам (синие). Базисные тренды (Basic Trends) – это статистический разбор сегментов анализируемых переменных, составляющих собственно логические события.

Если щёлкнуть левой кнопкой мыши по какому-либо столбику, то система WizWhy автоматически изменит содержание верхних окон отчёта о неожиданных правилах. Можно также щёлкнуть правой кнопкой мыши – появляется контекстное меню, в котором можно выбрать иллюстрацию в виде диаграммы правила (Rule chart).

7. Unexpected Cases

Окно отчёта о неожиданных случаях разделено на три секции. В левой секции отображаются значения переменных для данного случая. Правая верхняя секция содержит формулировку правила для неожиданного случая. В левой нижней части располагаются элементы управления для сортировки по значениям зависимой переменной (рис. 18).

Рис.18. Отчет о полученных неожиданных случаях

В нашем случае мы имеем неожиданный случай, трактуемый следующим образом:

Prediction: INCOMEALL is No more than 13 500,00

Conclusive Prediction's probability: 0,111

Condition(s) explaining why the case is unexpected.

The following conditions explain when INCOMEALL is more than 13 500,00

When at least one of the conditions holds, the probability that

INCOMEALL is more than 13 500,000

is 1,000 (7 out of 7 cases)

When all the conditions do not hold, the probability that

INCOMEALL is not more than 13 500,000

is 0,889 (8 out of 9 cases)

Правила:

1) INCOME03 is -2,000 ... 10,000 (average = 1,571 )

and INCOME04 is 16,000 ... 26,000 (average = 22,143 )

and EXPENSES is 1,000

Прогноз: Суммарный доход не более чем 13 500,00

Итоговый прогноз по вероятности: 0,111

Условия (ие), объясняющие почему случай является неожиданным

Следующее условие объясняет когда Суммарный доход больше чем 13 500,00

Если хотя бы одно из условий имеет вероятность того что

INCOMEALL больше чем

13 500,000

Равной 1,000 (7 из 7 случаев)

Когда все условия не выполняются, вероятность, что

INCOMEALL не больше чем

13 500,000

Равной 0,889 (8 из 9 случаев)

Т.е. при выполнении этих правил, а именно, нахождении соответствующих переменных (INCOME03, INCOME04 и EXPENSES) в заданных диапазонах имеет место рассмотренный неожиданный случай.

1) INCOME03 is -2,000 ... 10,000 (average = 1,571 )

and INCOME04 is 16,000 ... 26,000 (average = 22,143 )

and EXPENSES is 1,000

Предсказание на основе полученных правил (Predict online)

В системе WizWhy предусмотрены две возможности использования обнаруженных правил для предсказания значений целевого показателя на новом материале.

Первая возможность заключается в ручном вводе значений признаков и обработке нового одиночного объекта (записи). Она реализуется следующим образом.

Нажимаем кнопку Predict online (или находим соответствующий пункт меню: Issue - Predict online) – на экране выдается окно диалога для ручного ввода значений признаков (рис. 19).

Рис. 19. Окно для ручного ввода значений признаков (переменных)

После заполнения окошек предложенной таблицы (здесь возможны пропуски) нажмите кнопку Issue Report – система создаёт отчёт, в котором подробно описывает как конечный результат предсказания, так и характеристики каждого отдельного правила, использованных для получения прогноза. Пример отчёта представлен ниже:

WIZWHY PREDICTION REPORT

File Name: D:\Sv_works\WizWhy\Shares.dbf

Condition Fields:

RISK = 2,00

RECOMMEND is Buy

Dependent Variable: INCOMEALL

Subject for Prediction: INCOMEALL is more than 13 500,00

Primary Prediction's probability: 0,500

Conclusive Prediction's probability: 0,111

Decision point: 0,620

Prediction: No more than 13 500,00

The following conditions explain when INCOMEALL is more than 13 500,00

When at least one of the conditions holds, the probability that

INCOMEALL is more than 13 500,000

is 1,000 (7 out of 7 cases)

When all the conditions do not hold, the probability that

INCOMEALL is not more than 13 500,000

is 0,889 (8 out of 9 cases)

1) INCOME03 is -2,000 ... 10,000 (average = 1,571 )

and INCOME04 is 16,000 ... 26,000 (average = 22,143 )

and EXPENSES is 1,000

Прогнозирующий отчет

Имя файла: D:\Sv_works\WizWhy\Shares.dbf

Поля условий:

RISK = 2,00

RECOMMEND is Buy

Зависимая переменная: INCOMEALL

Тема (предмет) для прогнозирования: INCOMEALL is more than 13 500,00

Начальный прогноз по вероятности: 0,500

Заключительный прогноз по вероятности: 0,111

Точка решения: 0,620

Прогноз: No more than 13 500,00

Следующие условия объясняют когда INCOMEALL is more than 13 500,00

Если хотя бы одно из условий имеет вероятность того, что

INCOMEALL is more than 13 500,000

равной 1,000 (7 из 7 случаев)

Когда все условия не выполняются, вероятность того, что

INCOMEALL is not more than 13 500,000

равна 0,889 (8 из 9 случаев)

1) INCOME03 is -2,000 ... 10,000 (average = 1,571 )

and INCOME04 is 16,000 ... 26,000 (average = 22,143 )

and EXPENSES is 1,000

Вторая возможность использования множества правил заключается в обработке сразу большого массива новой информации. Для этого перейдите к закладке Prediction Input в окне диалога для ввода данных и в ней укажите файл, в котором записана новая информация.

Из меню Predict online можно выйти используя боковое меню и выбрав пункт Main Window.

Затем требуется задать имя файла, в который будут записываться результаты прогнозирования. Данная операция осуществляется с помощью кнопки Print result to… И наконец, нажимается кнопка Predict to file – система производит необходимые расчёт и сообщает, что результаты успешно записаны в указанный файл (рис. 20).

Рис. 20 Диалоговое окно Predict online (в основном работа с этим окном аналогична работе с окном Basic Date)

Таким образом, необходимо отметить возможность системы на основе полученных правил осуществлять прогнозирование как для одного объекта, так и для множества объектов. После полного или частичного ввода информации об исследуемом объекте выводятся релевантные правила, и выдается отчет, в котором приводятся результаты прогноза и точность каждого отдельного правила, сработавшего для нового объекта. Среди правил могут быть варианты прогноза для двух альтернативных классов, в данном случае «побеждает» правило, имеющее более высокую точность прогноза.

Изменение параметров поиска правил

Для нашего примера система нашла 44 правила. Но предположим, что далеко не все из них нам интересны и не все приведенные зависимости нас интересуют. Для того, чтобы изменить параметры поиска перейдите на вкладку Basic Date и установите галочки в полях Ignore Field для того, чтобы исключить ряд переменных. Однако следует помнить о том, что и игнорировать все нужно в разумных пределах, иначе системе просто будет нечего анализировать.

Как только Вы начнете изменять исходные данные, появится всплывающее окно, предупреждающее Вас о том, что изменение исходных параметров повлияет на итоговые результаты, Вы можете или согласиться с этим, либо отменить изменения (рис. 20).

Рис. 20. Окно-предупреждение об изменении исходных параметров

Если Вы после изменения параметров на вкладке Basic Date нажмете кнопку «Issue Rule», то появится следующее всплывающее окно (рис. 21), требующее от Вас определить параметры правила.

Рис. 21. Окно-подтверждение изменения параметров правила

Нажмите «ОК», и Вы попадете на вкладку Rule Parameters. Можете ничего не менять и опять нажать кнопку «Issue Rule». Система опять выработает определенное количество правил (но уже меньшее) и Ваша задача – их проанализировать и сделать выводы.

Итак, интерфейс программы мы разобрались достаточно подробно. Теперь рассмотрим пример анализа данных.