Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кондрашов ВСЕ.doc
Скачиваний:
8
Добавлен:
01.05.2025
Размер:
11.52 Mб
Скачать

Панель Точность и правильность

Панель Точность и правильность (рисунок 152) предоставляет следующие инструменты для измерения качества и точности созданных моделей:

  • Диаграмма точности - выполняет прогнозы по модели и сравнивает результаты с теми данными, для которых имеются ответы.

  • Диаграмма роста прибыли - выполняет ту же задачу, что и диаграмма точности, однако она позволяет также указать информацию по издержкам и доходам, чтобы найти точку максимальной прибыли.

  • Матрица классификации (матрица неточ­ностей) - показывает, сколь­ко раз алгоритм прогнозирует результаты правильно и что он прогнозиру­ет, когда ошибается.

Рисунок 152

Диаграмма точности.

При реальном построении модели (обучении) желательно зарезервировать некоторое количество данных для проверки. Использование для проверки тех же самых данных, которые применялись для обучения модели, может привести к тому, что модель будет вести себя лучше, чем она есть на самом деле.

Чтобы использовать диаграмму точности, необходимо указать некоторые исходные данные, которые будут применяться для проверки.

В общем случае проверочные данные должны быть структурно аналогичны тем данным, которые были использованы для обучения моделей, и должны иметь те же самые статистические свойства, что и обучающие данные. Простейший способ использования диаграммы точности — это применение ее к зарезервированным данным, которые являются часть исходных данных.

Для использования диаграммы точности с другим набором данных (внеш­ним) необходимо выбрать исходные таблицы и привязать их к структуре анализа. Если столбцы таблиц имеют одинаковые названия, то это делается автоматически при вы­боре таблиц.

После того как выбраны таблицы и произведена привязка, можно также отфильтровать варианты. Это можно сделать в том случае, когда есть специфический столбец, в котором указано, предназначен ли данный вариант для обучения или проверки или просто для тестирования (например, как модель ве­дет себя для определенных групп населения).

Далее выбирается прогнозируемый параметр, и (не обязательно) значение, на которое проверяется прогнозируемый параметр.

По умолчанию диаграмма точности выбирает один и тот же столбец и значе­ние для каждой модели структуры. Однако можно также одновременно проверять и другие столбцы. Например, если есть разные дискретиза­ции в разных моделях, то возможно проверить, насколько прогнози­рование для некоторого атрибута с пятью сегментами отличается от прогнозирования с семью сегментами.

Тип получаемой диаграммы зависит от того, является ли прогнозируемый параметр непрерывным или дискретным, а также от того, выбирается ли конкретное значение прогнозируемого параметра.

Когда выбирается дискретный прогнозируемый параметр и задается его целевое значение, то выдается стандартная диаграмма точности прогнозов. Стандартная диа­грамма точности прогнозов всегда содержит одну линию для выбранной модели и две дополнительных линии: идеальную линию и случайную ли­нию.

Верхняя идеальная ли­ния показывает, что идеальная модель соответствовала бы 100 процентам значений при использовании некоторого процента данных (соответствующего процента данных, для которых имеется соответствие значению прогнозируемой переменной).

Нижняя линия — это случайная линия. Эта линия все­гда идет по диаграмме под углом в 45 градусов. Это означает, что если бы случайным образом угадывался результат для каждого варианта, то прогнозировали бы 50 процентов значений при помощи 50 процентов данных.

Линия модели проходит в середине (если модель хорошая, то она всегда будет выше случайной линии).

Если линия модели находится близко от случайной линии, то это означает, что в обучающих данных не было достаточно информации для выявления шаблонов задачи.

Наиболее просто интерпретировать стандартную диаграмму точности для конкретного целевого значения можно следующим образом. Предположим, что модель используется для кампании прямого маркетинга. Выдаваемый моделью прогноз для выбранного целевого значения — это прогноз того, что клиент откликнется на маркетинговую кампанию. Поскольку цель моделирования — получить как можно больше откликов, то естественно отсорти­ровать потенциальных клиентов по порядку убывания вероятности, возвра­щенному моделью. Предположим, что в списке 1000 потенциальных клиентов и известно, что 200 из этих клиентов (20%) реагируют на кампанию позитивно. При сортировке клиентов по вероятности отклика идеальная модель поместит этих 200 клиентов в верхнюю часть списка. Реальная модель даст некоторое количество неверных прогнозов и разместит некоторых плохих клиентов слишком высоко в этом списке.

На первом шаге построения диаграммы точности выбирается модель (рисунок 153). В примере используется модель классификации на основе дерева решений, определяющая предпочтения клиентов к покупке определенного товара.

Рисунок 153

На следующем шаге выбирается прогнозируемый столбец (покупка товара) и прогнозируемое значение (No, рисунок 154).

Рисунок 154

Задается таблица поверочных данных (рис. 155).

Рисунок 155

Производится привязка столбцов таблицы к структуре анализа (рис. 156).

Рисунок 156

Полученная диаграмма точности показана на рисунке .

Рисунок 157

Диаграммы точности можно использовать для сравнения качества различных моделей. На рисунке 158 показана диаграмма точности модели классификации для тех же данных, полученная алгоритмом нейронной сети. Видно, что модель на основе нейронной сети лучше.

Рисунок 158