- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Введение.
- •Методы решения задач Data Mining в Microsoft sql Server.
- •Метод дерева принятия решений.
- •Упрощенный Метод Байеса
- •Метод временных рядов.
- •Метод кластеризации
- •Метод линейной регрессии.
- •Метод поиска взаимосвязей
- •Метод кластеризации последовательностей
- •Метод нейронной сети
- •Области использования рассмотренных алгоритмов.
- •Доступ к средствам sql Server Data Mining из Microsoft Office.
- •Средства анализа таблиц Excel. Инструмент Table Analysis (Анализировать).
- •Инструмент «Анализ ключевых факторов влияния».
- •Инструмент «Поиск категорий».
- •Инструмент Заполнение по примеру (Fill From Example).
- •Инструмент прогнозирования Прогноз
- •Инструмент Выделение исключений
- •Инструмент Анализ сценария.
- •Поиск решения.
- •Анализ гипотетических вариантов
- •Клиент интеллектуального анализа данных для Excel
- •Подготовка данных
- •Просмотр данных.
- •Инструмент Очистить данные
- •Секционирование данных.
- •Панель инструментов Моделирование данных. Классификация.
- •Инструмент «Оценка»
- •Инструмент «Кластеризация»
- •Инструмент Связать.
- •Инструмент Прогноз.
- •Инструмент Дополнительно.
- •Панель Точность и правильность
- •Диаграмма точности.
- •Матрица классификации
- •Литература и источники.
- •Оглавление
- •101990 Москва, Малый Златоустинский пер. 7
- •Введение.
- •Хранилище данных Концепция хранилища данных.
- •Архитектура хранилища данных.
- •Проблемы создания хранилищ данных.
- •Требования к субд и используемые данные.
- •Data Mining или добыча знаний
- •Типы выявляемых закономерностей и этапы решения
- •Обзор используемых методов и алгоритмов
- •Классификация.
- •Кластеризации.
- •Задача ассоциации
- •Визуализация
- •Системы, реализующие Data Mining
- •Система PolyAnalyst
- •Работа с системой PolyAnalyst
- •Задание для самостоятельного выполнения.
- •Нейронные сети. Область применения нейронных сетей.
- •Теоретические аспекты нейронных сетей.
- •Последовательность этапов решения практических задач с использованием нейронных сетей и рекомендации по их проведению.
- •Программные системы для нейросетевого моделирования.
- •Программный пакет BrainMaker Professional.
- •Последовательность работы с пакетом BrainMaker Professional
- •Задания для самостоятельного выполнения:
- •Литература и источники.
- •Кондрашов Юрий Николаевич, Современные технологии интеллектуальной обработки информации.
- •101990 Москва, Малый Златоустинский пер. 7 Язык dmx Концепции языка dmx
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Детализация структуры
- •Детализация модели
- •Запрос значений столбца
- •Запрос содержимого модели
- •1. Витрины данных, как обособленная (специализированная) часть хд
- •2. Витрины данных (вид хд) , как промежуточная часть хд.
- •2. Кубы данных – оперативная аналиическая обработка (olap)
Панель Точность и правильность
Панель Точность и правильность (рисунок 152) предоставляет следующие инструменты для измерения качества и точности созданных моделей:
Диаграмма точности - выполняет прогнозы по модели и сравнивает результаты с теми данными, для которых имеются ответы.
Диаграмма роста прибыли - выполняет ту же задачу, что и диаграмма точности, однако она позволяет также указать информацию по издержкам и доходам, чтобы найти точку максимальной прибыли.
Матрица классификации (матрица неточностей) - показывает, сколько раз алгоритм прогнозирует результаты правильно и что он прогнозирует, когда ошибается.
Рисунок 152
Диаграмма точности.
При реальном построении модели (обучении) желательно зарезервировать некоторое количество данных для проверки. Использование для проверки тех же самых данных, которые применялись для обучения модели, может привести к тому, что модель будет вести себя лучше, чем она есть на самом деле.
Чтобы использовать диаграмму точности, необходимо указать некоторые исходные данные, которые будут применяться для проверки.
В общем случае проверочные данные должны быть структурно аналогичны тем данным, которые были использованы для обучения моделей, и должны иметь те же самые статистические свойства, что и обучающие данные. Простейший способ использования диаграммы точности — это применение ее к зарезервированным данным, которые являются часть исходных данных.
Для использования диаграммы точности с другим набором данных (внешним) необходимо выбрать исходные таблицы и привязать их к структуре анализа. Если столбцы таблиц имеют одинаковые названия, то это делается автоматически при выборе таблиц.
После того как выбраны таблицы и произведена привязка, можно также отфильтровать варианты. Это можно сделать в том случае, когда есть специфический столбец, в котором указано, предназначен ли данный вариант для обучения или проверки или просто для тестирования (например, как модель ведет себя для определенных групп населения).
Далее выбирается прогнозируемый параметр, и (не обязательно) значение, на которое проверяется прогнозируемый параметр.
По умолчанию диаграмма точности выбирает один и тот же столбец и значение для каждой модели структуры. Однако можно также одновременно проверять и другие столбцы. Например, если есть разные дискретизации в разных моделях, то возможно проверить, насколько прогнозирование для некоторого атрибута с пятью сегментами отличается от прогнозирования с семью сегментами.
Тип получаемой диаграммы зависит от того, является ли прогнозируемый параметр непрерывным или дискретным, а также от того, выбирается ли конкретное значение прогнозируемого параметра.
Когда выбирается дискретный прогнозируемый параметр и задается его целевое значение, то выдается стандартная диаграмма точности прогнозов. Стандартная диаграмма точности прогнозов всегда содержит одну линию для выбранной модели и две дополнительных линии: идеальную линию и случайную линию.
Верхняя идеальная линия показывает, что идеальная модель соответствовала бы 100 процентам значений при использовании некоторого процента данных (соответствующего процента данных, для которых имеется соответствие значению прогнозируемой переменной).
Нижняя линия — это случайная линия. Эта линия всегда идет по диаграмме под углом в 45 градусов. Это означает, что если бы случайным образом угадывался результат для каждого варианта, то прогнозировали бы 50 процентов значений при помощи 50 процентов данных.
Линия модели проходит в середине (если модель хорошая, то она всегда будет выше случайной линии).
Если линия модели находится близко от случайной линии, то это означает, что в обучающих данных не было достаточно информации для выявления шаблонов задачи.
Наиболее просто интерпретировать стандартную диаграмму точности для конкретного целевого значения можно следующим образом. Предположим, что модель используется для кампании прямого маркетинга. Выдаваемый моделью прогноз для выбранного целевого значения — это прогноз того, что клиент откликнется на маркетинговую кампанию. Поскольку цель моделирования — получить как можно больше откликов, то естественно отсортировать потенциальных клиентов по порядку убывания вероятности, возвращенному моделью. Предположим, что в списке 1000 потенциальных клиентов и известно, что 200 из этих клиентов (20%) реагируют на кампанию позитивно. При сортировке клиентов по вероятности отклика идеальная модель поместит этих 200 клиентов в верхнюю часть списка. Реальная модель даст некоторое количество неверных прогнозов и разместит некоторых плохих клиентов слишком высоко в этом списке.
На первом шаге построения диаграммы точности выбирается модель (рисунок 153). В примере используется модель классификации на основе дерева решений, определяющая предпочтения клиентов к покупке определенного товара.
Рисунок 153
На следующем шаге выбирается прогнозируемый столбец (покупка товара) и прогнозируемое значение (No, рисунок 154).
Рисунок 154
Задается таблица поверочных данных (рис. 155).
Рисунок 155
Производится привязка столбцов таблицы к структуре анализа (рис. 156).
Рисунок 156
Полученная диаграмма точности показана на рисунке .
Рисунок 157
Диаграммы точности можно использовать для сравнения качества различных моделей. На рисунке 158 показана диаграмма точности модели классификации для тех же данных, полученная алгоритмом нейронной сети. Видно, что модель на основе нейронной сети лучше.
Рисунок 158
