
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Введение.
- •Методы решения задач Data Mining в Microsoft sql Server.
- •Метод дерева принятия решений.
- •Упрощенный Метод Байеса
- •Метод временных рядов.
- •Метод кластеризации
- •Метод линейной регрессии.
- •Метод поиска взаимосвязей
- •Метод кластеризации последовательностей
- •Метод нейронной сети
- •Области использования рассмотренных алгоритмов.
- •Доступ к средствам sql Server Data Mining из Microsoft Office.
- •Средства анализа таблиц Excel. Инструмент Table Analysis (Анализировать).
- •Инструмент «Анализ ключевых факторов влияния».
- •Инструмент «Поиск категорий».
- •Инструмент Заполнение по примеру (Fill From Example).
- •Инструмент прогнозирования Прогноз
- •Инструмент Выделение исключений
- •Инструмент Анализ сценария.
- •Поиск решения.
- •Анализ гипотетических вариантов
- •Клиент интеллектуального анализа данных для Excel
- •Подготовка данных
- •Просмотр данных.
- •Инструмент Очистить данные
- •Секционирование данных.
- •Панель инструментов Моделирование данных. Классификация.
- •Инструмент «Оценка»
- •Инструмент «Кластеризация»
- •Инструмент Связать.
- •Инструмент Прогноз.
- •Инструмент Дополнительно.
- •Панель Точность и правильность
- •Диаграмма точности.
- •Матрица классификации
- •Литература и источники.
- •Оглавление
- •101990 Москва, Малый Златоустинский пер. 7
- •Введение.
- •Хранилище данных Концепция хранилища данных.
- •Архитектура хранилища данных.
- •Проблемы создания хранилищ данных.
- •Требования к субд и используемые данные.
- •Data Mining или добыча знаний
- •Типы выявляемых закономерностей и этапы решения
- •Обзор используемых методов и алгоритмов
- •Классификация.
- •Кластеризации.
- •Задача ассоциации
- •Визуализация
- •Системы, реализующие Data Mining
- •Система PolyAnalyst
- •Работа с системой PolyAnalyst
- •Задание для самостоятельного выполнения.
- •Нейронные сети. Область применения нейронных сетей.
- •Теоретические аспекты нейронных сетей.
- •Последовательность этапов решения практических задач с использованием нейронных сетей и рекомендации по их проведению.
- •Программные системы для нейросетевого моделирования.
- •Программный пакет BrainMaker Professional.
- •Последовательность работы с пакетом BrainMaker Professional
- •Задания для самостоятельного выполнения:
- •Литература и источники.
- •Кондрашов Юрий Николаевич, Современные технологии интеллектуальной обработки информации.
- •101990 Москва, Малый Златоустинский пер. 7 Язык dmx Концепции языка dmx
- •Создание структуры.
- •Создание модели интеллектуального анализа данных
- •Детализация структуры
- •Детализация модели
- •Запрос значений столбца
- •Запрос содержимого модели
- •1. Витрины данных, как обособленная (специализированная) часть хд
- •2. Витрины данных (вид хд) , как промежуточная часть хд.
- •2. Кубы данных – оперативная аналиическая обработка (olap)
Упрощенный Метод Байеса
Этот метод вычисляет условную вероятность между входными и прогнозируемыми столбцами в предположении, что столбцы являются независимыми. Это предположение независимости и лежит в основе названия "упрощенный Байес", поскольку предположение является наивным с той точки зрения, что алгоритм не учитывает возможные зависимости.
Данный алгоритм требует меньшего количества вычислений, чем другие алгоритмы анализа данных, и является полезным для быстрого формирования моделей для обнаружения отношений между входными и прогнозируемыми столбцами. Этот алгоритм можно использовать для первоначального исследования данных, а затем применять результаты для создания дополнительных моделей интеллектуального анализа с другими алгоритмами, требующими большего количества вычислений и являющимися более точными.
Упрощенный алгоритм Байеса рассчитывает вероятность состояния каждого входного столбца при каждом возможном состоянии прогнозируемого столбца.
Средство просмотра результатов работы упрощенного алгоритма Байеса содержит список всех входных столбцов в наборе данных и показывает, как распределены значения входных столбцов в зависимости от значений прогнозируемого столбца. Это представление можно использовать для идентификации входных столбцов, важных для дифференциации различных состояний прогнозируемого столбца.
В качестве примера использования метода можно привести следующее. Отдел маркетинга некоторой компании решил разослать рекламные материалы потенциальным клиентам. Чтобы снизить себестоимость, нужно рассылать рекламные материалы только тем клиентам, которые, вероятно, ответят. Компания хранит в базе данных демографические данные и сведения об ответах на предыдущие рассылки рекламных материалов. Необходимо использовать эти данные для определения возможности применения таких демографических показателей, как возраст и место проживания, для прогнозирования ответа на рекламную кампанию путем сравнения потенциальных клиентов с клиентами, которые обладают подобными характеристиками и которые осуществляли покупки в компании в прошлом. Необходимо определить различия между теми клиентами, которые купили продукцию компании, и теми, которые не купили.
Используя упрощенный алгоритм Байеса, отдел маркетинга может быстро спрогнозировать результат для конкретного профиля клиентов и определить, какие клиенты наиболее вероятно ответят на рекламные материалы. Используя средство просмотра результатов работы упрощенного алгоритма Байеса, можно исследовать, какие конкретные входные столбцы способствуют положительному ответу на рекламные материалы.
Исходные данные для использования упрощенного метода Байеса должны содержать ключевой столбец, входные столбцы и один прогнозируемый столбец. Все столбцы должны быть дискретными (в наборе инструментов интеллектуального анализа имеется специальный механизм для дискретизации данных, см. далее).
В таблице перечислены конкретные типы содержимого входных столбцов и прогнозируемых столбцов, поддерживаемые упрощенным алгоритмом Байеса.
Типы содержимого входных столбцов |
Циклические, дискретные, дискретизированные, ключевые, табличные и упорядоченные |
Типы содержимого прогнозируемых столбцов |
Циклические, дискретные, дискретизированные, табличные и упорядоченные |