Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
официальная методичка.doc
Скачиваний:
18
Добавлен:
20.11.2019
Размер:
2.54 Mб
Скачать

5.2.2 Построение структуры прямой почтовой рассылки

Отдел маркетинга компании Adventure Works Cycles получил задачу увеличить объемы продаж за счет привлечения индивидуальных заказчиков с помощью прямой почтовой рассылки. База данных компании AdventureWorks DW2008 содержит список бывших и потенциальных заказчиков. Исследуя особенности бывших покупателей велосипедов, компания рассчитывает разработать закономерность, которую потом можно применять для потенциальных заказчиков. В компании рассчитывают использовать разработанные закономерности для определения того, какие заказчики наиболее склонны к приобретению велосипедов у компании Adventure Works Cycles.

Будет использоваться «Мастер интеллектуального анализа данных» для создания структуры прямой почтовой рассылки. В результате выполнения задач этого занятия будет получена структура интеллектуального анализа данных с одной моделью.

Создание структуры интеллектуального анализа данных для сценария прямой почтовой рассылки

В обозревателе решений (solution explorer) щелкните правой кнопкой мыши узел «Структуры интеллектуального анализа данных (Mining Structures)» и выберите команду «Создать структуру интеллектуального анализа данных (New Mining Structure)», чтобы запустить мастер интеллектуального анализа данных.

На странице «Мастер интеллектуального анализа данных (Welcome to the Data Mining Wizard)» нажмите кнопку «Далее (Next)».

Убедитесь, что на странице «Выбор метода определения (Select the Definition Method)» выбран параметр «На основе существующей реляционной базы данных или хранилища данных (From existing relational database or data warehouse)», затем нажмите кнопку «Далее (Next)».

На странице «Создание структуры интеллектуального анализа данных (Create the Data Mining Structure)» в поле «Какой метод интеллектуального анализа данных использовать? (Which data mining technique do you want to use?)» выберите «Алгоритм дерева принятия решений Майкрософт (Microsoft Decision Trees)».

Если появится предупреждение о том, что алгоритмов интеллектуального анализа данных не обнаружено, это может означать, что свойства проекта настроены неправильно. Это предупреждение выдается, только когда проект пытается получить список алгоритмов интеллектуального анализа данных с сервера служб Analysis Services и не находит сервера. По умолчанию служба BI Development Studio использует в качестве сервера localhost. Если используется другой экземпляр или именованный экземпляр, нужно изменить свойства проекта.

Нажмите кнопку «Далее (Next)».

На странице «Выбор представления источников данных (Select Data Source View)» в области «Доступные представления источника данных (available data source views)» выберите Adventure Works DW. Нажмите кнопку Обзор (Browse)», чтобы просмотреть таблицы в представлении источника данных, а затем нажмите кнопку «Закрыть (Close)», чтобы вернуться в окно мастера.

Нажмите кнопку «Далее (Next)» .

На странице «Определение типов таблиц (Specify Table Types)» установите флажок в столбце «Вариант (Case)» рядом с таблицей vTargetMail, чтобы ее использовать в качестве таблицы вариантов, и нажмите кнопку «Далее (Next)». Таблица ProspectiveBuyer будет использоваться позже в целях проверки, поэтому на данном этапе ее не нужно учитывать.

На странице «Определение обучающих данных (Specify the Training Data)» для своей модели необходимо определить по крайней мере один прогнозируемый столбец, один ключевой столбец и один входной столбец. Установите флажок в столбце «Прогнозируемый (Input) и «Прогнозируемый (Suggest)» расположенном в строке «BikeBuyer».

Обратите внимание на предупреждение в нижней части окна. На следующую страницу можно будет перейти только после выбора хотя бы одного столбца «Входной и одного столбца «Прогнозируемый».

Нажмите кнопку Предложить (Suggest)», чтобы открыть диалоговое окно «Предложение связанных столбцов (Suggest Related Columns)».

Кнопка «Предложить (Suggest)» доступна, если был выбран по крайней мере один прогнозируемый атрибут. В диалоговом окне «Предложение связанных столбцов (Suggest Related Columns)» перечисляются столбцы, которые наиболее тесно связаны с прогнозируемым столбцом, а также перечисляются атрибуты в порядке их корреляции с прогнозируемым атрибутом. Столбцы со значительной корреляцией (степень достоверности превышает 95 %) автоматически выделены как включаемые в модель.

Просмотрите предложения и нажмите кнопку «Отмена (Cancel)», чтобы их не обрабатывать.

Если нажать кнопку «ОК», все предложения в списке будут помечены в мастере как входные столбцы. Если нужны не все предложения, значения придется изменять вручную.

Установите флажок в столбце «Ключевой (Key)», расположенном в строке «CustomerKey». Если для таблицы с входными данными из представления источника данных указан ключ, мастер интеллектуального анализа данных автоматически выберет этот столбец в качестве ключа для модели.

Установите флажки в столбце «Входной (Input)» в перечисленных ниже строках. Чтобы установить флажки в нескольких столбцах, можно выделить диапазон ячеек и удерживать нажатой клавишу CTRL при установке флажка.

  • Age;

  • CommuteDistance;

  • EnglishEducation;

  • EnglishOccupation;

  • FirstName;

  • Gender;

  • GeographyKey;

  • HouseOwnerFlag;

  • LastName;

  • MaritalStatus;

  • NumberCarsOwned;

  • NumberChildrenAtHome;

  • Region;

  • TotalChildren;

  • YearlyIncome;

Нажмите кнопку «Далее (Next)».

На странице «Задание содержимого и типа данных столбцов (Specify Columns' Content and Data Type) » нажмите кнопку «Определить (Detect) », чтобы запустить алгоритм определения типов данных и содержимого по умолчанию для каждого столбца.

Просмотрите записи в столбцах «Тип содержимого (Content Type)» и «Тип данных (Data Type)». При необходимости измените их, чтобы они совпадали с параметрами, перечисленными в следующей таблице.

Обычно мастер распознает числа и присваивает им соответствующий числовой тип данных, но часто бывает нужно обрабатывать числа как строки. Например, поле «GeographyKey нужно обрабатывать как текст, поскольку над этим идентификатором математические операции не производятся.

Таблица 2

Столбец

Тип содержимого

Тип данных

Age

Непрерывный

Long

Bike Buyer

Дискретный

Long

Commute Distance

Дискретный

Text

CustomerKey

Ключ

Long

DateLastPurchase

Непрерывный

Date

Email Address

Дискретный

Text

English Education

Дискретный

Text

English Occupation

Дискретный

Text

FirstName

Дискретный

Text

Gender

Дискретный

Text

Geography Key

Дискретный

Text

House Owner Flag

Дискретный

Text

Last Name

Дискретный

Text

Marital Status

Дискретный

Text

Number Cars Owned

Дискретный

Long

Number Children At Home

Дискретный

Long

Region

Дискретный

Text

Total Children

Дискретный

Long

Yearly Income

Непрерывный

Double

Нажмите кнопку «Далее (Next)».

На странице «Создание проверочного набора (Create testing set)» оставьте для параметра «Процент проверочных данных (Percentage of testing data)» значение по умолчанию, равное 30.

Для параметра «Максимальное количество вариантов в наборе проверочных данных (Maximum number of cases in testing data set)» задайте значение 1000.

Нажмите кнопку «Далее (Next).

На странице «Завершение работы мастера (Completing the Wizard)» в поле «Имя структуры интеллектуального анализа данных (Mining structure name)» введите «Прямая почтовая рассылка (Targeted Mailing)».

В поле «Имя модели интеллектуального анализа данных (Mining model name)» введите «TM_Decision_Tree».

Установите флажок «Разрешить детализацию (Allow drill through)».

Нажмите кнопку «Готово (Finish)».