Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

SQLServer08_DM_Nesterov

.pdf
Скачиваний:
167
Добавлен:
07.02.2016
Размер:
16.46 Mб
Скачать

Рис.5.114. Создание новой структуры интеллектуального анализа данных

Рис.5.115. Создание новой структуры интеллектуального анализа данных (продолжение)

211

Для решения поставленной задачи нам понадобится модель, использующая алгоритм кластеризации (рис.5.116). После чего будет предложено выбрать используемое представление источника данных. Пока в нашей базе DSV один, так что проблема выбора не стоит (рис.5.117). Следующий шаг – выбор таблицы вариантов и вложенных таблиц (если есть). В нашем случае, таблица вариантов – vTargetMail, вложенных таблиц нет (рис.5.118).

Рис.5.116. Создание новой структуры и модели интеллектуального анализа: выбор алгоритма

Далее потребуется указать ключевой столбец, входные столбцы и столбец, значение которого будет предсказываться. Ключевой столбец BI Dev Studio определила автоматически, это первичный ключ таблицы CustomerKey (рис.5.119). В случае использования вложенных таблиц, указанию ключей надо уделить особое внимание.

212

Рис.5.117. Создание новой структуры и модели интеллектуального анализа: выбор представления источника данных

Рис.5.118. Выбор таблицы вариантов

213

Рис.5.119 Выбор входных и предсказываемых атрибутов

Рис.5.120. Уточнение типов данных

214

Для задачи кластеризации указание предсказываемого (Predictable) атрибута не требуется. А в качестве входных атрибутов будем использовать:

-Age (возраст клиента);

-BikeBuyer (признак того, что клиент приобрел велосипед);

-CommuteDistance (расстояние до работы или других «регулярных» поездок);

-EnglishEducation (образование);

-EnglishOccupation (должность или род занятий);

-Gender (пол);

-NumberCarsOwned (число машин в собственности);

-NumberChildrenAtHome (число детей дома);

-Region (регион проживания);

-TotalChildren (общее число детей);

-YearlyIncome (годовой доход).

Следующий шаг – уточнение типов данных. На рис.5.120 представлены исходные значения. Не все они могут быть признаны удачными. Например, тип содержимого (Content Type) атрибута TotalChildren установлен как «непрерывный» (Continious), тогда как более корректно был бы выбрать тип «дискретный», т.к. количество детей будет принадлежать ограниченному множеству значений {0,1,2,..}. Можно изменить тип данных и тип содержимого вручную, а можно воспользоваться кнопкой Detect для автоматического определения. Но в нашем случае, тип содержимого для атрибутов TotalChildren и NumberChildrenAtHome придется менять все равно вручную.

После уточнения типов данных будет предложено зарезервировать часть данных для целей тестирования. В принципе, для решения задачи кластеризации тестовое множество создавать не требуется. Поэтому лучше здесь тестовый набор не создавать и в поле Percentage of data for testing (выделено на рис. 5.121) указать значение 0%. В следующих лабораторных, когда мы будем решать задачу классификации, резервирование данных для тестирования будет необходимо.

215

Рис.5.121. Резервирование данных для целей тестирования

Последнее окно мастера позволяет указать названия для структуры и модели интеллектуального анализа. Предлагаемые по умолчанию названия лучше отредактировать, так чтобы они явно указывали, что это за объект. Например, созданную структуру назовем vTargetMail_structure, а основанную на алгоритме кластеризации модель - vTargetMail_Cl. Установим также флажок «Allow drill through», что позволит проводить детализацию, например, просматривать отдельные записи, относимые к тому или иному кластеру (рис.5.122). После чего, т.к. мы работает в режиме immediate, на сервере интеллектуального анализа будут созданы структура и модель. А в среде BI Dev Studio будет открыто окно редактора, позволяющее проводить дальнейшую работу с созданными объектами. В частности, из контекстного меню на вкладке Mining Structure можно запустить обработку структуры и всех моделей (рис.5.123). В процессе обработки данные будут загружены в структуру, и пройдет обучение моделей.

216

Рис.5.122. Указание имени структуры и модели интеллектуального анализа

Рис.5.123. Окно редактора, запуск обработки структуры

217

Рис.5.124. Настройки при обработке структуры

Можно выбрать тип обработки объекта (рис.5.124):

-Process Full (полная обработка) – объект полностью обрабатывается, для случая структуры происходит обработка структуры и всех

еемоделей;

-Process Default (обработка по умолчанию) – сервер выполняет действия, необходимые для приведения данного объекта в обработанное состояние. Например, если Process Default выполняется для отдельной модели, будет обработана именно эта модель (обработка других моделей, относящихся к структуре, проводиться не будет);

218

-Process Structure (обработка структуры) – может проводиться только для структуры, при этом читаются и кэшируются данные, обработка моделей не производится;

-Process Clear Structure (очистка структуры) – использование этой операции в отношении структуры приведет к тому, что кэш структуры будет очищен от исходных данных, но содержащиеся в ней модели сохранятся в обработанном состоянии;

-Unprocess (отмена обработки) – переводит объект в необработанное состояние; в случае структуры, из кэшей будут удалены данные и содержащиеся в структуре модели будут переведены в необработанное состояние.

Запускаем полную обработку для созданной структуры с настройками по умолчанию. И получаем сообщение об ошибке: в источнике данных указано значение ImpersonationMode, которое не поддерживается для операций обработки (рис.5.125).

Рис.5.125. Сообщение об ошибке при попытке обработать структуру

219

В лабораторной работе № 10, отмечалось, что к настройке ImpersonationMode мы еще вернемся. Сделаем это сейчас. Закроем окна с сообщениями об ошибке и окна мастера обработки. В окне Solution Explorer найдем используемый источник данных и откроем его в ре-

дакторе (рис.5.126). На вкладке Impersonation Information (рис.5.127)

вместо установленного ранее ―Use the credentials of the current user‖

выбираем вариант ―Inherit‖ (наследовать). В этом варианте будут использоваться различные учетные записи (пользователя, службы) в зависимости от выполняемой операции.

Рис.5.126. Открываем источник данных в редакторе

Рис.5.127. Меняем настройку Impersonation Information

220

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]