Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3456

.pdf
Скачиваний:
1
Добавлен:
21.11.2023
Размер:
366.19 Кб
Скачать

Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

К.А. Сафонов

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Учебно-методическое пособие

по выполнению лабораторных работ для обучающихся по дисциплине «Интеллектуальный анализ данных»

по направлению подготовки 09.03.02 Информационные системы и технологии, без профиля

Нижний Новгород

2016

Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

К.А. Сафонов

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

Учебно-методическое пособие

по выполнению лабораторных работ для обучающихся по дисциплине «Интеллектуальный анализ данных»

по направлению подготовки 09.03.02 Информационные системы и технологии, без профиля

Нижний Новгород ННГАСУ

2016

УДК 681.3 (075)

Сафонов К.А. / Интеллектуальный анализ данных[Электронный ресурс]: учеб. – метод. пос. по выполнен. лаб. работ/К.А. Сафонов; Нижегор. гос. архитектур. – строит. ун-т – Н. Новгород: ННГАСУ, 2016. - 24 с. 1 электрон.опт.диск (CD-R)

В методических указаниях представлены задания и пояснения к выполнению лабораторных работ в рамках курса «Интеллектуальный анализ данных».

К.А. СафоновННГАСУ. 2016.

Введение

Широкое распространение технологий автоматизированной обработки информации и накопление в компьютерных системах больших объемов данных, сделали очень актуальной задачу поиска неявных взаимосвязей, имеющихся в наборах данных. Для ее решения используются методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей, вместе формирующие технологию интеллектуального анализа данных

(англ. DataMining).

В методических указаниях приведено описание лабораторных работ, позволяющих выработать практическиенавыки решения задач интеллектуального анализа данных. В качестве примера выбрана СУБД Microsoft SQL Server и

MicrosofOffice.

Требования к выполнению работ

При подготовке к лабораторной работе студенту необходимо изучить соответствующие разделы лекционного курса. В ходе выполнения каждой лабораторной работы студент должен подготовить письменный отчет, включающий:

номер, тему и цель лабораторной работы;

перечень заданий работы;

входные и выходные данные для каждого задания;

блок-схему последовательной программы;

таблицу и графики с результатами вычислений;

общие выводы по результатам лабораторной работы.

ЛАБОРАТОРНАЯ РАБОТА № 1

Тема: надстройки интеллектуального анализа данных для Microsoftoffice.

Цель работы: Установка надстроек интеллектуального анализа данных для Microsoftoffice для успешного выполнения последующих лабораторных работ.

Один из возможный вариантов проведения интеллектуального анализа данных средствами Microsoft SQL Server – использование надстроек для пакета MicrosoftOffice. В этом случае, источником данных для анализа может служить электронная таблица Excel. Данные передаются на SQL Server, там обрабатываются, а результаты возвращаются Excel для отображения.

Порядок выполнения работы

Для использования подобной «связки» SQL Server – Excel, вам должен быть доступен MS SQL Server в одной из версий, поддерживающих инструменты Data Mining (Enterprise, Developer или c некоторыми ограничениями – Standard), MS Office 2007 в версии Professional или более старшей.

Сами надстройки интеллектуального анализа данных для MS Office свободно доступны на сайте Microsoft.

По умолчанию предлагается устанавливать не все компоненты. Для выполнения дальнейших лабораторных, лучше сделать полную установку.

Следующий шаг – конфигурирование MS SQL Server для работы с надстройками. Для этого используется мастер «Приступая к работе» (GettingStarted), запускаемый из главного меню.

Для того, чтобы выполнить конфигурацию MS SQL Server надо иметь права администратора.

На первом шаге мастер предлагает выбрать, скачать ли пробную версию MS SQL Server, конфигурировать существующий экземпляр сервера, где у пользователя администраторские права, или использовать сервер, на котором пользователь не является администратором. Рассмотрим вариант 2, при выборе которого мастер покажет окно со ссылкой на инструмент «Средство настройки сервера». Его также можно запустить из меню Пуск -> Надстройки интеллектуального анализа данных -> Средство настройки сервера.

Следующее окно предлагает выбрать конфигурируемый сервер. По умолчанию стоит ―localhost, что соответствует неименованному экземпляру MS

SQL Server, установленному на тот же компьютер, на котором запущено «средство настройки». Если это не так, надо указать имя сервера или для именованного экземпляра <имясервера>\<имя экземпляра>.

Вследующем окне дается разрешение на создание временных моделей интеллектуального анализа (Allowcreatingtemporaryminingmodels). Временная модель отличается от постоянной тем, что создается только на время сеанса пользователя. Когда пользователь, проводящий анализ с помощью надстроек, завершит сессию (закроет Excel), модель будет удалена, но результаты анализа сохранятся в электронной таблице. Постоянная модель автоматически не удаляется, хранится на сервере, и к работе с ней можно вернуться. После этого предлагается создать новую базу данных аналитических служб или выбрать для работы существующую.

Далее можно добавить пользователей в список администраторов созданной базы данных. Это нужно для создания на сервере постоянных моделей. Если использовать только временные модели, права администратора пользователю необязательны.

По окончании настройки, можно открыть Excel (а при использовании мастера «Приступая к работе», он будет запущен автоматически с документом «Образцы данных…») и протестировать подключение к серверу. Для этого надо перейти на вкладку DataMining и в разделе Connection нажать кнопку

DMAddinsDB.

Появится окно, отображающее настроенные соединения. Кнопка TestConnection позволяет проверить подключение.

Если настроенного соединения нет, то нужно создать новое соединение,

выбрав вокне AnalysisServicesConnection кнопку New.

При создании нового подключения надо указать сервер, к которому планируете подключаться, и в разделе Catalognameрекомендуется явным образом указать базу данных, с которой будетработать надстройки. Когда соединение создано и проверено, можноначинать работу.

Вследующих нескольких лабораторных работах будет использоваться уже подготовленный набор данных для анализа. Если выпланируете работать с собственными данными, необходимо учитывать, что инструменты интеллектуального анализа таблиц работают сданными, отформатированными в виде таблицы. Поэтому ваши данные в Excel нужно выделить и выбрать «Форматировать как таблицу». После этого надо выбрать стиль таблицы и указать заголовок. Вкладка Analyze с инструментами TableAnalysisTools появитсяпри щелчке в области таблицы.

Задание 1. Установите надстройки интеллектуального анализаданных для MicrosoftOffice. Выполните необходимую конфигурацию MS SQL Server для работы с надстройками.Создайте и протестируйте подключение.

ЛАБОРАТОРНАЯ РАБОТА № 2

Тема: Использованиеинструмента «Analyzekeyinfluencers».

Цель работы: Изучение инструмента интеллектуального анализа «Анализ ключевых факторов влияния».

Порядок выполнения работы

Начнем непосредственное изучение инструментов интеллектуального анализа данных (DataMining, сокр.DM). В состав пакетанадстроек для MS Office входит электронная таблица с образцами данных. Она может быть открыта из меню Пуск-> Надстройки интеллектуального анализа данных Microsoft SQL Server. Но переведено содержимое файла только частично – первая страница с оглавлением и некоторые заголовки. Поэтому в работе будет использоваться локализованный набор данных для анализа, который предоставит преподаватель.

Скачайте файл, откройте его и отформатируйте данные на листе«клиенты» как таблицу (см. Лабораторную № 1). Перейдите на вкладку Analyze. Анализируемая таблица содержит данные фирмы, продающей велосипеды. В ней собрана информация о клиентах(идентификатор, семейное положение, пол и т.д.) и указано, приобрелклиент велосипед или нет.

Анализ ключевых факторов влияния

Инструмент AnalyzeKeyInfluencers позволяет узнать, как зависит интересующий нас параметр от других. При этом важно правильно определить, что и от чего может зависеть. В этом отчасти и заключается мастерство аналитика, основанное на его знаниипредметной области и используемых методов DM.

В связи с тем, что будет оцениваться степень взаимного влиянияпараметров друг на друга, стоит сразу убрать из рассмотрения полностью независимые и наоборот, полностью зависимые атрибуты.

Пусть, например, мы хотим оценить влияние различных факторов н уровень заработной платы человека. Если у нас есть поле, содержащее

уникальный идентификатор (например, порядковый номер записи в таблице или номер паспорта), его стоит убрать из рассмотрения,как не влияющий на значение исследуемого параметра. Другой пример, пусть у нас есть значения заработной платы за месяц и за год(рассчитываемое как заработная плата за месяц, умноженная на 12).Мы знаем, что эти значения всегда связаны, искать зависимость одного от другого средствами DM не имеет смысла, а имеющаяся сильнаязависимость скроет влияние других факторов, которое мы как раз ихотим выявить.

Теперь определим, от чего зависит решение клиента о покупкевелосипеда. Нажимаем на кнопку AnalyzeKeyInfluencers и указываемв качестве целевого столбца столбец «Приобрел велосипед».

Перейдем по ссылке «Choosecolumnstobeusedforanalysis», чтобы указать параметры, влияние которых мы хотим оценить. Здесь сбросим отметку напротив «ID» и «Приобрелвелосипед» (хотя последнее можно и не делать).

После запуска процедуры анализа (по кнопке Run) будет сформирован отчет о факторах влияния и предложено формирование дополнительного сравнительного отчета.

В основном отчете указывается столбец (Column), его значение (Value), значение целевого столбца, с которым оно связывается (Favors) и уровень влияния (RelativeImpact), оцениваемый по шкале от 0 до 100 балов. Из представленного на рисунке 5.18 отчета видно, что на решение не покупать велосипед в наибольшей степени влияет наличие 2-х автомобилей. В то же время не следует воспринимать оценку 100 баллов, как признак того, что в 100% случаев владельцы 2-х машин велосипед не покупали (посмотрите набор данных, там есть и сочетания «2 машины – велосипед куплен», но их меньшинство). Второй по уровню влияния на отказ от покупки фактор – «Семейное положение»=«женатый, замужняя». Наибольшее влияние на положительное решение о приобретении велосипеда оказывать отсутствие у клиента машины.

Задание 1. Проведите анализ в соответствии с рассмотреннымпримером.

Задание 2. На том же наборе данных проанализируйте зависимость уровня дохода от образования, семейного положения, типаработы, пола, возраста и региона проживания клиента. Опишитерезультаты. Дополните отчет сравнительным анализом для самогонизкого и следующего за ним диапазона дохода. А затем – для самогонизкого и самого высокого диапазона. Опишите результаты проведенного анализа и предложите их интерпретацию.

ЛАБОРАТОРНАЯ РАБОТА № 3

Тема: Использованиеинструмента «Detectcategories».

Цель работы: Изучение инструмента интеллектуального анализа «Обнаружение категорий».

Порядок выполнения работы

Инструмент DetectCategories позволяет решить задачу кластеризации, т.е. разделения всего множества вариантов на естественныегруппы, члены которых наиболее близки по ряду признаков. Подобная задача также называется задачей сегментации.

В нашем наборе данных для Excel есть описание множестваклиентов. Нужно разделить их на небольшое количество групп, чтобыотдельным группам сформировать наиболее подходящее им специальное предложение. В связи с тем, что в процессе работы инструмент добавляет данные в исходную таблицу, рекомендуется передначалом работы сделать ее копию

После этого нажимаем кнопку DetectCategories и настраиваем параметры. Здесь хочется обратить внимание на атрибутID, который не имеет смысла учитывать в ходе анализа: он автоматически исключен инструментом. В нашем случае, остальные атрибутыможно оставить. Еще раз хотелось бы повторить, что этот выбор каждый раз делается исходя из особенностей предметной области.

Кроме выбора параметров, можно явно задать число категорий(или оставить настройку по умолчанию – автоматическое определение). Также по умолчанию поставлен флажок «Append a CategorycolumntotheoriginalExceltable»,

указывающий, что к записям в исходной таблице будет добавлен столбец с названием категории.

Сформированный отчет содержит 3 раздела. В первом – указаныопределенные инструментом категории и число строк, попадающих в каждую из них. Поле с названием категории допускает редактирование и можно сопоставить категории более осмысленноеимя. Например, как будет показано ниже, для клиентов первой категории характерен низкий доход, и ее можно так и назвать. Когда введено новое название, везде, кроме диаграммы CategoryProfilesChat,оно автоматически заменит «Category 1». Чтобы название поменять ина диаграмме, надо нажать <Alt>+<Ctrl>+<F5>.

Следующий раздел отчета описывает характеристики выделенных категорий и степень влияния каждого параметра. Поумолчанию отображается

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]