Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1079.pdf
Скачиваний:
56
Добавлен:
07.01.2021
Размер:
854.54 Кб
Скачать

Серия внутривузовских методических указанийСибАДИ

Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

«Сибирский государственный автомобильно-дорожный университет (СибАДИ)» Кафедра «Прикладная информатика в экономике»

МАШИННОЕ ОБУЧЕНИЕ И АНАЛИЗ ДАННЫХ

Методическиеуказания

Составители: С.Н.Чуканов, С.Ю.Пестова

Омск 2018

УДК 004

_____________________________

Согласно 436-ФЗ от 29.12.2010 «О защите детей от информации,

ББК 32.97

причиняющей вред их здоровью и развитию» данная продукция

маркировке не подлежит.

М38

_____________________________

Рецензент

Доктор технических наук В.А Мещеряков (Проректор по информационным технологиям ФГБОУ ВО СибАДИ.)

Работа утверждена редакционно-издательским советом университета в качестве методических указаний.

М38 Машинное обучение и анализ данных [Электронный ресурс] :

методические указания / сост. : С.Н.Чуканов, С.Ю.Пестова. – (Серия внутривузовских методических указаний СибАДИ). – Электрон. дан. – Омск :

СибАДИ, 2018. – Режим доступа:…..………………………………………………..,

свободный после авторизации. – Загл. с экрана.

По темам изложен материал, необходимый для выполнения практических, лабораторных и контрольных работ, дана рекомендуемая литература и перечень дополнительных ресурсов, необходимых для освоения дисциплины «Машинное обучение и анализ данных». Для самостоятельной подготовки к промежуточной аттестации сформированы вопросы и типовые тесты.

Имеется интерактивное оглавление в виде закладок.

Методические указания предназначены для обучающихся направления магистратуры 09.04.01 «Информатика и вычислительная техника» и направления подготовки бакалавров 09.03.03 «Прикладная информатика». Также могут быть использованы как дополнительный учебный материал в различных информационных дисциплинах для формирования профессиональных компетенций.

Издание подготовлено на кафедре «Прикладная информатика в экономике».

Текстовое (символьное) издание

Системные требования: Intel, 3,4 GHz; 150 Мб; Windows XP/Vista/7; DVD-ROM; 1 Гб свободного места на жестком диске; программа для чтения pdf-файлов:

Adobe Acrobat Reader; Foxit Reader

Издание первое. Дата подписания к использованию 20.12.2018 Издательско-полиграфический комплекс СибАДИ. 644080, г. Омск, пр. Мира, 5

РИО ИПК СибАДИ. 644080, г. Омск, ул. 2-я Поселковая, 1

© ФГБОУ ВО «СибАДИ», 2018

СОДЕРЖАНИЕ

ВВЕДЕНИЕ...............................................................................................................................

3

1.ТЕОРЕТИЧЕСКИЙ МАТЕРИАЛ К ЛАБОРАТОРНЫМ РАБОТАМ И

КОНТРОЛЬНЫМ ЗАДАНИЯМ .............................................................................................

4

1.1. Технологии анализа данных. Преобразование данных.................................................

4

1.2. Первичный анализ данных...............................................................................................

6

1.3. Введение в разработку данных и машинное обучение..................................................

8

1.4. Поиск ассоциативных правил и частых множеств признаков....................................

10

1.5. Деревья решений.............................................................................................................

12

1.6. Задачи кластеризации.....................................................................................................

14

1.7. Наивная байесовская классификация (Naive Bayes Classifier) ...................................

15

2. ЛАБОРАТОРНЫЕ РАБОТЫ ............................................................................................

17

2.1. Лабораторная работа № 1. « Поиск ассоциативных правил и частных (замкнутых)

множеств признаков».............................................................................................................

17

2.2 Лабораторная работа №2 «Деревья решений»..............................................................

28

2.3 Лабораторная работа №3 « Задачи кластеризации: иерархическая кластеризация,

метод k-средних, спектральная кластеризация».................................................................

32

3. ПРАКТИЧЕСКИЕ РАБОТЫ.............................................................................................

41

3.1 Практическая работа №1 «Системы машинного обучения WEKA н Orange и ее

средства для работы с деревьями решений» .......................................................................

41

3.2 Практическая работа №2 «Методы кластеризации в системах Weka и Orange».......

42

3.3 Практическая работа №3 «Реализация наивная байесовской классификации на языке

Python».....................................................................................................................................

43

4. ТЕМЫ ДЛЯ ПОДГОТОВКИ К ИТОГОВОЙ ФОРМЕ КОНТРОЛЯ...........................

48

5 КОМПЛЕКТ ЗАДАНИЙ ДЛЯ КОНТРОЛЬНОЙ РАБОТЫ ...........................................

56

СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ................................................................

58

ПЕРЕЧЕНЬ РЕСУРСОВ СЕТИ «ИНТЕРНЕТ», РЕКОМЕНДУЕМЫХ ДЛЯ ОСВОЕНИЯ

ДИСЦИПЛИНЫ.....................................................................................................................

58

ВВЕДЕНИЕ

Изучение дисциплины «Машинное обучение и анализ данных» определяет теоретические основы и практические навыки, необходимые студенту при прохождении практик и написании выпускной квалификационной работы (магистерской диссертации).

Для освоения дисциплины «Машинное обучение и анализ данных» необходимы знания, полученные при изучении следующих дисциплин:

«Интеллектуальный анализ данных».

«Современные проблемы информатики и вычислительной

техники».

Целью данного курса является формирование у магистрантов знаний основных математических методов и алгоритмов машинного обучения, развивать навыки работы с программным обеспечением, реализующим алгоритмы машинного обучения, и умение применять полученные знания при проектировании и реализации интеллектуальных информационных систем.

Задачи дисциплины: освоение логических, метрических и вероятностных методов классификации и кластеризации; критериев выбора моделей и методов отбора признаков; мер и методов оценки качества обучения; индуктивных методов машинного обучения.

Практические и лабораторные работы помогут студентам приобрести навыки машинного обучения и анализа разной направленности

ивеличины данных.

Врезультате изучения дисциплины студент должен:

1)

Знать:

ключевые понятия, цели и задачи использования машин-

ного обучения;

основные алгоритмы машинного обучения и подходы к их

верификации;

методологические основы применения алгоритмов машин-

ного обучения.

2)

Уметь:

визуализировать результаты работы алгоритмов машинного обучения;

подобрать и применить алгоритм машинного обучения, соответствующий исследовательской задаче.

1. ТЕОРЕТИЧЕСКИЙ МАТЕРИАЛ К ЛАБОРАТОРНЫМ РАБОТАМ И КОНТРОЛЬНЫМ ЗАДАНИЯМ

1.1. Технологии анализа данных. Преобразование данных

Вопросы для рассмотрения: Понятие анализа данных.

Технологии анализа данных. Загрузка данных. Типичные задачи, возникающие при преобразовании данных.

Рекомендуемая литература: 2.

Перечень дополнительных ресурсов: 2, 5, перечень ресурсов сети Интернет.

Наименование вида самостоятельной работы: изучение литературы и выполнение тестовых заданий.

Анализ данных — широкое понятие. Сегодня существуют десятки его определений. В самом общем смысле анализ данных — это исследования, связанные с обсчетом многомерной системы данных, имеющей множество параметров. В процессе анализа данных исследователь производит совокупность действий с целью формирования опре деленных представлений о характере явления, описываемого этими данными. Как правило, для анализа данных используются различные математические методы. Анализ данных нельзя рассматривать только как обработку информации после ее сбора.

Анализ данных — это прежде всего средство проверки гипотез и решения задач исследователя.

Извлечение нужной информации из хранилищ данных называют Data mining, или интеллектуальный анализ данных.

Data Mining нашел широкое применение в науке, исследованиях, веб-аналитике, но основное значение и решающую роль интеллектуальный анализ данных имеет в бизнесе и отлично подходит для решения именно бизнес-задач. Какие это могут быть задачи? Например:

Сегментация клиентов

Прогнозирование продаж

Аналитика складских запасов

Принятие решение об индивидуальных скидках для клиентов

Привлечение новых клиентов

И многое другое.

Методы Data Mining:

Кластеризация – или поиск и объединение похожих структур

иобъектов. Слово «кластер» в переводе обозначает скопление или гроздь. Кластеризация не помогает делать выводы, а только находит и объединяет объекты с общими свойствами.

Алгоритм k-средних (k-means) (или быстрый кластерный анализ). Алгоритм k-средних помогает определить гипотезы относительно количества кластеров. При этом значение k может зависеть от ранее проведенных исследований, предположений или даже интуиции.

Байесовские сети: графические структуры, которые представляют вероятностные отношения между огромным массивом переменных. Байесовские сети служат для создания вероятностного вывода на основе этих переменных.

Искусственные нейронные сети. Очень популярная тема в последнее время – и они у всех на слуху. Прежде чем воспользоваться нейронной сетью, ее нужно «научить». От того, насколько правильно, верно и точно будет обучена сеть, зависит ее эффективность в решении тех или иных задач. Обучает сеть – человек, аналитик. Поэтому грамотные специалисты по обучению нейронных сетей очень востребованы на рынке.

Одной из типичных задач технологии анализа данных является их преобразование.

Преобразование данных - перевод данных из одной формы в другую или из одной структуры в другую. Преобразование данных часто связано с изменением типа носителя: например книги можно хранить в обычной бумажной форме, но можно использовать для этого и электронную форму, и микрофотопленку.

К процессу преобразования данных относится и кодирование данных. Существуют различные способы кодирования, но для ЭВМ основным является преобразование аналоговой формы электрического сигнала в цифровую. Последствием этого является представление данных в двоичной форме.

В ходе информационного процесса данные преобразуются из одного вида в другой с помощью методов информационного обмена:

сбор данных - накопление информации с целью обеспечения достаточной полноты для принятия решений;

формализация данных - приведениеданных, поступающих из разных источников, к одинаковой форме, чтобы сделать их

сопоставимыми между собой, то есть повысить их уровень доступности:

фильтрация данныхотсеивание «лишних» данных, в которых нет необходимости для принятия решений; при этом должен уменьшаться уровень шума, достоверность и адекватность данных должны возрастать;

сортировка данных - упорядочение данныхпо заданному признаку с целью удобства использования; повышает доступность информации;

архивация данных - организация хранения данных в удобной

илегкодоступной форме; служит для снижения экономических затрат по хранению данных и повышает общую надежность информационного процесса в целом;

защита данных - комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных;

транспортировка данных - прием и передача (доставка и поставка) данных между удаленными участниками информационного процесса; при этом источник данных в информатике принято называть сервером, а потребителя – клиентом.

1.2.Первичный анализ данных

Вопросы для рассмотрения: Понятие первичного анализа данных. Расчет статистик. Построение графиков. Работа с отдельными переменными и парами переменных.

Рекомендуемая литература: 2.

Перечень дополнительных ресурсов: 1, 2, перечень ресурсов сети Интернет.

Наименование вида самостоятельной работы: изучение ли-

тературы и выполнение тестовых заданий.

В процессе анализа и обработки эмпирических данных обычно используются такие термины как “признак”, “показатель”, “параметр”, “переменная”. Употребляются они чаще всего как синонимы. Другой смысл имеет термин “значение”. Значение - это определенная числовая величина того или иного показателя, выявленная у конкретного испытуемого (Куликов, 2001).

Обработка полученных эмпирических данных начинается

обычно с первичного анализа переменных. Для большей наглядности изображения они заносятся в таблицы или изображаются в виде графиков. Проверка точности выполнения этой части работы обеспечивает достоверность дальнейшей обработки и анализа результатов исследования.

Использование методов математической статистики при обработке первичных эмпирических данных необходимо для повышения достоверности выводов, как в научном, так и в практическом психологическом исследовании. Начинает исследователь обычно с анализа первичных статистик. Важнейшими среди них являются:

средняя арифметическая;

мода;

медиана;

разброс;

дисперсия;

среднее квадратичное отклонение.

Типичными задачами математической обработки данных являются:

оценка достоверности различий;

корреляционный анализ;

факторный анализ;

анализ изменчивости признаков.

Во многих исследованиях осуществляется поиск различий в психологических показателях у испытуемых, характеризующихся разными особенностями. Для обработки соответствующих данных могут использоваться критерии на выявлении различий в уровне исследуемого признака или в распределении признака.

Во многих исследованиях осуществляется поиск взаимосвязи психологических показателей у одних и тех же испытуемых. Для обработки соответствующих данных могут использоваться коэффициенты корреляции.

Для выявления структуры данных (и соответственно структуры изучаемой психологической реальности), а также взаимосвязи данных, используется факторный анализ.

Во многих исследованиях интерес представляет анализ изменчивости признака под влиянием каких-либо контролируемых факторов, или другими словами, оценка влияния разных факторов на изучаемый признак.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]