- •ВВЕДЕНИЕ
- •1. ТЕОРЕТИЧЕСКИЙ МАТЕРИАЛ К ЛАБОРАТОРНЫМ РАБОТАМ И КОНТРОЛЬНЫМ ЗАДАНИЯМ
- •1.1. Технологии анализа данных. Преобразование данных
- •1.2. Первичный анализ данных
- •1.3. Введение в разработку данных и машинное обучение
- •1.4. Поиск ассоциативных правил и частых множеств признаков
- •1.5. Деревья решений
- •1.6. Задачи кластеризации
- •1.7. Наивная байесовская классификация (Naive Bayes Classifier)
- •2. ЛАБОРАТОРНЫЕ РАБОТЫ
- •2.2 Лабораторная работа №2 «Деревья решений»
- •3. ПРАКТИЧЕСКИЕ РАБОТЫ
- •4. ТЕМЫ ДЛЯ ПОДГОТОВКИ К ИТОГОВОЙ ФОРМЕ КОНТРОЛЯ
- •5 КОМПЛЕКТ ЗАДАНИЙ ДЛЯ КОНТРОЛЬНОЙ РАБОТЫ
- •СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ
- •ПЕРЕЧЕНЬ РЕСУРСОВ СЕТИ «ИНТЕРНЕТ», РЕКОМЕНДУЕМЫХ ДЛЯ ОСВОЕНИЯ ДИСЦИПЛИНЫ
Серия внутривузовских методических указанийСибАДИ
Министерство науки и высшего образования Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования
«Сибирский государственный автомобильно-дорожный университет (СибАДИ)» Кафедра «Прикладная информатика в экономике»
МАШИННОЕ ОБУЧЕНИЕ И АНАЛИЗ ДАННЫХ
Методическиеуказания
Составители: С.Н.Чуканов, С.Ю.Пестова
Омск 2018
УДК 004 |
_____________________________ |
Согласно 436-ФЗ от 29.12.2010 «О защите детей от информации, |
|
ББК 32.97 |
причиняющей вред их здоровью и развитию» данная продукция |
маркировке не подлежит. |
|
М38 |
_____________________________ |
Рецензент
Доктор технических наук В.А Мещеряков (Проректор по информационным технологиям ФГБОУ ВО СибАДИ.)
Работа утверждена редакционно-издательским советом университета в качестве методических указаний.
М38 Машинное обучение и анализ данных [Электронный ресурс] :
методические указания / сост. : С.Н.Чуканов, С.Ю.Пестова. – (Серия внутривузовских методических указаний СибАДИ). – Электрон. дан. – Омск :
СибАДИ, 2018. – Режим доступа:…..………………………………………………..,
свободный после авторизации. – Загл. с экрана.
По темам изложен материал, необходимый для выполнения практических, лабораторных и контрольных работ, дана рекомендуемая литература и перечень дополнительных ресурсов, необходимых для освоения дисциплины «Машинное обучение и анализ данных». Для самостоятельной подготовки к промежуточной аттестации сформированы вопросы и типовые тесты.
Имеется интерактивное оглавление в виде закладок.
Методические указания предназначены для обучающихся направления магистратуры 09.04.01 «Информатика и вычислительная техника» и направления подготовки бакалавров 09.03.03 «Прикладная информатика». Также могут быть использованы как дополнительный учебный материал в различных информационных дисциплинах для формирования профессиональных компетенций.
Издание подготовлено на кафедре «Прикладная информатика в экономике».
Текстовое (символьное) издание
Системные требования: Intel, 3,4 GHz; 150 Мб; Windows XP/Vista/7; DVD-ROM; 1 Гб свободного места на жестком диске; программа для чтения pdf-файлов:
Adobe Acrobat Reader; Foxit Reader
Издание первое. Дата подписания к использованию 20.12.2018 Издательско-полиграфический комплекс СибАДИ. 644080, г. Омск, пр. Мира, 5
РИО ИПК СибАДИ. 644080, г. Омск, ул. 2-я Поселковая, 1
© ФГБОУ ВО «СибАДИ», 2018
СОДЕРЖАНИЕ
ВВЕДЕНИЕ............................................................................................................................... |
3 |
1.ТЕОРЕТИЧЕСКИЙ МАТЕРИАЛ К ЛАБОРАТОРНЫМ РАБОТАМ И
КОНТРОЛЬНЫМ ЗАДАНИЯМ ............................................................................................. |
4 |
1.1. Технологии анализа данных. Преобразование данных................................................. |
4 |
1.2. Первичный анализ данных............................................................................................... |
6 |
1.3. Введение в разработку данных и машинное обучение.................................................. |
8 |
1.4. Поиск ассоциативных правил и частых множеств признаков.................................... |
10 |
1.5. Деревья решений............................................................................................................. |
12 |
1.6. Задачи кластеризации..................................................................................................... |
14 |
1.7. Наивная байесовская классификация (Naive Bayes Classifier) ................................... |
15 |
2. ЛАБОРАТОРНЫЕ РАБОТЫ ............................................................................................ |
17 |
2.1. Лабораторная работа № 1. « Поиск ассоциативных правил и частных (замкнутых) |
|
множеств признаков»............................................................................................................. |
17 |
2.2 Лабораторная работа №2 «Деревья решений».............................................................. |
28 |
2.3 Лабораторная работа №3 « Задачи кластеризации: иерархическая кластеризация, |
|
метод k-средних, спектральная кластеризация»................................................................. |
32 |
3. ПРАКТИЧЕСКИЕ РАБОТЫ............................................................................................. |
41 |
3.1 Практическая работа №1 «Системы машинного обучения WEKA н Orange и ее |
|
средства для работы с деревьями решений» ....................................................................... |
41 |
3.2 Практическая работа №2 «Методы кластеризации в системах Weka и Orange»....... |
42 |
3.3 Практическая работа №3 «Реализация наивная байесовской классификации на языке |
|
Python»..................................................................................................................................... |
43 |
4. ТЕМЫ ДЛЯ ПОДГОТОВКИ К ИТОГОВОЙ ФОРМЕ КОНТРОЛЯ........................... |
48 |
5 КОМПЛЕКТ ЗАДАНИЙ ДЛЯ КОНТРОЛЬНОЙ РАБОТЫ ........................................... |
56 |
СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ................................................................ |
58 |
ПЕРЕЧЕНЬ РЕСУРСОВ СЕТИ «ИНТЕРНЕТ», РЕКОМЕНДУЕМЫХ ДЛЯ ОСВОЕНИЯ |
|
ДИСЦИПЛИНЫ..................................................................................................................... |
58 |
ВВЕДЕНИЕ
Изучение дисциплины «Машинное обучение и анализ данных» определяет теоретические основы и практические навыки, необходимые студенту при прохождении практик и написании выпускной квалификационной работы (магистерской диссертации).
Для освоения дисциплины «Машинное обучение и анализ данных» необходимы знания, полученные при изучении следующих дисциплин:
−«Интеллектуальный анализ данных».
−«Современные проблемы информатики и вычислительной
техники».
Целью данного курса является формирование у магистрантов знаний основных математических методов и алгоритмов машинного обучения, развивать навыки работы с программным обеспечением, реализующим алгоритмы машинного обучения, и умение применять полученные знания при проектировании и реализации интеллектуальных информационных систем.
Задачи дисциплины: освоение логических, метрических и вероятностных методов классификации и кластеризации; критериев выбора моделей и методов отбора признаков; мер и методов оценки качества обучения; индуктивных методов машинного обучения.
Практические и лабораторные работы помогут студентам приобрести навыки машинного обучения и анализа разной направленности
ивеличины данных.
Врезультате изучения дисциплины студент должен:
1) |
Знать: |
− |
ключевые понятия, цели и задачи использования машин- |
ного обучения; |
|
− |
основные алгоритмы машинного обучения и подходы к их |
верификации; |
|
− |
методологические основы применения алгоритмов машин- |
ного обучения. |
|
2) |
Уметь: |
−визуализировать результаты работы алгоритмов машинного обучения;
−подобрать и применить алгоритм машинного обучения, соответствующий исследовательской задаче.
1. ТЕОРЕТИЧЕСКИЙ МАТЕРИАЛ К ЛАБОРАТОРНЫМ РАБОТАМ И КОНТРОЛЬНЫМ ЗАДАНИЯМ
1.1. Технологии анализа данных. Преобразование данных
Вопросы для рассмотрения: Понятие анализа данных.
Технологии анализа данных. Загрузка данных. Типичные задачи, возникающие при преобразовании данных.
Рекомендуемая литература: 2.
Перечень дополнительных ресурсов: 2, 5, перечень ресурсов сети Интернет.
Наименование вида самостоятельной работы: изучение литературы и выполнение тестовых заданий.
Анализ данных — широкое понятие. Сегодня существуют десятки его определений. В самом общем смысле анализ данных — это исследования, связанные с обсчетом многомерной системы данных, имеющей множество параметров. В процессе анализа данных исследователь производит совокупность действий с целью формирования опре деленных представлений о характере явления, описываемого этими данными. Как правило, для анализа данных используются различные математические методы. Анализ данных нельзя рассматривать только как обработку информации после ее сбора.
Анализ данных — это прежде всего средство проверки гипотез и решения задач исследователя.
Извлечение нужной информации из хранилищ данных называют Data mining, или интеллектуальный анализ данных.
Data Mining нашел широкое применение в науке, исследованиях, веб-аналитике, но основное значение и решающую роль интеллектуальный анализ данных имеет в бизнесе и отлично подходит для решения именно бизнес-задач. Какие это могут быть задачи? Например:
–Сегментация клиентов
–Прогнозирование продаж
–Аналитика складских запасов
–Принятие решение об индивидуальных скидках для клиентов
–Привлечение новых клиентов
–И многое другое.
Методы Data Mining:
–Кластеризация – или поиск и объединение похожих структур
иобъектов. Слово «кластер» в переводе обозначает скопление или гроздь. Кластеризация не помогает делать выводы, а только находит и объединяет объекты с общими свойствами.
–Алгоритм k-средних (k-means) (или быстрый кластерный анализ). Алгоритм k-средних помогает определить гипотезы относительно количества кластеров. При этом значение k может зависеть от ранее проведенных исследований, предположений или даже интуиции.
–Байесовские сети: графические структуры, которые представляют вероятностные отношения между огромным массивом переменных. Байесовские сети служат для создания вероятностного вывода на основе этих переменных.
–Искусственные нейронные сети. Очень популярная тема в последнее время – и они у всех на слуху. Прежде чем воспользоваться нейронной сетью, ее нужно «научить». От того, насколько правильно, верно и точно будет обучена сеть, зависит ее эффективность в решении тех или иных задач. Обучает сеть – человек, аналитик. Поэтому грамотные специалисты по обучению нейронных сетей очень востребованы на рынке.
Одной из типичных задач технологии анализа данных является их преобразование.
Преобразование данных - перевод данных из одной формы в другую или из одной структуры в другую. Преобразование данных часто связано с изменением типа носителя: например книги можно хранить в обычной бумажной форме, но можно использовать для этого и электронную форму, и микрофотопленку.
К процессу преобразования данных относится и кодирование данных. Существуют различные способы кодирования, но для ЭВМ основным является преобразование аналоговой формы электрического сигнала в цифровую. Последствием этого является представление данных в двоичной форме.
В ходе информационного процесса данные преобразуются из одного вида в другой с помощью методов информационного обмена:
–сбор данных - накопление информации с целью обеспечения достаточной полноты для принятия решений;
–формализация данных - приведениеданных, поступающих из разных источников, к одинаковой форме, чтобы сделать их
сопоставимыми между собой, то есть повысить их уровень доступности:
–фильтрация данныхотсеивание «лишних» данных, в которых нет необходимости для принятия решений; при этом должен уменьшаться уровень шума, достоверность и адекватность данных должны возрастать;
–сортировка данных - упорядочение данныхпо заданному признаку с целью удобства использования; повышает доступность информации;
–архивация данных - организация хранения данных в удобной
илегкодоступной форме; служит для снижения экономических затрат по хранению данных и повышает общую надежность информационного процесса в целом;
–защита данных - комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных;
–транспортировка данных - прием и передача (доставка и поставка) данных между удаленными участниками информационного процесса; при этом источник данных в информатике принято называть сервером, а потребителя – клиентом.
1.2.Первичный анализ данных
Вопросы для рассмотрения: Понятие первичного анализа данных. Расчет статистик. Построение графиков. Работа с отдельными переменными и парами переменных.
Рекомендуемая литература: 2.
Перечень дополнительных ресурсов: 1, 2, перечень ресурсов сети Интернет.
Наименование вида самостоятельной работы: изучение ли-
тературы и выполнение тестовых заданий.
В процессе анализа и обработки эмпирических данных обычно используются такие термины как “признак”, “показатель”, “параметр”, “переменная”. Употребляются они чаще всего как синонимы. Другой смысл имеет термин “значение”. Значение - это определенная числовая величина того или иного показателя, выявленная у конкретного испытуемого (Куликов, 2001).
Обработка полученных эмпирических данных начинается
обычно с первичного анализа переменных. Для большей наглядности изображения они заносятся в таблицы или изображаются в виде графиков. Проверка точности выполнения этой части работы обеспечивает достоверность дальнейшей обработки и анализа результатов исследования.
Использование методов математической статистики при обработке первичных эмпирических данных необходимо для повышения достоверности выводов, как в научном, так и в практическом психологическом исследовании. Начинает исследователь обычно с анализа первичных статистик. Важнейшими среди них являются:
–средняя арифметическая;
–мода;
–медиана;
–разброс;
–дисперсия;
–среднее квадратичное отклонение.
Типичными задачами математической обработки данных являются:
–оценка достоверности различий;
–корреляционный анализ;
–факторный анализ;
–анализ изменчивости признаков.
Во многих исследованиях осуществляется поиск различий в психологических показателях у испытуемых, характеризующихся разными особенностями. Для обработки соответствующих данных могут использоваться критерии на выявлении различий в уровне исследуемого признака или в распределении признака.
Во многих исследованиях осуществляется поиск взаимосвязи психологических показателей у одних и тех же испытуемых. Для обработки соответствующих данных могут использоваться коэффициенты корреляции.
Для выявления структуры данных (и соответственно структуры изучаемой психологической реальности), а также взаимосвязи данных, используется факторный анализ.
Во многих исследованиях интерес представляет анализ изменчивости признака под влиянием каких-либо контролируемых факторов, или другими словами, оценка влияния разных факторов на изучаемый признак.