5389
.pdfМИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение высшего образования
«Нижегородский государственный архитектурно-строительный университет»
Прокопенко Н.Ю.
МАШИННОЕ ОБУЧЕНИЕ
Учебно-методическое пособие
по подготовке к лекциям, лабораторным занятиям
(включая рекомендации по организации самостоятельной работы),
по выполнению расчетной работы
для обучающихся по дисциплине «Машинное обучение»
по направлению подготовки 09.03.04 Программная инженерия профиль Разработка программно-информационных систем
Нижний Новгород
2022
УДК 004.9
Прокопенко Н.Ю. / Машинное обучение: учебно-методическое пособие / Н.Ю. Прокопенко; Нижегородский государственный архитектурно-строительный университет – Нижний Новгород: ННГАСУ, 2022. – 17 с.– Текст: электронный.
В настоящем учебно-методическом пособии по дисциплине «Машинное обучение» даются конкретные рекомендации учащимся для освоения как основного, так и дополнительного материала дисциплины и тем самым способствующие достижению целей, обозначенных в учебной программе дисциплины. Цель учебно-методического пособия – это помощь в усвоении лекций, в подготовке к лабораторным занятиям, а также в написании расчетной работы.
Учебно-методическое пособие предназначено для обучающихся в ННГАСУ по дисциплине «Машинное обучение» по направлению подготовки 09.03.04 Программная инженерия, профиль Разработка программно-информационных систем.
© Н.Ю. Прокопенко, 2022
© ННГАСУ, 2022
2
Оглавление  | 
	
  | 
|
1. Общие положения ..........................................................................................................................  | 
	4  | 
|
. 1.1 Цели изучения дисциплины и результаты обучения .........................................................  | 
	4  | 
|
. 1.2 Содержание дисциплины .....................................................................................................  | 
	4  | 
|
. 1.3 Вспомогательная литература для изучения дисциплины .................................................  | 
	5  | 
|
2. Методические указания по подготовке к лекциям .....................................................................  | 
	6  | 
|
. 2.1 Общие рекомендации по работе на лекциях ......................................................................  | 
	6  | 
|
. 2.2 Общие рекомендации при работе с конспектом лекций ...................................................  | 
	7  | 
|
. 2.3 Контрольные вопросы ..........................................................................................................  | 
	7  | 
|
3. Методические указания по подготовке к лабораторным занятиям ..........................................  | 
	8  | 
|
. 3.1 Общие рекомендации по подготовке к лабораторным занятиям .....................................  | 
	8  | 
|
. 3.2 Примеры заданий для лабораторных занятий ....................................................................  | 
	8  | 
|
.4. Методические указания по организации самостоятельной работы.......................................  | 
	11  | 
|
. 4.1  | 
	Общие рекомендации для самостоятельной работы .......................................................  | 
	11  | 
. 4.2  | 
	Темы для самостоятельного изучения ..............................................................................  | 
	13  | 
. 5.1  | 
	Общие требования к оформлению расчетной работы .....................................................  | 
	14  | 
. 5.2  | 
	Примерные варианты расчетной работы ..........................................................................  | 
	14  | 
1. Общие положения
. 1.1 Цели изучения дисциплины и результаты обучения
Основной целью освоения учебной дисциплины «Машинное обучение» является достиже-
ние результатов обучения, предусмотренных установленным в ОПОП индикаторами достижения компетенций.
Целями освоения данной дисциплины являются формирование четкого представления о месте и роли современной технологии обработки данных – методах машинного обучения, изуче-
ние сложившейся в этой области терминологии, моделей и методов актуальных направлений
(нейронных сетей, моделей классификации и кластеризации), овладение современным программ-
ным инструментарием, позволяющим эффективно применять методы машинного обучения.
В процессе освоения дисциплины студент должен Знать:
основные модели Data mining (деревья решений, ассоциативные правила, кластеризация; ис-
кусственные нейронные сети), этапы, методы и инструментальные средства обработки данных.
Уметь:
самостоятельно провести необходимую работу с данными, определить тип задачи (класси-
фикация, кластеризация, прогнозирование, поиск зависимостей и т.п.), решить ее адекватно вы-
бранным методом.
Владеть:
практическими приёмами и методами реализации различных стратегий обработки данных и объяснения полученных результатов; навыками работы с аналитическими платформами Deductor
и Loginom.
Данная дисциплина позволит студентам не только систематизировать полученные теорети-
ческие знания, укрепить исследовательские навыки, но и даст возможность ориентироваться в но-
вом предметном поле информатики.
. 1.2 Содержание дисциплины
Материал дисциплины сгруппирован по следующим разделам:
1. Предмет и методы интеллектуального анализа данных.
Области применения методов машинного обучения. Методы обработки данных. Подготовка данных для анализа: выявление пропусков, дубликатов, противоречий, аномалий; восстановление пропущенных значений; редактирование аномальных значений; представление их в виде, пригод-
ном для дальнейшего анализа с помощью различных аналитических и интеллектуальных алгорит-
мов.
2. Оперативная аналитическая обработка данных OLAP.
Многомерное представление данных On-line Analytical Processing (OLAP). Визуализация данных и манипуляция с данными на основе графического изображения (диаграммы, гистограм-
мы, OLAP-кубы).
3. Data Mining: классификация и регрессия. Машинное обучение. Деревья решений.
Методы кластерного анализа (метод k-средних; дискриминантный анализ: Отнесение объек-
тов к тому или иному классу с помощью функций классификации, метода эталона, метода бли-
жайшего соседа. Деревья решений. Алгоритмы построения деревьев решений. Модифицирован-
ный алгоритм построения дерева решающих правил на основе алгоритма C4.5. Упрощение дере-
вьев решений. Визуализаторы (Правила, значимость атрибутов).
4. Data Mining: ассоциативные правила.
Ассоциативные правила. Алгоритм Apriori для поиска ассоциативных правил. Иерархиче-
ские ассоциативные правила.
5. Data Mining. Искусственные нейронные сети.
Основные понятия. Структура нейронной сети. Алгоритм обратного распространения ошиб-
ки. Процесс обучения. Параметры остановки. Многослойный персептрон. Выбор оптимальной структуры многослойной сети.
. 1.3 Вспомогательная литература для изучения дисциплины
Для освоения дисциплины обучающийся может использовать печатные и электронные из-
дания и методические материалы, имеющиеся в библиотеке ННГАСУ и/или размещённые в элек-
тронных библиотечных системах (ЭБС), предоставляющих право использования изданий на осно-
вании договорных отношений с университетом, а также иные общедоступные ресурсы сети «Ин-
тернет».
Печатные и электронные издания
1. Замятин, А. В.. Интеллектуальный анализ данных : учебное пособие. / Замятин, А. В. ; А. В. За-
мятин. – Томск : Издательский Дом Томского государственного университета, 2020. – 194 с. –
URL: URL: https://www.iprbookshop.ru/116889.html. – ISBN ISBN 978-5-94621-898-6.
2. Сараев П. В.. Методы машинного обучения : Методические указания и задания к лабораторным работам по курсу. / Сараев П. В. ; П. В. Сараев. – Липецк : Липецкий государственный техниче-
ский университет, ЭБС АСВ, 2017. – 48 с. – URL: URL: http://www.iprbookshop.ru/83183.html. –
ISBN ISBN 2227-8397.
5
3. Сопов, Е. А.. Многокритериальные нейроэволюционные системы в задачах машинного обуче-
ния и человеко-машинного взаимодействия : монография. / Сопов, Е. А., Иванов, И. А. ; Е. А. Со-
пов, И. А. Иванов. – Красноярск : Сибирский федеральный университет, 2019. – 160 с. – URL: URL: http://www.iprbookshop.ru/100054.html. – ISBN ISBN 978-5-7638-3969-2.
4. Теория и практика машинного обучения : учебное пособие. / Воронина, В. В., Михеев, А. В.,
Ярушкина, Н. Г., Святов, К. В. ; В. В. Воронина, А. В. Михеев, Н. Г. Ярушкина, К. В. Святов. –
Ульяновск : Ульяновский государственный технический университет, 2017. – 291 с. – URL: URL: http://www.iprbookshop.ru/106120.html. – ISBN ISBN 978-5-9795-1712-4.
Методические материалы по дисциплине
1. Прокопенко Наталья Юрьевна. Системы искусственного интеллекта : учеб.-метод. пособие по подгот. к лекциям, практ. занятиям (включая рекомендации по организации самостоят. работы)
для обучающихся по дисциплине "Системы искусств. интеллекта" по направлению подгот. 09.03.04 Программная инженерия, профиль 09.03.04 Разработка программно-информ. систем. /
Прокопенко Наталья Юрьевна ; Нижегор. гос. архит.-строит. ун-т. – Нижний Новгород : ННГАСУ,
2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
2. Прокопенко Наталья Юрьевна. Анализ данных : учеб.-метод. пособие по подгот. к лекциям,
практ. занятиям (включая рекомендации по организации самостоят. работы) для обучающихся по дисциплине "Анализ данных" по направлению подгот. 09.03.04 Программная инженерия, профиль
09.03.04 Разработка программно-информ. систем. / Прокопенко Наталья Юрьевна ; Нижегор. гос.
архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
3. Прокопенко Наталья Юрьевна. Машинное обучение : учеб.-метод. пособие по подгот. к лекци-
ям, практ. занятиям (включая рекомендации по организации самостоят. работы) для обучающихся по дисциплине "Машинное обучение" по направлению подгот. 09.03.04 Программная инженерия,
профиль Разработка программно-информ. систем. / Прокопенко Наталья Юрьевна ; Нижегор. гос.
архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
2. Методические указания по подготовке к лекциям
. 2.1 Общие рекомендации по работе на лекциях
Лекция является главным звеном дидактического цикла обучения. Ее цель – формирование
основы для последующего усвоения учебного материала. В ходе лекции преподаватель в устной
6
форме, а также с помощью презентаций передает обучаемым знания по основным, фундаменталь-
ным вопросам изучаемой дисциплины.
Назначение лекции состоит в том, чтобы доходчиво изложить основные положения изуча-
емой дисциплины, ориентировать на наиболее важные вопросы учебной дисциплины и оказать помощь в овладении необходимых знаний и применения их на практике.
При подготовке к лекционным занятиям студенты должны ознакомиться с презентаций,
предлагаемой преподавателем, отметить непонятные термины и положения, подготовить вопросы с целью уточнения правильности понимания. Рекомендуется приходить на лекцию подготовлен-
ным, так как в этом случае лекция может быть проведена в интерактивном режиме, что способ-
ствует повышению эффективности лекционных занятий.
. 2.2 Общие рекомендации при работе с конспектом лекций
В ходе лекционных занятий необходимо вести конспектирование учебного материала. Кон-
спект помогает внимательно слушать, лучше запоминать в процессе осмысленного записывания,
обеспечивает наличие опорных материалов при подготовке к лабораторным занятиям, зачету, эк-
замену.
Полезно оставить в рабочих конспектах поля, на которых делать пометки из рекомендован-
ной литературы, дополняющие материал прослушанной лекции, а также подчеркивающие особую важность тех или иных теоретических положений.
В случае неясности по тем или иным вопросам необходимо задавать преподавателю уточ-
няющие вопросы. Следует ясно понимать, что отсутствие вопросов без обсуждения означает в большинстве случаев неусвоенность материала дисциплины.
. 2.3 Контрольные вопросы
1.Data Mining: классификация и регрессия. Машинное обучение.
2.Области применения методов машинного обучения
3.Способы машинного обучения: обучение с учителем и без учителя.
4.Data Mining: задача ассоциации.
5.Методы формирования тестовой и обучающей выборки.
6.Data Mining: задача кластеризации.
7.Искусственные нейронные сети. Многослойный персептрон и его обучение с помощью алгоритма обратного распространения ошибки.
8.Описание модели Карта Кохонена.
9.Алгоритмы ограниченного перебора.
7
10.Деревья решений. Алгоритм ID3.
11.Ассоциативные правила. Алгоритм a priorty.
12.Кластеризация. Алгоритм обучения сети Кохонена.
13.Описать метод k ближайших соседей.
14.Описать наивный байесовский классификатор.
15.Критерии оптимизации деревьев решений (упрощение деревьев решений).
16.Современные пакеты прикладных программ анализа, включающие методы машинного
обучения.
3.Методические указания по подготовке к лабораторным занятиям
. 3.1 Общие рекомендации по подготовке к лабораторным занятиям
В ходе подготовки к лабораторным занятиям необходимо изучать основную литературу, по-
знакомиться с дополнительной литературой. При этом необходимо учесть рекомендации препода-
вателя и требования учебной программы.
В соответствии с этими рекомендациями и подготовкой полезно дорабатывать свои конспек-
ты лекции, делая в нем соответствующие записи из литературы, рекомендованной преподавателем и предусмотренной учебной программой. Целесообразно также подготовить тезисы для возмож-
ных выступлений по всем учебным вопросам, выносимым на лабораторные занятия.
При подготовке к занятиям можно также подготовить краткие конспекты по вопросам темы.
Очень эффективным приемом является составление схем и презентаций.
Своевременное и качественное выполнение самостоятельной работы базируется на соблюде-
нии настоящих рекомендаций и изучении рекомендованной литературы.
. 3.2 Примеры заданий для лабораторных занятий Задание 1. Классификация на основе Дерева решений
Разделить все районы Нижегородского региона на различные классы по уровню дохода бюджета при помощи инструментов Квантование и Дерево решений (данные взять из файла
показатели.txt или из созданного ранее ХД Регион).
Для этого:
а) Нужно найти средние значения показателей по каждому району за весь исследуемый период;
б) Значения поля «доход бюджета» при помощи обработчика «Квантование» нужно разбить на три диапазона «низкий доход», «средний доход», «высокий доход».
в) С помощью обработчика «Дерево решений» получить правила, применяя которые можно
определить к какому их трех возможных уровней дохода будет относиться произвольный район.
8
г) Оценить качество построенной классификационной модели по таблице сопряженности и соответствующей ей диаграмме.
Задание 2. Классификация на основе Дерева решений
1) Построить классифицирующее Дерево решений для отнесения водных объектов на осно-
ве показателя ИЗВ (индекс загрязнения воды) к определенному классу вод, используя критерии,
описанные в таблице.
Таблица. Классы качества вод в зависимости от значения ИЗВ
Значение ИЗВ  | 
	Воды  | 
|
до 0,2  | 
	Очень чистые  | 
|
0,2  | 
	– 1,0  | 
	Чистые  | 
  | 
	
  | 
	
  | 
1,0  | 
	– 2,0  | 
	Умеренно загрязненные  | 
2,0  | 
	– 4,0  | 
	Загрязненные  | 
4,0  | 
	– 6,0  | 
	Грязные  | 
6,0  | 
	– 10,0  | 
	Очень грязные  | 
2) Результаты классификации отобразить на диаграмме «Процентное соотношение качества вод региона». Ответить на вопрос: какой процент водных объектов Нижегородской области отно-
сится к классу Загрязненных вод.
Задание 3. Построение модели отклика получателей рассылки на активных и неактив-
ных при помощи алгоритма построения дерева решений.
Торговая компания, осуществляющая продажу товаров, располагает информацией о своих клиентах и их покупках. Компания провела рекламную рассылку 13 504 клиентам и получила от-
клик в 14,5 % случаев. Необходимо построить модели отклика и проанализировать результаты,
чтобы предложить способы минимизации издержек на новые почтовые рассылки.
Данные находятся в файлах responses1.txt (обучающее множество) и responses2.txt (тестовое множество). Они представлены таблицами со следующими полями:
Таблица 1 – Поля наборов данных «Отклики»
N  | 
	Поле  | 
	Описание  | 
	Тип  | 
1  | 
	Код клиента  | 
	Уникальный идентификатор  | 
	целый  | 
2  | 
	Пол  | 
	Пол клиента  | 
	строко-  | 
  | 
	
  | 
	
  | 
	вый  | 
3  | 
	Сколько лет клиенту  | 
	Число лет с момента первой покупки. Если  | 
	целый  | 
  | 
	
  | 
	менее года, то в поле стоит 0  | 
	
  | 
4  | 
	Кол-во позиций товаров  | 
	Сколько уникальных товаров приобретал клиент  | 
	целый  | 
5  | 
	Доход с клиента, тыс. ед.  | 
	Суммарная стоимость всех заказов клиента  | 
	вещест.  | 
6  | 
	Число покупок в тек. го-  | 
	Сколько раз клиент делал заказ в текущем году  | 
	целый  | 
  | 
	ду  | 
	
  | 
	
  | 
7  | 
	Обращений в службу  | 
	Сколько раз клиент обращался в службу поддержки  | 
	целый  | 
  | 
	поддержки  | 
	
  | 
	
  | 
8  | 
	Задержки платежей  | 
	Задержки клиента фиксируются, когда длительное  | 
	целый  | 
  | 
	
  | 
	время после заказа оплата не поступает  | 
	
  | 
9
9  | 
	Дисконтная карта  | 
	Является ли клиент участником дисконтных про-  | 
	целый  | 
  | 
	
  | 
	грамм, дающих право на скидки  | 
	
  | 
10  | 
	Возраст  | 
	Возраст клиента  | 
	целый  | 
11  | 
	Отклик  | 
	Отклик клиента на последнюю рассылку.  | 
	целый  | 
  | 
	
  | 
	Значение «1» означает, что клиент совершил покуп-  | 
	
  | 
  | 
	
  | 
	ку после прямой адресной рассылки.  | 
	
  | 
12  | 
	Дата отклика  | 
	Информационное поле (пустое, если отклика не бы-  | 
	дата  | 
  | 
	
  | 
	ло)  | 
	
  | 
1. Построить и изучить Матрицу корреляции для оценки влияния входных переменных на выход-
ную.
2.Для получения правил классификации запустить обработчик Дерево решений.
3.Изучите визуализаторы «Дерево решения», «Правила», «Значимость атрибутов», «Матрица классификации».
4.Изменяя порог отсечения построить новые модели, выбрать модель, лучшую с точки зрения точности и интерпретации. Выписать наиболее значимые правила.
5.Построить дерево решений на сбалансированном обучающем множестве и посмотреть те же ви-
зуализаторы и сделать вывод о качестве моделей.
6. Построить интерактивное дерево решений на сбалансированной выборке, приняв во внимание
пожелания экспертов:
Первым атрибутом должен быть «Сколько лет клиент».
Вторым атрибутом – «Доход с клиента». Всех клиентов нужно разбить на 3 категории:
малоприбыльные (до 20 тыс. ед.), дающие умеренный (от 20 тыс. до 50 тыс. ед.) и высокий доход (свыше 50 тыс.ед.).
7. Изучить визуализаторы для интерактивного дерева. Выписать наиболее значимые и инте-
ресные правила.
8. Прогнать через лучшую модель тестовое множество и сделать выводы о качестве классифи-
кации.
9. Проведенное исследование оформить в виде отчета
Задание 4.
1.Загрузить данные transactions.txt
2.Настройки параметров построения ассоциативных правил:
Поддержка: 1%< S<20%, Достоверность: 40%< S<90%
3.Записать:
1)Количество популярных наборов =
2)Количество популярных наборов, удовлетворяющих поддержке >6% =
10
