6868
.pdfМИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение высшего образования
«Нижегородский государственный архитектурно-строительный университет»
Прокопенко Н.Ю.
АНАЛИЗ ДАННЫХ
Учебно-методическое пособие
по подготовке к лекциям, практическим занятиям
(включая рекомендации по организации самостоятельной работы),
по выполнению контрольной работы
для обучающихся по дисциплине «Анализ и обработка данных» по направлению подготовки 09.03.04 Программная инженерия
профиль Разработка программно-информационных систем
Нижний Новгород
2022
УДК 004.9
Прокопенко Н.Ю. / Анализ данных: учебно-методическое пособие / Н.Ю. Прокопенко; Нижегородский государственный архитектурно-строительный университет – Нижний Новгород: ННГАСУ, 2022. – 30 с.– Текст: электронный.
В настоящем учебно-методическом пособии по дисциплине «Анализ и обработка данных» даются конкретные рекомендации учащимся для освоения как основного, так и дополнительного материала дисциплины и тем самым способствующие достижению целей, обозначенных в учебной программе дисциплины. Цель учебно-методического пособия – это помощь в усвоении лекций, в подготовке к практическим занятиям, а также в написании контрольной работы.
Учебно-методическое пособие предназначено для обучающихся в ННГАСУ по дисциплине «Анализ и обработка данных» по направлению подготовки 09.03.04 Программная инженерия, профиль Разработка программно-информационных систем
.
© Н.Ю. Прокопенко, 2022
© ННГАСУ, 2022
2
|
Оглавление |
|
|
1. |
Общие положения .......................................................................................................................... |
4 |
|
|
. 1.1 Цели изучения дисциплины и результаты обучения ......................................................... |
4 |
|
|
. 1.2 Содержание дисциплины ..................................................................................................... |
4 |
|
|
. 1.3 Вспомогательная литература для изучения дисциплины ................................................. |
4 |
|
2. |
Методические указания по подготовке к лекциям ..................................................................... |
7 |
|
|
. 2.1 Общие рекомендации по работе на лекциях ...................................................................... |
7 |
|
|
. 2.2 Общие рекомендации при работе с конспектом лекций ................................................... |
7 |
|
|
. 2.3 Контрольные вопросы .......................................................................................................... |
7 |
|
3. |
Методические указания по подготовке к практическим занятиям ......................................... |
12 |
|
|
. 3.1 Общие рекомендации по подготовке к практическим занятиям.................................... |
12 |
|
|
. 3.2 Примеры задач для практических занятий ....................................................................... |
12 |
|
.4. Методические указания по организации самостоятельной работы....................................... |
16 |
||
|
. 4.1 |
Общие рекомендации для самостоятельной работы ....................................................... |
16 |
|
. 4.2 |
Темы для самостоятельного изучения .............................................................................. |
18 |
5. |
Методические указания по выполнению контрольной работы (Общие рекомендации)...... |
18 |
|
|
. 5.1 |
Общие требования к оформлению контрольной работы ................................................ |
18 |
|
. 5.2 |
Примерные варианты контрольной работы...................................................................... |
19 |
1. Общие положения
. 1.1 Цели изучения дисциплины и результаты обучения
Основной целью освоения учебной дисциплины «Анализ данных» является достижение ре-
зультатов обучения, предусмотренных установленным в ОПОП индикаторами достижения компе-
тенций.
Целями освоения дисциплины являются формирование теоретических знаний о методах анализа данных, построения систем математического и имитационного моделирования, обучение практическим приемам статистического и имитационного моделирования, а также обучение со-
временным программным средствам в которых реализованы модули, осуществляющие решение задач анализа данных
Знать:
системный подход к решению задач обработки и анализа данных, основные понятия и опре-
деления статистики и эконометрики, информационные системы и пакеты статистических про-
грамм, их возможности для решения прикладных управленческих и бизнесзадач.
Уметь:
выполнять оценку пригодности данных для анализа, профайлинг данных, самостоятельно провести необходимую работу с данными, определить тип задачи (классификация, кластеризация,
прогнозирование, поиск зависимостей и т.п.), решить ее адекватно выбранным методом.
Владеть:
практическими приёмами и методами реализации различных стратегий обработки данных и объяснения полученных результатов, навыками работы с конкретной АП Loginom.
. 1.2 Содержание дисциплины
Материал дисциплины сгруппирован по следующим разделам:
1. Статистический анализ данных Роль и место анализа в процессе принятия решения. Повышение качества информации при
сборе ее в информационное хранилище. Преобразование данных в единый формат и приве-
дение их к единой структуре. Основные принципы построения информационных храни-
лищ. Основные статистические характеристики. 2. Аудит данных и визуализация
Различные визуализаторы. OLAP-системы, технологии оперативного и интеллектуального анализа данных. Правила Кодда, которым должны соответствовать OLAP-системы. Типы
многомерных OLAP-систем. Задачи и содержание OLAP-анализа/
3.Системы массового обслуживания, имитационное моделирование.
Теоретические основы построения систем массового обслуживания и имитационных моде-
лей. Классификация систем массового обслуживания и основные характеристики их эф-
фективности. Дискретно-событийное имитационное моделирование. Обработка результа-
тов имитационного моделирования.
4.Основные технологии аналитического моделирования:
анализ «что, если», анализ целевой функции, оптимизационный анализ, анализ чувстви-
тельности, корреляционно-регрессионный анализ. Модели линейного программирования.
Анализ чувствительности моделей ЛП. Создание компьютерной модели этих задач.
. 1.3 Вспомогательная литература для изучения дисциплины
Для освоения дисциплины обучающийся может использовать печатные и электронные из-
дания и методические материалы, имеющиеся в библиотеке ННГАСУ и/или размещённые в элек-
тронных библиотечных системах (ЭБС), предоставляющих право использования изданий на осно-
вании договорных отношений с университетом, а также иные общедоступные ресурсы сети «Ин-
тернет».
Печатные и электронные издания
1. Брусенцев А. Г.. Анализ данных и процессов. Ч.1. Методы статистического анализа данных :
Учебное пособие. / Брусенцев А. Г. ; А. Г. Брусенцев. – Белгород : Белгородский государственный технологический университет им. В.Г. Шухова, ЭБС АСВ, 2017. – 63 с. – URL: URL: http://www.iprbookshop.ru/92237.html. – ISBN ISBN 978-5-361-00540-6.
2. Любимцева Ольга Львовна. Блочное планирование эксперимента и анализ данных : учеб. посо-
бие. / Любимцева Ольга Львовна ; Нижегор. гос. архит.-строит. ун-т. – Нижний Новгород :
ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/. – ISBN ISBN 978-5- 528-00276-7.
3. Маккинли Уэс. Python и анализ данных / Маккинли Уэс, Слинкина А. ; Уэс Маккинли; пер. А.
Слинкина. – Саратов : Профобразование, 2019. – 482 с. – URL: URL: http://www.iprbookshop.ru/88752.html. – ISBN ISBN 978-5-4488-0046-7.
4. Синева И. С.. Анализ данных в среде R. Ч. 1 : Учебное пособие. / Синева И. С. ; И. С. Синева. –
Москва : Московский технический университет связи и информатики, 2018. – 32 с. – URL: URL: http://www.iprbookshop.ru/92422.html. – ISBN ISBN 2227-8397.
5. Шнарева Г. В.. Анализ данных : Учебно-методическое пособие. / Шнарева Г. В., Пономарева Ж.
5
Г. ; Г. В. Шнарева, Ж. Г. Пономарева. – Симферополь : Университет экономики и управления,
2019. – 129 с. – URL: URL: http://www.iprbookshop.ru/89482.html. – ISBN ISBN 2227-8397.
6. Анализ данных качественных исследований : Лабораторный практикум. / Истомина А. П. ; сост.
А. П. Истомина. – Ставрополь : Северо-Кавказский федеральный университет, 2018. – 108 с. –
URL: URL: http://www.iprbookshop.ru/92674.html. – ISBN ISBN 2227-8397.
Методические материалы по дисциплине
1. Прокопенко Наталья Юрьевна. Математическое и имитационное моделирование : учеб.-метод.
пособие по подгот. к лекциям, практ. занятиям (включая рекомендации по орг. самостоят. работы)
для обучающихся по дисциплине "Мат. и имитац. моделирование" по направлению подгот. 09.03.03 Приклад. информатика, профиль Приклад. информатика в экономике. / Прокопенко Ната-
лья Юрьевна ; Нижегор. гос. архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2016. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
2. Прокопенко Наталья Юрьевна. Анализ данных : учеб.-метод. пособие по подгот. к лекциям,
практ. занятиям (включая рекомендации по организации самостоят. работы) для обучающихся по дисциплине "Анализ данных" по направлению подгот. 09.03.04 Программная инженерия, профиль
09.03.04 Разработка программно-информ. систем. / Прокопенко Наталья Юрьевна ; Нижегор. гос.
архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
3. Прокопенко Наталья Юрьевна. Оптимизационные задачи : учеб.-метод. пособие по подгот. к
лекциям, практическим занятиям (включая рекомендации по орг. самостоятельной работы) для обучающихся по дисциплине "Оптимизационные задачи" по направлению подгот. 38.03.01 Эко-
номика, профиль Бухгалтерский учет, анализ и аудит. / Прокопенко Наталья Юрьевна ; Нижегор.
гос. архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
4. Прокопенко Наталья Юрьевна. Методы оптимальных решений : учеб.-метод. пособие по подгот.
к лекциям, практическим занятиям (включая рекомендации по орг. самостоятельной работы) для обучающихся по дисциплине "Методы оптимальных решений" по направлению подгот. 38.03.01
Экономика, профиль Экономика предприятий и организаций. / Прокопенко Наталья Юрьевна ;
Нижегор. гос. архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.
6
2. Методические указания по подготовке к лекциям
. 2.1 Общие рекомендации по работе на лекциях
Лекция является главным звеном дидактического цикла обучения. Ее цель – формирование основы для последующего усвоения учебного материала. В ходе лекции преподаватель в устной форме, а также с помощью презентаций передает обучаемым знания по основным, фундаменталь-
ным вопросам изучаемой дисциплины.
Назначение лекции состоит в том, чтобы доходчиво изложить основные положения изуча-
емой дисциплины, ориентировать на наиболее важные вопросы учебной дисциплины и оказать помощь в овладении необходимых знаний и применения их на практике.
При подготовке к лекционным занятиям студенты должны ознакомиться с презентаций,
предлагаемой преподавателем, отметить непонятные термины и положения, подготовить вопросы с целью уточнения правильности понимания. Рекомендуется приходить на лекцию подготовлен-
ным, так как в этом случае лекция может быть проведена в интерактивном режиме, что способ-
ствует повышению эффективности лекционных занятий.
. 2.2 Общие рекомендации при работе с конспектом лекций
В ходе лекционных занятий необходимо вести конспектирование учебного материала. Кон-
спект помогает внимательно слушать, лучше запоминать в процессе осмысленного записывания,
обеспечивает наличие опорных материалов при подготовке к семинару, зачету, экзамену.
Полезно оставить в рабочих конспектах поля, на которых делать пометки из рекомендован-
ной литературы, дополняющие материал прослушанной лекции, а также подчеркивающие особую важность тех или иных теоретических положений.
В случае неясности по тем или иным вопросам необходимо задавать преподавателю уточ-
няющие вопросы. Следует ясно понимать, что отсутствие вопросов без обсуждения означает в большинстве случаев неусвоенность материала дисциплины.
. 2.3 Контрольные вопросы
1. Интеллектуальный анализ данных – это а) статистический метод обработки данных
б) технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия ре-
шений в) исследование и обнаружение в сырых данных скрытых знаний, которые ранее не были извест-
7
ны, нетривиальны, практически полезны г) модель некоторой предметной области, состоящая из связанных между собой данных об объек-
тах, их свойствах и характеристиках
2. Какие этапы анализа данных выделил в своей концепции Дж. Тьюки?
а) разведочный анализ б) промежуточный анализ
в) подтверждающий анализ г) итоговый анализ
3. Каковы особенности данных, накапливаемых в компаниях? (Выберите три варианта ответа)
а) Данные редко накапливаются специально для решения задач анализа б) Как правило, данные содержат ошибки, аномалии и пропуски в) Данные всегда представлены в структурированной форме г) Почти всегда носят неполный, фрагментарный характер
4. Очистка данных – это… а) процесс дополнения данных некоторой информацией, позволяющей повысить эффективность
решения аналитических задач б) процесс создания структурированных данных, которые могут оказаться полезными для решения аналитической задачи
в) комплекс методов и процедур, направленных на извлечение данных из различных источников,
обеспечение необходимого уровня их информативности и качества, преобразования в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему г) комплекс методов и процедур, направленных на устранение причин, мешающих корректной об-
работке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д. 5. Обогащение – это
а) процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач б) объект, содержащий структурированные данные, которые могут оказаться полезными для ре-
шения аналитической задачи в) комплекс методов и процедур, направленных на извлечение данных из различных источников,
обеспечение необходимого уровня их информативности и качества, преобразования в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему г) комплекс методов и процедур, направленных на устранение причин, мешающих корректной об-
работке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д.
8
6. Что означает термин Knowledge Discovery in Databases
а) раскопка данных б) тиражирование знаний
в) извлечение знаний из баз данных г) разведочный анализ данных
7. Какой столбец набора данных можно с большей вероятностью считать информативным для ре-
шения задачи анализа а) столбец, содержащий одно уникальное значение
б) столбец, содержащий различные значения признака в) столбец, относительно которого выдвинута гипотеза о его влиянии на результат г) столбец, с полностью уникальными значениями
8. Data Mining – это
а) необработанный материал, предоставляемый поставщиками данных и используемый потреби-
телями для формирования информации на основе данных в) процесс обнаружения в сырых данных знаний, необходимых для принятия решений в различ-
ных сферах человеческой деятельности б) поиск независимых групп и их характеристик во всем множестве анализируемых данных
г) нахождение частых зависимостей между объектами или событиями
9. Каким требованиям должны отвечать методы численных расчетов в имитационных моделях.
Какое из требований в предложенном списке является лишним?
а) Устойчивость б) Корректность в) Сходимость г) Виртуальность
10. Осмотр книжных магазинов показал, что среднее количество журналов в них 56, а стандартное отклонение – 12. Средняя продолжительность работы продавцов 6 лет со стандартным отклонени-
ем 2,5 года. Какие данные более изменчивы?
а) средняя продолжительность работы продавцов б) среднее количество журналов
11. Предсказательный анализ направлен на … а) сравнение результатов исследования двух групп (например, двух рыночных сегментов) для определения степени различия их поведения
б) прогнозирование развития событий в будущем (например, путем анализа временных рядов)
9
в) определение систематических связей (их направленности и силы) между переменными (напри-
мер, между затратами на рекламу и объемами сбыта)
г) использование статистических процедур (например, проверки гипотез) с целью обобщения по-
лученных результатов на всю совокупность
12.Статистическая модель, выражающая в математической форме динамические закономерности развития изучаемого явления или процесса а) Трендовая модель в) Модель сезонной волны б) Модель Портера г) Сценарий развития
13.Сколько записей будет отфильтровано в результате фильтра «([Размер ссуды, руб.] в интервале
[2000..5000]) И ([Цель ссуды] = 'Покупка товара') И ([Цель ссуды] = 'Иное')»?
а) 2000
б) 5000
в) 0
г) недостаточно информации для ответа
14. Задача оптимизации сводится к нахождению… а) роста целевой функции б) спада целевой функции
в) экстремума целевой функции г) правильного ответа нет
15. Малое предприятие производит изделия двух видов. На изготовление одного изделия вида А расходуется 2 кг сырья, на изготовление одного изделия вида В – 1 кг. Всего имеется 60 кг сырья.
Требуется составить план производства, обеспечивающий получение наибольшей выручки, если отпускная стоимость одного изделия вида А - 3 д.е., вида В - 1 у.е., причем изделий вида А требу-
ется изготовить не более 25, а вида В – не более 30.
Целевой функцией данной задачи является функция … а) F(x1,x2)=2x1+x2 →max
б) F(x1,x2)=60 -2x1 -x2 →min
в) F(x1,x2)=25x1+30x2 →max
г) F(x1,x2)=3x1+x2 →max
16. Расположите по порядку последовательность обнаружения знаний при анализе данных
1. Получение данных
10