Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

6633

.pdf
Скачиваний:
0
Добавлен:
21.11.2023
Размер:
842.67 Кб
Скачать

МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

К. А. Сафонов

ОСНОВНЫЕ НАПРАВЛЕНИЯ РАЗВИТИЯ ИНФОРМАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ

Учебно-методическое пособие

по выполнению лабораторных работ для обучающихся по дисциплине «Основные направления развития информационных систем и технологий»

по направлению подготовки 09.04.02 Информационные системы и технологии, направленность (профиль)

Технология разработки информационных систем

Нижний Новгород

2022

МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

К. А. Сафонов

ОСНОВНЫЕ НАПРАВЛЕНИЯ РАЗВИТИЯ ИНФОРМАЦИОННЫХ СИСТЕМ И ТЕХНОЛОГИЙ

Учебно-методическое пособие

по выполнению лабораторных работ для обучающихся по дисциплине «Основные направления развития информационных систем и технологий»

по направлению подготовки 09.04.02 Информационные системы и технологии, направленность (профиль)

Технология разработки информационных систем

Нижний Новгород ННГАСУ

2022

1

УДК 681.3 (075)

Сафонов К. А. Основные направления развития информационных систем и технологий : учебно-методическое пособие / К. А. Сафонов; Нижегородский государственный архитектурно-строительный университет. – Нижний Новгород : ННГАСУ, 2022. - 22 с. - Текст : электронный.

Даются требования к выполнению лабораторных работ, тема, цель и порядок выполнения работ. Указывается список рекомендованной литературы.

Предназначено для обучающихся в ННГАСУ по дисциплине «Основные направления развития информационных систем и технологий» по направлению подготовки 09.04.02 Информационные системы и технологии, направленность (профиль) Технология разработки информационных систем.

Д. И. Сафонов К.А., 2022ННГАСУ, 2022.

2

Введение

Современные информационные технологии развиваются очень стремительно.Они тотально охватывают все отрасли промышленности и глубоко проникают в нашу повседневную жизнь. Неотъемлемой частью функционирования большого количества информационных систем является генерация последними громадного объема информации. И одним из направлений развития ИТ является анализ этих данных и получение важной информации

Поэтому, обработка больших массивов данных, являющаяся одним из перспективных направлений развития информационных технологий, будет подробнее изучена в процессе выполнения данного курса лабораторных работ.

3

Требования к выполнению работ

При подготовке к лабораторной работе студенту необходимо изучить соответствующие разделы лекционного курса. В ходе выполнения каждой лабораторной работы студент должен подготовить письменный отчет, включающий:

номер, тему и цель лабораторной работы;

перечень заданий работы;

входные и выходные данные для каждого задания;

блок-схему последовательной программы;

таблицу и графики с результатами вычислений (если применимо);

общие выводы по результатам лабораторной работы.

4

ЛАБОРАТОРНАЯ РАБОТА № 1

Тема: Использование инструментовDataminingclient для Excel для подготовкиданных. ИнструментыExploreData и CleanData.

Цель работы: Изучение инструментов Dataminingclient для Excelдля подготовки данных. Освоение инструментов ExploreData и CleanData.

«Средства анализа таблиц для Excel» (англ. TableAnalysisTools) позволяют быстро провести стандартный анализ имеющихся данных. В то же время, этот набор инструментов не предоставляет особых возможностей по подготовке данных к анализу, оценке результатов и т.д. Из Excel это можно сделать, используя клиент интеллектуального анализа данных (англ. DataMiningClient), который также входит в набор надстроек интеллектуального анализа. При подготовке к лабораторной работе, желательно сделать полную установку надстроек, в которую входит и DataMiningClient.

Порядок выполнения работы

Откроем набор данных, входящий в поставку надстроек (меню «Пуск», «Надстройки интеллектуального анализа данных»-> «Образцы данных Excel»). Чтобы можно было спокойно вносить изменения, лучше сохранить его под новым именем. Перейдите на лист «Исходные данные» (англ. SourceData) и щелкните на закладке DataMining.

Первая группа инструментов (англ. DataPreparation – подготовка данных), позволяет провести первое знакомство с набором данных и подготовить его для дальнейшего анализа.

Ряд алгоритмов (MicrosoftNaïveBayes и др.) требуют предварительной дискретизации непрерывных значений числовых параметров. Но в ряде случаев пользователю желательно посмотреть возможные диапазоны, уточнить их число и т.д. Отдельный интерес может представлять и распределение строк по значению выбранного параметра.

Инструмент ExploreData

Инструмент ExploreData позволяет проанализировать значениястолбца (или диапазона ячеек) и отобразить их на диаграмме. Рассмотрим его работу на примере значения годового дохода клиента(англ. Income). Дополнительный

5

интерес представляет то, что этозначение может рассматриваться и как непрерывное, и как дискретное. Итак, запускаем инструмент.

В процессе работы потребуется указать, для какой таблицы (илидиапазона ячеек) и столбца будет проводиться анализ. После чего указанные значения будут проанализированы ирезультат представлен в виде гистограммы.

Как уже отмечалось выше, значение годового дохода можнорассматривать и как непрерывное, и как дискретное (за счет того, чтов нашем наборе данных присутствуют только значения, кратные 10тысячам). Для непрерывного значения будет предложен вариант разбиения на диапазоны. Число диапазонов можно поменятьи диаграмма с распределением значений будут построена заново.Нажав кнопку «AddNewColumn» можно добавить в исходную таблицу новый столбец с интервалами годового дохода. Например, еслидля строки значение YearlyIncome = 30000, то значение нового параметра Yearly Income2 при использовании разбиения будет «'30000 - 50000» (именно так, с апострофом в начале, чтобы рассматривалось как строковое). В ходе интеллектуальногоанализа полученный столбец может использоваться вместо исходного. Включение обоих столбцов одновременно нежелательно.

Кнопками с изображениями графика и гистограммы, можно указать тип анализируемого значения – непрерывное или дискретное. Если значение годового дохода рассматриваем как дискретное, то для него будет построенадиаграмма, показывающая распределение числа строк по значению годового дохода. При этом сортировка производится поубыванию числа строк с данным значением, изза чего первый столбец гистограммы соответствует значению «60000», второй – «40000»и т.д. Сформированную гистограмму можно скопировать в буфер(кнопка правее кнопки «AddNewColumn») и использовать для дальнейшей работы.

Инструмент CleanData

Инструмент CleanData позволяет подготовить данныедля анализа, отбросив нетипичные или ошибочные данные (выбросы),а также проведя замену отдельных значений.

Как отмечается в документации, под выбросом подразумеваетсязначение данных, являющееся проблематичным по одной из следующих причин:

-значение находится за пределами ожидаемого диапазона;

-данные были введены неправильно;

-значение отсутствует;

-данные представляют собой пробел или пустую строку;

6

- значение может значительно отклониться от распределения,которому подчиняются данные в модели.

Использование инструмента проиллюстрируем на примере всетой же таблицы с данными о клиентах (лист SourceData). Обратимсяк столбцу с возрастом. Пусть нам нужно очистить обучающий наборот информации о нехарактерных по возрасту покупателях. Запускаеминструмент CleanData - >Outliers, в окне выбираем таблицу для анализа, затем в окнеSelectColumn– столбец Age.

В рассматриваемом наборе данных есть строки со значениямистолбца Age от 25 до 96 лет. Если этот параметр считаем непрерывным, то он будет представлен графиком, где по оси X указываетсявозраст, по оси Y – число клиентов с таким возрастом. В таблице доляклиентов преклонного возраста очень мала. Установив пороговое значение в 75 лет, мы отбрасываем заштрихованный «хвост», включающий нехарактерные значения (покупатели велосипедов в возрасте от 76 до 96 лет, которых подавляющееменьшинство).

Во многом аналогично выглядит работа с параметром, принимающим дискретные значения. Для него строится гистограмма, а дляопределения порога нужно указать минимальное число примеров,«поддерживающих» значение.

Итак, мы выделили нехарактерные данные. Теперь нужно определить, что с ними делать. Предлагаемые мастером решения несколько отличаются для случаев непрерывного и дискретного параметра.Соответствующую строку можно удалить (англ. Deleterowscontainingoutliners) или заменить значение параметра на пустое (англ.Changevaluetonull). Кроме того, для непрерывных данных можно заменить нехарактерное значение средним или граничным (сверху или снизу, в зависимости от того, какой диапазон отбрасывается). Для дискретного параметра можно указать значение, из числа уже имеющихся в наборе, на которое будут заменяться«выбросы».

Последнее окно мастера, которое на рисунке не представлено,предлагает выбрать, куда заносить изменения – в исходные данные(англ. Changedatainplace),

в их копию на новом листе Excel (англ.Copy sheet data with changes to a new worksheet) иливновыйстолбецвисходнойтаблице (англ. Add as a new column to the current worksheet).Последняяопциядляслучаяудалениястрокнедоступна.

Задание.Проведите описанную в лабораторной обработку выбранного набора данных.

ЛАБОРАТОРНАЯ РАБОТА № 2

7

Тема: Использование инструментовDataminingclient для Excel для подготовкиданных. ИнструментыExploreData и CleanData, SampleData.

Цель работы: Изучение инструментов Dataminingclient для Excelдля подготовки данных. Освоение инструментов ExploreData и CleanData, SampleData.

«Средства анализа таблиц для Excel» (англ. TableAnalysisTools) позволяют быстро провести стандартный анализ имеющихся данных. В то же время, этот набор инструментов не предоставляет особых возможностей по подготовке данных к анализу, оценке результатов и т.д. Из Excel это можно сделать, используя клиент интеллектуального анализа данных (англ. DataMiningClient), который также входит в набор надстроек интеллектуального анализа. При подготовке к лабораторной работе, желательно сделать полную установку надстроек, в которую входит и DataMiningClient.

Порядок выполнения работы

Инструменты CleanData и Re-label

В некоторых случаях в исходных данных могут быть значения,которые затрудняют автоматизированный анализ. Например, есть параметр «город» и среди его значений – Санкт-Петербург, С-Петербург, СПб. Чтобы в процессе интеллектуального анализа этизначения учитывались корректно, надо их заменить на одно. Для этого можно использовать инструмент Re-label. Его же можно применить, если требуется снизить уровень детализации значений параметра. Надо отметить, что инструмент работает только с дискретнымизначениями.

Для примера, в таблице с информацией о клиентах нам надоуменьшить число значений параметра CommuteDistance (расстояниеежедневных поездок).

Исходные значения «0-1 Miles», «1-2 Miles»,«2-5 Miles», «5-10 Miles», «10+ Miles». Пусть все, что меньше 2 миль,будет «близко», остальное – «далеко». Запустим инструмент: CleanData->Re-label. Первые два экрана, как и ранее, позволяют указатьтаблицу и столбец. Далее указываем порядок замены ивыбираем создание нового столбца, чтобы не потерятьисходные данные.

8

В окне Re-labelData (рис. 5.59-а) значение, на которое заменяем, или выбирается из выпадающего списка (если такое значение ужевстречалось в обрабатываемом столбце), или вводится с клавиатуры вэто же поле.

Инструмент SampleData

Последний инструмент в группе DataPreparation называетсяSampleData (Образцы данных). Он позволяет решить задачу формирования обучающего и тестового множеств данных, а также выполнять «балансировку» данных.

В тех случаях, когда используемый метод интеллектуальногоанализа требует предварительного обучения модели (например, длярешения задачи классификации) необходимо сформировать несколько наборов данных – для обучения модели, проверки ее работы, собственно анализа. Инструмент SampleData позволяет подготовитьнужные наборы.

Пусть необходимо случайным образом разделить имеющийсянабор данных на обучающую и тестовую выборку. Для этого надо запустить инструмент SampleData, указать, откуда берем данные дляобработки, и тип формируемой выборки. Сначала сделаем случайную выборку, т.е. тип – RandomSampling. Далее указывается процент записей из исходного набора (или точноечисло записей), помещаемых в выборку, и место для сохранения полученных результатов. Можно отдельно сохранить сформированную выборку и данные, внее не попавшие. В итоге можем получить обучающий и тестовыйнаборы. Хотелось бы обратить внимание на возможность использования внешнего источника данных при формировании выборки. Это позволяет использовать данные, хранящиеся на MSSQL Server, для формирования наборов значений. Но как отмечается вописании инструмента, при использовании внешнего источника данных будет доступен толькопараметр случайной выборки.

При использовании средств интеллектуального анализа для обнаружения редких событий, в обучающем наборе рекомендуется увеличить частоту появления нужного события по сравнению с исходными данными. Формирование подобной выборки часто называютбалансировкой данных, и инструмент SampleData позволяет ее выполнить.

С помощью инструмента ExploreData проанализируем распределение клиентов по регионам. Примерно пятая часть клиентов у нас из региона Pacific (будем считать этоАзиатско-Тихоокеанским регионом). Сформируем набор данных, гдетаких клиентов будет 50 %.

Запустим инструмент SampleData, укажем в качестве источникаданных используемую таблицу Excel и выберем вариант формирования избыточной выборки с балансировкой данных (англ. Oversampletobalancedatadistributions).

9

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]