Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

8879

.pdf
Скачиваний:
3
Добавлен:
25.11.2023
Размер:
1.99 Mб
Скачать

Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

Прокопенко Н.Ю.

МЕТОДЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Учебно-методическое пособие по подготовке к лекциям, практическим занятиям

(включая рекомендации по организации самостоятельной работы)

для обучающихся по дисциплине «Методы искусственного интеллекта» по направлению подготовки 09.03.03 Прикладная информатика профиль Прикладная информатика в экономике

Нижний Новгород

2016

УДК 004.9

Прокопенко Н.Ю. / Методы искусственного интеллекта [Электронный ресурс]: учеб.-метод. пос. / Н.Ю. Прокопенко; Нижегор. гос. архитектур. - строит. ун-т – Н. Новгород: ННГАСУ, 2016. – 114 с.– 1 электрон. опт. диск (CD-RW).

В настоящем учебно-методическом пособии по дисциплине «Методы искусственного интеллекта» даются конкретные рекомендации учащимся для освоения как основного, так и дополнительного материала дисциплины и тем самым способствующие достижению целей, обозначенных в учебной программе дисциплины. Цель учебно-методического пособия – это помощь в усвоении лекций и в подготовке к практическим занятиям.

Учебно-методическое пособие предназначено для обучающихся в ННГАСУ по дисциплине «Методы искусственного интеллекта» по направлению подготовки 09.03.03 Прикладная информатика, профиль Прикладная информатика в экономике.

Учебно-методическое пособие ориентировано на обучение в соответствии с календарным учебным графиком и учебным планом по основной профессиональной образовательной программе направления 09.03.03 Прикладная информатика, профиль Прикладная информатика в экономике, утверждённым решением учёного совета ННГАСУ от 02.09.2016 г. (протокол № 1).

© Н.Ю. Прокопенко, 2016 © ННГАСУ, 2016

2

Оглавление

1.Общие положения……………………………………………………………..…....4

1.1Цели изучения дисциплины и результаты обучения………………….…..…4

1.2Содержание дисциплины…………………………………………………..…..4

1.3Порядок освоения материала……………………………………………..…....5

2.Методические указания по подготовке к лекциям…………………………..…...6

2.1Общие рекомендации по работе на лекциях……………………………….....6

2.2Общие рекомендации при работе с конспектом лекций…………………......6

2.3Краткое содержание лекций……………………………………………….…..7

2.3.1. Раздел 1. Предмет и методы интеллектуального анализа данных.

Предварительный разведочный анализ данных.……………………….…..….…7

2.3.2.Раздел 2. Оперативная аналитическая обработка данных OLAP ………17

2.3.3.Раздел 3. Data Mining: классификация и регрессия. Машинное обучение.

Деревья решений …………………………………………………………….….....29

2.3.4. Раздел 4. Data Mining: ассоциативные правила ………………………….38

2.3.5. Раздел 5. Data Mining. Искусственные нейронные сети……………….....43

2.4Контрольные вопросы…………………………………………………………51

3.Методические указания по подготовке к практическим занятиям…………......56

3.1Общие рекомендации по подготовке к практическим занятиям……………56

3.2Примеры задач для практических занятий…………………………...……...56

4.Методические указания по организации самостоятельной работы………........94

4.1Общие рекомендации для самостоятельной работы…………………………94

4.2Темы для самостоятельного изучения………………………………………..96

4.3.Учебно-методическое обеспечение самостоятельной работы……………..97

4.4 Задания для самостоятельной работы…………………………………….....97

3

1. Общие положения

1.1 Цели изучения дисциплины и результаты обучения

Основными целями освоения учебной дисциплины «Методы искусственного интеллекта» является формирование четкого представления о месте и роли совре-

менной технологии обработки данных – методах искусственного интеллекта, изуче-

ние сложившейся в этой области терминологии, моделей и методов актуальных направлений искусственного интеллекта Data mining, овладение современным про-

граммным инструментарием, позволяющим эффективно применять методы интел-

лектуального анализа.

В процессе освоения дисциплины студент должен Знать:

основные модели Data mining (деревья решений, ассоциативные правила, кла-

стеризация; искусственные нейронные сети), этапы, методы и инструментальные средства обработки данных.

Уметь:

самостоятельно провести необходимую работу с данными, определить тип за-

дачи (классификация, кластеризация, прогнозирование, поиск зависимостей и т.п.),

решить ее адекватно выбранным методом.

Владеть:

практическими приёмами и методами реализации различных стратегий обра-

ботки данных и объяснения полученных результатов; навыками работы с конкрет-

ной АП Deductor.

1.2 Содержание дисциплины

Материал дисциплины сгруппирован по следующим разделам:

1. Предмет и методы интеллектуального анализа данных. Предварительный разведочный анализ данных.

Сферы применения анализа данных. Этапы анализа данных. Методы обработки данных. Подготовка данных для анализа: выявление пропусков, дубликатов, проти-

4

воречий, аномалий; восстановление пропущенных значений; редактирование ано-

мальных значений; представление их в виде, пригодном для дальнейшего анализа с помощью различных аналитических и интеллектуальных алгоритмов.

2. Оперативная аналитическая обработка данных OLAP.

Многомерное представление данных On-line Analytical Processing (OLAP). Ви-

зуализация данных и манипуляция с данными на основе графического изображения

(диаграммы, гистограммы, OLAP-кубы).

3. Data Mining: классификация и регрессия. Машинное обучение. Деревья ре-

шений.

Методы кластерного анализа (метод k-средних; дискриминантный анализ: От-

несение объектов к тому или иному классу с помощью функций классификации, ме-

тода эталона, метода ближайшего соседа. Деревья решений. Алгоритмы построения деревьев решений. Модифицированный алгоритм построения дерева решающих правил на основе алгоритма C4.5. Упрощение деревьев решений. Визуализаторы

(Правила, значимость атрибутов).

4. Data Mining: ассоциативные правила.

Ассоциативные правила. Алгоритм Apriori для поиска ассоциативных правил.

Иерархические ассоциативные правила.

5. Data Mining. Искусственные нейронные сети.

Основные понятия. Структура нейронной сети. Алгоритм обратного распро-

странения ошибки. Процесс обучения. Параметры остановки. Многослойный пер-

септрон. Выбор оптимальной структуры многослойной сети.

1.3 Порядок освоения материала

Материал дисциплины изучается в соответствии с порядком, определённым в

следующей таблице: Таблица 1

Порядок освоения дисциплины

Раздел дисциплины

№№ предшествующих

 

 

разделов

 

 

 

1

Предмет и методы интеллектуального анализа дан-

-

 

 

 

5

 

ных. Предварительный разведочный анализ данных.

 

 

 

 

2

Оперативная аналитическая обработка данных OLAP.

1

 

 

 

3

Data Mining: классификация и регрессия. Машинное

1,2

 

обучение. Деревья решений.

 

 

 

 

4

Data Mining: ассоциативные правила.

1,2,3

 

 

 

5

Data Mining. Искусственные нейронные сети.

1,2,3,4

 

 

 

2. Методические указания по подготовке к лекциям

2.1 Общие рекомендации по работе на лекциях

Лекция является главным звеном дидактического цикла обучения. Ее цель – формирование основы для последующего усвоения учебного материала. В ходе лек-

ции преподаватель в устной форме, а также с помощью презентаций передает обу-

чаемым знания по основным, фундаментальным вопросам изучаемой дисциплины.

Назначение лекции состоит в том, чтобы доходчиво изложить основные поло-

жения изучаемой дисциплины, ориентировать на наиболее важные вопросы учебной дисциплины и оказать помощь в овладении необходимых знаний и применения их на практике.

Личное общение на лекции преподавателя со студентами предоставляет боль-

шие возможности для реализации образовательных и воспитательных целей.

При подготовке к лекционным занятиям студенты должны ознакомиться с пре-

зентаций, предлагаемой преподавателем, отметить непонятные термины и положе-

ния, подготовить вопросы с целью уточнения правильности понимания. Рекоменду-

ется приходить на лекцию подготовленным, так как в этом случае лекция может быть проведена в интерактивном режиме, что способствует повышению эффектив-

ности лекционных занятий.

2.2Общие рекомендации при работе с конспектом лекций

Входе лекционных занятий необходимо вести конспектирование учебного ма-

териала. Конспект помогает внимательно слушать, лучше запоминать в процессе осмысленного записывания, обеспечивает наличие опорных материалов при подго-

6

товке к семинару, зачету, экзамену.

Полезно оставить в рабочих конспектах поля, на которых делать пометки из ре-

комендованной литературы, дополняющие материал прослушанной лекции, а также подчеркивающие особую важность тех или иных теоретических положений.

В случае неясности по тем или иным вопросам необходимо задавать препода-

вателю уточняющие вопросы. Следует ясно понимать, что отсутствие вопросов без обсуждения означает в большинстве случаев неусвоенность материала дисциплины.

2.3 Краткое содержание лекций.

2.3.1. Раздел 1 Предмет и методы интеллектуального анализа данных.

Предварительный разведочный анализ данных.

Data Mining (добыча данных) или интеллектуальный анализ данных – это процесс автоматического выделения действительной, эффективной, ранее не-

известной и совершенно понятной информации из больших баз данных и ис-

пользование ее для принятия ключевых бизнес-решений.

Характерные особенности DM:

предназначен для фундаментального исследования проблем в той или иной

предметной области;

Требования по времени менее жестки, но используются более сложные мето-

дики;

ставятся, как правило, задачи и получают результаты стратегического значе-

ния;

при решении сложных задач в режиме Data mining приходится использовать весьма мощные специальные программные средства или, как говорят, инстру-

менты.

Аспекты проблемы анализа и необходимые для их разрешения функции

нашли выражение в соответствующих программных продуктах. Соответственно средства автоматизации анализа представлены в различных видах. Имеются ком-

плексные информационно-аналитические системы, выполняющие в той или иной

7

степени функции в соответствии с рассмотренными аспектами. Представлены на рынке программных продуктов и целевые программные системы, выполняющие в увеличенном объеме, расширенном составе и повышенной сложности какие-либо функции, например, оперативного или интеллектуального анализа: SAP Business

Objects (разработчик – компания SAP AG), Oracle OLAP (разработчик – Oracle

Corporation), ПРОГНОЗ (разработчик – компания «Прогноз»), Deductor (разработчик

– компания BaseGroup Labs), SPSS, STATISTIKA Data Miner, PolyAnalyst и др.

Прежде чем приступать к анализу данных, необходимо выполнить ряд проце-

дур, цель которых – «доведение» данных до приемлемого уровня качества и инфор-

мативности, а также организовать их интегрированное хранение в структурах, обес-

печивающих их целостность, непротиворечивость, высокую скорость и гибкость выполнения аналитических запросов.

Консолидация – комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информа-

тивности и качества, преобразование в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему.

Консолидация данных является начальным этапом реализации любой анали-

тической задачи или проекта. В основе консолидации лежит процесс сбора и орга-

низации хранения данных в виде, оптимальном с точки зрения их обработки на кон-

кретной аналитической платформе или решения конкретной аналитической задачи.

Сопутствующими задачами консолидации являются оценка качества данных и их обогащение.

Основные критерии оптимальности с точки зрения консолидации данных:

обеспечение высокой скорости доступа к данным;

компактность хранения;

автоматическая поддержка целостности структуры данных;

контроль непротиворечивости данных.

Впроцессе консолидации данных решаются следующие задачи:

выбор источников данных;

8

разработка стратегии консолидации;

оценка качества данных;

обогащение;

очистка;

перенос в хранилище данных (ХД).

Аналитические приложения, как правило, не содержат развитых средств ввода и редактирования данных, а работают с уже сформированными выборками.

Ключевым понятием консолидации является источник данных – объект, со-

держащий структурированные данные, которые могут оказаться полезными для ре-

шения аналитической задачи. Необходимо, чтобы используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат. В противном случае очевидно, что объект не может считаться источником данных.

Выделяют три основных подхода к организации хранения данных.

Данные, хранящиеся в отдельных (локальных) файлах, например в текстовых файлах с разделителями, документах Word, Excel и т. д. Такого рода источником может быть любой файл, данные в котором организованы в виде столбцов и запи-

сей. Столбцы должны быть типизированы, то есть содержать данные одного типа,

например, только текстовые или только числовые. Преимущество таких источников в том, что они могут создаваться и редактироваться с помощью простых и популяр-

ных офисных приложений, работа с которыми не требует от персонала специальной подготовки. К недостаткам следует отнести то, что они далеко не всегда оптималь-

ны с точки зрения скорости доступа к ним, компактности представления данных и поддержки их структурной целостности. Например, ничто не мешает пользователю табличного процессора разместить в одном столбце данные различных типов (чис-

ловые и текстовые), что впоследствии обязательно приведет к проблемам при их об-

работке в аналитическом приложении.

Базы данных (БД) различных СУБД, таких как Oracle, SQL Server, Firebird, dBase, FoxPro, Access и т. д. Файлы БД лучше поддерживают целостность структуры

9

данных, поскольку тип и свойства их полей жестко задаются при построении таб-

лиц. Однако для создания и администрирования БД требуются специалисты с более высоким уровнем подготовки, чем для работы с популярными офисными приложе-

ниями.

Специализированные хранилища данных (ХД) являются наиболее предпочти-

тельным решением, поскольку их структура и функционирование специально опти-

мизируются для работы с аналитической платформой. Большинство ХД обеспечи-

вают высокую скорость обмена данными с аналитическими приложениями, автома-

тически поддерживают целостность и непротиворечивость данных. Главное пре-

имущество ХД перед остальными типами источников данных – наличие семантиче-

ского слоя, который дает пользователю возможность оперировать терминами пред-

метной области для формирования аналитических запросов к хранилищу.

Другой важной задачей, которую требуется решить в рамках консолидации,

является оценка качества данных с точки зрения их пригодности для обработки с помощью различных аналитических алгоритмов и методов. В большинстве случаев исходные данные являются «грязными», то есть содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности,

устанавливать связи между элементами данных и выполнять другие действия, кото-

рые могут потребоваться для получения аналитического решения. К таким факторам относятся ошибки ввода, пропуски, аномальные значения, шумы, противоречия и т.

д. Поэтому перед тем, как приступить к анализу данных, необходимо оценить их ка-

чество и соответствие требованиям, предъявляемым аналитической платформой.

Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных.

Очистка данных – комплекс методов и процедур, направленных на устране-

ние причин, мешающих корректной обработке: аномалий, пропусков, дубликатов,

противоречий, шумов и т. д.

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]