Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ГОСы / ФБИ ИИС 2016

.pdf
Скачиваний:
28
Добавлен:
04.01.2020
Размер:
5.97 Mб
Скачать

поверхностные – знания о видимых взаимосвязях между отдельными событиями и фактами в предметной области. (Кнопка звонка).

глубинные – абстракции, аналогии, схемы, отображающие структуру и природу процессов, протекающих в предметной области. Эти знания объясняют явления и могут использоваться для прогнозирования поведения объектов. (устройство звонка).

Современные интеллектуальные информационные системы в основном работают с поверхностными знаниями, что связано с отсутствием универсальных методик,

позволяющих выделять глубинные структуры знаний и работать с ними.

Помимо этой классификации, знания делят на процедурные и декларативные.

Исторически первыми были процедурные знания, т.е. знания, представленные алгоритмами, которые управляли данными. Для изменения технологии управления данными требовалось внесение изменений в программу. Однако появление новых структур данных (таблиц, списков, абстрактных типов данных) все больше смещало акцент в сторону декларативности знаний. Сегодня знания приобрели чисто

декларативную форму, т.е. знаниями считаются предложения, записанные на языках представления знаний, приближенных к естественному и понятных внешним

пользователям.

25 Самообучающиеся системы. Технологии OLAP и Data Mining. Определение Data Mining. Основные типы

закономерностей, извлекаемых с помощью Data Mining

Самообучающаяся система – это интеллектуальная информационная система,

которая на основе примеров реальной практики автоматически формирует единицы знаний.

В основе самообучающихся систем лежат методы автоматической классификации примеров реальной практики, то есть обучения на примерах. Примеры реальных ситуаций накапливаются за некоторый период и составляют обучающую выборку. В результате обучения системы автоматически строятся обобщенные правила или функции,

определяющие принадлежность ситуаций классам, которыми обученная система пользуется при интерпретации незнакомых ситуаций. Из обобщающих правил автоматически формируется база знаний, которая периодически корректируется по мере накопления информации об анализируемых ситуациях.

Различают следующие виды самообучающихся систем:

1) Индуктивные системы. Система с индуктивным выводом – это самообучающаяся интеллектуальная информационная система, работающая на принципе индукции с помощью классификации примеров по значимым признакам.

Индуктивный вывод (от частного к общему) – вывод (обобщение) общих утверждений на основе множества частных утверждений. Обобщение примеров на основе этого принципа сводится к выбору классификационного признака из множества заданных;

выявлению множества примеров по значению выбранного признака; определению принадлежности данных примеров одному из классов

Процесс классификации может быть представлен в виде дерева решений, в

котором в промежуточных узлах находятся значения признаков последовательной классификации, а в конечных узлах – значения признака принадлежности определенному классу.

2) Нейронные сети – это самообучающиеся интеллектуальные информационные системы, которые на основе обучения по реальным примерам строят ассоциативную сеть понятий (нейронов) для параллельного поиска на ней решений. В результате обучения на примерах строятся математические решающие функции (передаточные функции или функции активации), которые определяют зависимости между входными (Xi) и

выходными (Yj) признаками (сигналами).

Рисунок 3 – Решающая функция – нейрон.

Здесь Xi – входные признаки; Wi – степень влияния входного признака на выходной; U – взвешенная сумма значений входных признаков; f(u) – решающая функция; Y – выходные признаки (сигналы).

Каждая такая функция, называемая по аналогии с элементарной единицей человеческого мозга – нейроном, отображает зависимость значения выходного признака

(Y) от взвешенной суммы (U) значений входных признаков (Xi), в которой вес входного признака (Wi) показывает степень влияния входного признака на выходной:

= (

 

)

 

 

 

 

 

 

.

Достоинство нейронных сетей перед индуктивным выводом заключается в решении не только классифицирующих, но и прогнозирующих задач. Возможность нелинейного характера функциональной зависимости выходных и входных признаков позволяет строить более точные классификации. Сам процесс решения задач в силу проведения матричных преобразований проводится очень быстро. Фактически имитируется параллельный процесс прохода по нейронной сети в отличие от последовательного в индуктивных системах. Нейронные сети могут быть реализованы и аппаратно в виде нейрокомпьютеров с ассоциативной памятью.

3) Системы, основанные на прецедентах (Case-based reasoning) – это самообучающиеся интеллектуальные информационные системы, которые в качестве единиц знаний хранят прецеденты решений (примеры) и позволяют по запросу подбирать

иадаптировать наиболее похожие прецеденты.

Вэтих системах база знаний содержит описания не обобщенных ситуаций, а

собственно сами ситуации или прецеденты. Тогда поиск решения проблемы сводится к поиску по аналогии (абдуктивному выводу).

Абдуктивный вывод (от частного к частному) – вывод частных утверждений на

основе поиска других аналогичных утверждений (прецедентов). Он включает следующие

этапы:

1.Получение подробной информации о текущей проблеме;

2.Сопоставление полученной информации со значениями признаков прецедентов из базы знаний;

3.Выбор прецедента из базы знаний, наиболее близкого к рассматриваемой

проблеме;

4.В случае необходимости выполняется адаптация выбранного прецедента к текущей проблеме;

5.Проверка корректности каждого полученного решения;

6.Занесение детальной информации о полученном решении в базу знаний.

Также как и для индуктивных систем, прецеденты описываются множеством признаков, по которым строятся индексы быстрого поиска. Но в отличие от индуктивных систем допускается нечеткий поиск с получением множества допустимых альтернатив,

каждая из которых оценивается некоторым коэффициентом уверенности. Далее наиболее подходящие решения адаптируются по специальным алгоритмам к реальным ситуациям.

Обучение системы сводится к запоминанию каждой новой обработанной ситуации с принятыми решениями в базе прецедентов.

4) Информационные хранилища (Data Warehouse) – это самообучающиеся ИИС,

которые позволяют извлекать знания из баз данных и создавать специально-

организованные базы знаний. Информационные хранилища представляют собой хранилища значимой информации, регулярно извлекаемой из оперативных баз данных и предназначенной для оперативного анализа данных (реализации OLAP-технологии).

Типичными задачами оперативного ситуационного анализа являются:

Определение профиля потребителей конкретного товара;

Предсказание изменений ситуации на рынке;

Анализ зависимостей признаков ситуаций (корреляционный анализ) и др.

Технологии OLAP и Data mining.

OLAP (англ. online analytical processing, оперативная аналитическая обработка) — технология обработки данных, заключающаяся в подготовке суммарной

(агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу

Data Mining – «добыча данных» – Извлечение новых знаний и неочевидных зависимостей из больших объемов сложных данных

Технология OLAP, так же как и data mining используется в приложениях класса analytical CRM. Однако в то время как технология data mining используется, в

основном, для построения прогнозов, технология OLAP лишь позволяет взглянуть на

данные с различных сторон, в основном, предоставляя возможность анализа

агрегированных данных.

Технология OLAP, так же как и data mining используется в приложениях

класса analytical CRM. Однако в то время как технология data mining используется, в

основном, для построения прогнозов, технология OLAP лишь позволяет взглянуть на

данные с различных сторон, в основном, предоставляя возможность анализа агрегированных данных.

Типы закономерностей, выявляемых методами Data Mining

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют

различные однородные группы данных.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть

вероятность, что с их помощью можно предсказать и поведение системы в будущем.

26 Индукция и дедукция. Алгоритм индуктивного обучения.

Деревья решений

Виды машинного обучения:

«с учителем» (контролируемое обучение) – когда для каждого примера задается в явном виде значение признака его принадлежности некоторому классу ситуаций

(классообразующего признака); «без учителя» (неконтролируемое обучение) – когда по степени близости значений

признаков классификации система сама выделяет классы ситуаций.

Дедукция – переход в процессе познания от общего знания о некотором классе предметов и явлений к знанию частному и единичному.

Индукция – это переход в процессе познания от частного знания к общему; от знания меньшей степени общности к знанию большей степени общности.

Обобщение примеров по принципу индукции сводится к выявлению подмножеств примеров, относящихся к одним и тем же классам, и определению для них значимых признаков.

Известным примером (рис.1 и рис.2) индуктивного обучения является подгонка функции от одной переменной к некоторым точкам из набора данных.

Примеры представляют собой пары (x, f(x)), где и x и f(x)– действительные числа.

Выберем в качестве пространства гипотез – множество полиномов, имеющих степень не больше k, таких как5x2+2, x17-3x3. На рис.1 показаны значения, которые соответствуют некоторой прямой (полиному первой степени). Так как прямая согласуется со всеми данными, то она называется совместимой с гипотезой. На том же рис. 1 показан полином более высокой степени, который также совместим с этими данными. Это пример важной проблемы индуктивного обучения – выбору среди множества согласованных гипотез. Эта проблема может быть решена с использованием принципа ―бритвы Оккама‖, согласно которому предпочтение следует отдавать наиболее простой гипотезе, согласующейся с данными.

На рис. 2 показан второй набор данных, с которым нельзя точно совместить прямую линию. Для точного согласования с данным набором требуется полином четвертой степени с пятью параметрами. Возможно, что лучше согласовать этот набор данных с прямой линией, которая не будет точно совместимой, но позволит получать обоснованные предсказания. Принятие данного решения равносильно признанию недетерминированности искомой функции. При наличии недетерминированных функций неизбежно приходится искать компромисс между сложностью гипотезы и степенью ее согласованности с данными.

Возможность найти простую согласованную гипотезу зависит от выбранного пространства гипотез. На рис. 2 показано как тот же набор данных может быть точно согласован с простой функцией вида ax + b + csin(x). Задача обучения называется реализуемой, если Пространство гипотез содержит подходящую функцию, иначе она называется нереализуемой

Алгоритм индуктивного обучения:

выбирается признак классификации из множества заданных;

по значению выбранного признака множество примеров разбивается на подмножества;

выполняется проверка, принадлежит ли каждое образовавшееся подмножество примеров одному подклассу. Если да, то процесс классификации заканчивается.

Для подмножеств примеров с несовпадающим значением классообразующего признака процесс классификации продолжается, начиная с пункта 1. (Каждое

подмножество примеров становится классифицирующим множеством).

Процесс классификации может быть представлен в виде дерева решений, в котором в промежуточных узлах находятся значения признаков последовательной классификации,

а в конечных узлах – значения признака принадлежности определенному классу.

Пример построения дерева решений

Цена

Спрос

Издержки

 

 

 

Низкая

Низкий

Маленькие

 

 

 

Высокая

Низкий

Большие

 

 

 

Высокая

Высокий

Большие

 

 

 

Высокая

Высокий

Маленькие

 

 

 

Высокая

Высокий

Маленькие

 

 

 

Высокая

Высокий

Большие

 

 

 

27 Искусственные нейронные сети. Обучение нейронных сетей

Исскусcтвенная нейронная се́ть - это математическая модель, а также устройства параллельных вычислений, представляющие собой систему соединѐнных и взаимодействующих между собой простых процессоров (искусственных нейронов). Как математическая модель исскусcтвенная нейронная сеть представляет собой частный случай методов распознавания образов или дискриминантного анализа. Такие процессоры обычно довольно просты, особенно в сравнении с процессорами, используемыми в персональных компьютерах.

Интеллектуальные системы на основе искусственных нейронных сетей позволяют с успехом решать проблемы распознавания образов, выполнения прогнозов,

оптимизации, ассоциативной памяти и управления. Традиционные подходы к решению этих проблем не всегда дают необходимую гибкость и много приложений выигывают от использования нейросетей.

Обучение нейронных сетей

По организации обучения разделяют обучение нейронных сетей с учителем

(supervised neural networks) и без учителя (nonsupervised). При обучении с учителем предполагается, что есть внешняя среда, которая предоставляет обучающие примеры

(значения входов и соответствующие им значения выходов) на этапе обучения или оценивает правильность функционирования нейронной сети и в соответствии со своими критериями меняет состояние нейронной сети или поощряет (наказывает) нейронную сеть, запуская тем самым механизм изменения ее состояния. Под состоянием нейронной сети, которое может изменяться, обычно понимается:

веса синапсов нейронов (карта весов - map) (коннекционистский подход);

веса синапсов и пороги нейронов (обычно в этом случае порог является более легко изменяемым параметром, чем веса синапсов);

установление новых связей между нейронами (свойство биологических нейронов устанавливать новые связи и ликвидировать старые называется пластичностью).

По способу обучения разделяют обучение по входам и по выходам. При обучении по входам обучающий пример представляет собой только вектор входных сигналов, а при обучении по выходам в него входит и вектор выходных сигналов, соответствующий входному вектору.

По способу предъявления примеров различают предъявление одиночных примеров и "страницы" примеров. В первом случае изменение состояния нейронной сети (обучение)

происходит после предъявления каждого примера. Во втором - после предъявления

"страницы" (множества) примеров на основе анализа сразу их всех.

По особенностям модели нейрона различают нейроны с разными нелинейными функциями:

пороговой;

экспоненциальной сигмоидой;

рациональной сигмоидой;

гиперболическим тангенсом.

Перечисленные функции относятся к однопараметрическим. Также используются многопараметрические передаточные функции.