Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ГОСы / Avdeenko_Otvety_1

.pdf
Скачиваний:
17
Добавлен:
04.01.2020
Размер:
2.17 Mб
Скачать

25 Самообучающиеся системы. Технологии OLAP и Data mining. Определение Data mining. Основные типы закономерностей, извлекаемых с помощью Data mining.

Самообучающаяся система — естественная или человеко-машинная система, способная усваивать знания и впоследствии применять их при выборе режимов функционирования.. Самообучающиеся ИИС основаны на методиках автоматической классификации ситуаций из реальной практики, или на методах обучения на примерах. Примеры реальных ситуаций составляют так называемую обучающую выборку. Её элементы описываются множеством классификационных признаков.

Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа,

составляющего основу оперативной аналитической обработки данных (online analytical processing, OLAP).

Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Существуют три типа OLAP:

многомерная OLAP (Multidimensional OLAP — MOLAP);

реляционная OLAP (Relational OLAP — ROLAP);

гибридная OLAP (Hybrid OLAP — HOLAP).

MOLAP — классическая форма OLAP, так что её часто называют просто OLAP. Она использует суммирующую БД, специальный вариант процессора пространственных БД и создаёт требуемую пространственную схему данных с сохранением как базовых данных, так и агрегатов.

ROLAP работает напрямую с реляционным хранилищем, факты и таблицы с измерениями хранятся в реляционных таблицах, и для хранения агрегатов создаются дополнительные реляционные таблицы. HOLAP использует реляционные таблицы для хранения базовых данных и многомерные таблицы для агрегатов.

Ряд этапов решения задач методами Data Mining:

1.Постановка задачи анализа;

2.Сбор данных;

3.Подготовка данных (фильтрация, дополнение, кодирование);

4.Выбор модели (алгоритма анализа данных);

5.Подбор параметров модели и алгоритма обучения;

6.Обучение модели (автоматический поиск остальных параметров модели);

7.Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;

8.Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

Data Mining - методы обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений.

Закономерность - это существенная, постоянно повторяющаяся взаимосвязь явлений.

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data

Mining:

-ассоциация, -последовательность, -классификация, -кластеризация -прогнозирование.

*Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 70% купивших творог берут также и сметану, а при наличии скидки от одного производителя такую пару продуктов покупают в 80% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

*Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например,

31

после покупки квартиры в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

*С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Например, может определяться надежность клиента банка по ряду критериев. Кластеризация отличается от классификации тем, что сами группы заранее не заданы.

*С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных. Как правило, на основе кластеризации формируются новые продукты.

*Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

32

26 Индукция и дедукция. Алгоритм индуктивного обучения. Деревья решений.

Дедукция – переход в процессе познания от общего знания о некотором классе предметов и явлений к знанию частному и единичному.

Индукция – это переход в процессе познания от частного знания к общему; от знания меньшей степени общности к знанию большей степени общности.

Известным примером (рис.1 и рис.2) индуктивного обучения является подгонка функции от одной переменной к некоторым точкам из набора данных.

Примеры представляют собой пары (x, f(x)), где и x и f(x)– действительные числа. Выберем в качестве пространства гипотез – множество полиномов, имеющих степень не больше k, таких как5x2+2, x17-3x3. На рис.1 показаны значения, которые соответствуют некоторой прямой (полиному первой степени). Так как прямая согласуется со всеми данными, то она называется совместимой с гипотезой. На том же рис. 1 показан полином более высокой степени, который также совместим с этими данными. Это пример важной проблемы индуктивного обучения – выбору среди множества согласованных гипотез. Эта проблема может быть решена с использованием принципа “бритвы Оккама”, согласно которому предпочтение следует отдавать наиболее простой гипотезе, согласующейся с данными.

На рис. 2 показан второй набор данных, с которым нельзя точно совместить прямую линию. Для точного согласования с данным набором требуется полином четвертой степени с пятью параметрами. Возможно, что лучше согласовать этот набор данных с прямой линией, которая не будет точно совместимой, но позволит получать обоснованные предсказания. Принятие данного решения равносильно признанию недетерминированности искомой функции. При наличии недетерминированных функций неизбежно приходится искать компромисс между сложностью гипотезы и степенью ее согласованности с данными. Возможность найти простую согласованную гипотезу зависит от выбранного пространства гипотез. На рис. 2 показано как тот же набор данных может быть точно согласован с простой функцией вида ax + b + csin(x). Задача обучения называется реализуемой, если Пространство гипотез содержит подходящую функцию, иначе она называется нереализуемой

Теорема дедукции

 

 

Для любых двух высказываний и ,

=

тогда и только тогда, когда высказывание ( )

является общезначимым.

 

 

Другая формулировка:

 

 

 

 

33

Для любых двух высказываний и , = тогда и только тогда, когда высказывание ( ^ ) является противоречивым.

Дерево принятия решений — используется в области статистики и анализа данных для прогнозных моделей. Структура дерева представляет собой следующее: «листья» и «ветки». На ребрах («ветках») дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — атрибуты, по которым различаются случаи.

Метод построения дерева решений:

1)Выбирается признак классификации из множества заданных

2)По значению выбранного признака множество примеров разбивается на подмножества

3)Выполняется проверка, принадлежит ли каждое образовавшееся подмножество примеров одному подклассу. Если да, то процесс классификации заканчивается.

4)Для подмножеств примеров с несовпадающим значением классообразующего признака процесс классификации продолжается, начиная с п.1.

34

27 Искусственные нейронные сети. Обучение нейронных сетей.

В результате обучения на примерах строятся математические решающие функции (передаточные функции или функции активации), которые определяют зависимости между входными (Xi) и выходными (Yj) признаками (сигналами) (рис. 1.11).

Каждая такая функция, называемая по аналогии с элементарной единицей человеческого мозга - нейроном, отображает зависимость значения выходного признака (Y) от взвешенной суммы (U) значений входных признаков (Xi), в которой вес входного признака (Wi) показывает степень влияния входного признака на выходной:

Решающие функции используются в задачах классификации на основе сопоставления их значений при различных комбинациях значений входных признаков с некоторым пороговым значением. В случае превышения заданного порога считается, что нейрон сработал и таким образом распознал некоторый класс ситуаций. Нейроны используются и в задачах прогнозирования, когда по значениям входных признаков после их подстановки в выражение решающей функции получается прогнозное значение выходного признака.

Функциональная зависимость может быть линейной, но, как правило, используется сигмоидальная форма, которая позволяет вычленять более сложные пространства значений выходных признаков. Такая функция называется логистической (рис.1.12).

Обучение нейронной сети сводится к определению связей между нейронами и установлению силы этих связей (весовых коэффициентов). Алгоритмы обучения нейронной сети упрощенно сводятся к определению

35

зависимости весового коэффициента связи двух нейронов от обучающей выборки входных и выходных переменных.

Практические приложения искусственных нейронных сетей:

Управление ценами и производством

Обслуживание кредитных карточек

Анализ потребностей рынка

Прогнозирование объемов спроса при управлении закупками

28 Системы, основанные на прецедентах (Case Based Reasoning).

Прецедент – это описание проблемы или ситуации с подробным указанием действий, предпринимаемых в аналогичной ситуации для решения подобной проблемы.

В системах, основанных на прецедентах, баз знаний содержит описание на обобщенных ситуаций, а собственно сами ситуации или прецеденты. Тогда поиск решений проблемы сводится к поиску по аналогии (абдуктионому выводу от частного к частному).

Поиск по аналогии в системах CRB

1)Получение подробной информации о текущей проблеме 2) Сопоставление полученной информации со значениями признаков прецедентов из БЗ

3)Выбор прецедента из БЗ ,наиболее близкого к рассматриваемой проблеме 4)В случае необходимости – адаптации выбранного прецедента к текущей проблеме 5)Проверка корректности каждого полученного решения 6)Занесение детальной информации о полученном решении в БЗ.

Основными недостатками являются:

Метод применим только в областях, где выполняется принцип регулярности и имеет место повторяемость видов задач. Если все время решаются принципиально новые задачи или если решения сходных задач различны, то CBR-метод неприемлем.

Некомпактное (без обобщения) хранение знаний (опыта).

Сложность и специфичность процессов поиска подобных случаев и адаптации решения.

36

29 Прямой логический вывод в ЭС на основе правила Modus Ponens.

МОДУС ПОНЕНС (лат. modus ponens) - термин средневековой логики, обозначающий правило вывода и соответствующий ему логический закон. Здесь A и В - некоторые высказывания, "если А, то В" и "A" - посылки, "B" – заключение. Например: если при дожде земля мокрая и идет дождь, то земля является мокрой; если у человека грипп, он болен, то если у человека грипп, человек болен и тд.

Форма записи: , где A, B — любые формулы.

Это правило постоянно используется в наших рассуждениях. Впервые оно было сформулировано, насколько можно судить, учеником Аристотеля Теофрастом ещё в III в. до н.э.

Обратная цепочка рассуждений применяется в задачах, соответствующих процессу проверки гипотез при решении проблем человеком — для заданной ситуации необходимо определить условия к ней приводящие.

Алгоритм прямого логического вывода

Начинает свою работу с известных фактов, содержащихся в БЗ.

Если для некоторой импликации становятся истинными все предпосылки, то ее заключение добавляется к базе знаний в соответствии с правилом Modus Ponens.

Процесс продолжается до тех пор, пока:

-к базе знаний добавляется изначально заданный запрос q (алгоритм достигает успеха в доказательстве q),

-новые факты не добавляются в базу знаний (алгоритм достиг фиксированной точки). Если при достижении фиксированной точки исходный запрос q не достигнут, то последний не может быть выведен из базы знаний

37

30 Обратный логический вывод в ЭС на основе правила Modus Ponens.

Алгоритм обратного логического вывода

Действует в обратном направлении от запроса к данным.

Если запрос q содержится среди фактов, то на этом алгоритм завершает работу.

в противном случае алгоритм использует те импликации в базе знаний, для которых q является заключением:

-Если все посылки найденной импликации являются фактами, то выводим q и заканчиваем доказательство.

-Иначе ищем импликации для доказательства посылок.

МОДУС ПОНЕНС (лат. modus ponens) - термин средневековой логики, обозначающий правило вывода и соответствующий ему логический закон. Здесь A и В - некоторые высказывания, "если А, то В" и "A" - посылки, "B" – заключение. Например: если при дожде земля мокрая и идет дождь, то земля является мокрой; если у человека грипп, он болен, то если у человека грипп, человек болен и тд.

Форма записи: , где A, B — любые формулы.

Это правило постоянно используется в наших рассуждениях. Впервые оно было сформулировано, насколько можно судить, учеником Аристотеля Теофрастом ещё в III в. до н.э.

Обратная цепочка рассуждений применяется в задачах, соответствующих процессу проверки гипотез при решении проблем человеком — для заданной ситуации необходимо определить условия к ней приводящие.

38

31 Семантические сети. Основные типы отношений в семантических сетях. Правила построения семантических сетей.

Правила построения семантических сетей.

Семантическая сеть модель предоставления знаний ПО, имеющая вид ориентированного графа, вершины которого соответствуют объектам (понятиям), а ребра – отношениям между объектами. Объектами могут быть понятия, события , свойства, процессы.

Семантические сети делятся:

1.по количеству типов отношений (однородные и неоднородные)

2.по R-ности (бинарные иn-арные).

Тиры отношений:

1.иерархические (ISA,AKO,Hasapart)

2.вспомогательные

-функциональные связи

-количественные связи (<,>,=)

-пространственные связи (далеко, близко, за, под, над)

-временные связи (завтра)

-атрибутивные связи (иметь свойство, иметь значение)

-логические связи (и, или, не)

-лингвистические связи

Правила построения семантических сетей.

Семантическая сеть — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. В семантической сети роль вершин выполняют понятия базы знаний, а направленные дуги задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.

Основной формой представления семантической сети является граф. Понятия семантической сети записываются в овалах или прямоугольниках и соединяются стрелками с подписями — дугами. Это наиболее удобно воспринимаемая человеком форма. Её недостатки проявляются, когда мы начинаем строить более сложные сети или пытаемся учесть особенности естественного языка.

В математике граф представляется множеством вершин V и множеством отношений между ними E. Используя аппарат математической логики, приходим к выводу, что каждая вершина соответствует элементу предметного множества, а дуга —предикату.

Понятиями обычно выступают абстрактные или конкретные объекты, а отношения – это связи типа:

«это» («is»);

«имеет частью» («has part»);

«принадлежит»;

«любит».

39

32 Теория фреймов. Структура фрейма. Слоты и присоединенные процедуры. Механизм вывода на фреймах.

Фреймы — это минимальные структуры информации, необходимые для представления класса объектов, явлений или процессов. Фрейм отражает основные свойства объекта или явления.

Фрейм – это сеть узлов и отношений, организованных иерархически, где верхние узлы представляют общие понятия, а нижние – более частные случаи этих понятий.

Структура фрейма записывается в виде списка свойств, называемых во фрейме слотами.

Слоты — это некоторые незаполненные подструктуры фрейма, заполнение которых приводит к тому, что данный фрейм ставится в соответствие некоторой ситуации, явлению или объекту.

Термин фрейм (от англ. frame – «каркас», «рамка») был предложен в 70-е годы прошлого столетия одним из пионеров ИИ Марвином Минским для обозначения структуры знаний для восприятия пространственных сцен. Как и семантическая сеть, фреймовая модель имеет глубокое психологическое обоснование.

Под фреймом понимается абстрактный образ или ситуация для представления некоторого стереотипа восприятий.

Вфилософии и психологии широко употребимо понятие абстрактного образа. Например, произнесение слова «комната» порождает некий образ комнаты, т.е. «жилого помещения с четырьмя стенами, полом, потолком, окнами и дверью». Из описания ничего нельзя исключить – например, убрав окна, мы получим уже чулан, а не комнату. Однако в этом описании существуют некоторые незаполненные атрибуты – «слоты», например, количество окон, высота потолка и т.д. Слоты – описания частностей.

Втеории фреймов такой образ комнаты называется фреймом комнаты. Кроме того, фреймом называется и формализованная модель для отображения образа.

Различают фреймы-образцы, или прототипы, хранящиеся в базе знаний, и фреймы-экземпляры, которые создаются для отображения реальных фактических ситуаций на основе поступающих данных.

Модель фрейма является до некоторой степени универсальной, поскольку позволяет отобразить все многообразие знаний о мире через:

фреймы-структуры, для обозначения объектов и понятий (заем, залог, вексель);

фреймы-роли (менеджер, кассир, клиент);

фреймы-сценарии (банкротство, собрание акционеров, празднование именин);

фреймы-ситуации (тревога, авария, рабочий режим устройства) и др.

Структуру фрейма можно представить с помощью списка и таблицы.

ИМЯ ФРЕЙМА:

(имя 1-го слота: значение 1-го слота),

(имя 2-го слота: значение 2-го слота),

- - - -

40

Соседние файлы в папке ГОСы