Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ShPORY_BD.docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.64 Mб
Скачать

Тема 17. Эвристические методы принятия решений. Эвристические деревья решений. Табличное представление инженерных знаний. Формализация представления инженерных решений в форме информационных таблиц.

Эвристические деревья решений

Ускоренный прогресс в методах сбора, хранения и обработки данных позволил организациям собирать огромные массивы данных, для анализа которых возможностей экспертов уже не хватает. Поэтому спрос на методы автоматического исследования (анализа) данных с каждым годом постоянно увеличивается.

Деревья решений – один из таких методов автоматического анализа данных, представляющий собой способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если ... то ..." (рис. 15)

Д еревья решений являются удобным инструментом в системах поддержки принятия решений, интеллектуального анализа данных (datamining). 

В состав многих пакетов, предназначенных для интеллектуального анализа данных, уже включены методы построения деревьев решений. В областях, где

высока цена ошибки, они послужат отличным подспорьем аналитика или руководителя.

Рис. 15. Пример дерева решений

Деревья решений имеют ряд преимуществ:

  • быстрый процесс обучения;

  • генерация правил в областях, где эксперту трудно формализовать свои знания;

  • извлечение правил на естественном языке;

  • интуитивно понятная классификационная модель;

  • высокая точность прогноза, сопоставимая с другими методами (статистика, нейронные сети);

  • построение непараметрических моделей.

Конечно, пример дерева решений (рис. 15) служит лишь для иллюстрации метода и не пригоден для использования в программных реализациях.

Табличное представление инженерных знаний

Традиционным и наиболее распространённым способом представления инженерных знаний, содержащихся в справочниках или иных методических материалах, являются информационные таблицы, которые можно условно разделить на несколько категорий.

­­­­­­­­

Справочными таблицами без условий называют таблицы, в которых перечислены наименования и рекомендуемые значения некоторых характеристик какого-либо объекта (рис. 16) без каких либо дополнительных условий.

Наименование характеристики, представляемое одним термином, называется простым, например, "наибольшая длина хода стола в мм", наименование, представляемое иерархической структурой терминов, называется сложным, например справочная таблица (рис.16) содержит наименования, каждое из которых состоит из трех терминов.

Справочной таблицей с условиями называется упорядоченная совокупность выбираемых значений, каждому из которых поставлены в соответствие одно или два набора условий. По своей семантике выбираемые значения обычно являются качественными и/или количественными значениями определённой характеристики объекта из некоторой предметной области. Выбираемым значением может служить одно слово или последовательность слов. Выбираемые значения могут быть упорядочены в виде последовательности или в виде таблицы.

Под элементарным условием выбора решения понимают совокупность наименования атрибута, значения атрибута и отношения между ними, выражаемого атрибутивным предикатором. Чаще всего в качестве атрибутивных предикаторов служат:

  • есть или равно;

  • находится в интервале;

  • больше;

  • меньше;

  • больше или равно (не меньше) ;

  • меньше или равно (не больше);

  • следует;

  • предшествует и т.п.

Формализация представления инженерных решений в форме информационных таблиц

Рассмотрим процесс формализации представления инженерных знаний в табличной форме на конкретном примере. Ниже приведён фрагмент текста, взятого из учебника по электроснабжению промышленных предприятий.

“Коэффициент защиты сетей, для которых защита от перегрузки обязательна, для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией во взрыво- и пожароопасных производственных, служебных, служебно-бытовых помещениях, независимо от рода проводника (осветительные сети), для токов защиты: Iном_вст и Iуст_е_о равен 1.25; а для Iсраб_комб_нр иIсраб_теп_рег -- 1. Коэффициент защиты сетей, для которых защита от перегрузки обязательна, для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией во невзрыво- и непожароопасные помещения (например, провода АПР, ПР на роликах и изоляторах) для токов защиты:Iном_вст, Iуст_е_о, Iсраб_комб_нр иIсраб_теп_рег равен 1. Коэффициент защиты сетей, для которых защита от перегрузки обязательна, дляпроводников с бумажной изоляцией и изоляцией из вулканизированного полиэтилена для токов защиты: Iном_вст, Iуст_е_о, Iсраб_комб_нр равен 1, аIсраб_теп_рег -- 0.8. Коэффициент защиты сетей, не требующих защиты от перегрузки (требуется только защита от токов КЗ), для токов защиты: Iном_вст равен 0.33; Iуст_е_о равен 0.22; Iсраб_комб_нр равен1 иIсраб_теп_рег -- 0.8.”

Анализ приведенного текста позволяет выделить, прежде всего, повторяющуюся группу подлежащего “ Коэффициент защиты ” и на её основе разбить весь текст на четыре абзаца. Присвоим этой фразе индекс 1. Во всех предложениях группа сказуемого состоит из одного глагола “равен”, а дополнениями служат соответственно числа: 1.25; 1; 0.8; 0.33; 0.8.Текст примет нижеследующий вид.

Коэффициент защиты сетей, для которых защита от перегрузки обязательна, для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией во взрыво- и пожароопасных производственных, служебных, служебно-бытовых помещениях, независимо от рода проводника (осветительные сети), для токов защиты: Iном_вст и Iуст_е_о равен 1.25; а для Iсраб_комб_нр иIсраб_теп_рег равен 1.

Коэффициент защиты сетей, для которых защита от перегрузки обязательна, для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией во невзрыво- и непожароопасные помещения (например, провода АПР, ПР на роликах и изоляторах) для токов защиты:Iном_вст, Iуст_е_о, Iсраб_комб_нр иIсраб_теп_рег равен 1.

Коэффициент защиты сетей, для которых защита от перегрузки обязательна, дляпроводников с бумажной изоляцией и изоляцией из вулканизированного полиэтилена для токов защиты: Iном_вст, Iуст_е_о, Iсраб_комб_нр равен 1, аIсраб_теп_рег равен 0.8.

Коэффициент защиты сетей, не требующих защиты от перегрузки (требуется только защита от токов КЗ), для токов защиты: Iном_вст равен 0.33; Iуст_е_о равен 0.22; Iсраб_комб_нр равен 1 иIсраб_теп_рег равен 0.8.”

В первом абзаце определяются условия для группы из двух фактов: “коэффициент защиты равен 1.25 (Ф1)” и “коэффициент защиты равен 1 (Ф2)”.

Во втором абзаце описывается вторая группа условий, при которых факт Ф2 также имеет место.

Третий абзац содержит описание условий тоже для двух фактов: третью группу условий, при которых имеет место упомянутый факт Ф2 и группу условий для третьего факта - “коэффициент защиты равен 0.8 (Ф3)”.

И, наконец, в четвёртом абзаце содержится ещё одна группа условий, при которых имеют место уже известные факты Ф2 и Ф3, а также добавляются два новых факта: “коэффициент защиты равен 0.33 (Ф4)” и “коэффициент защиты равен 0.22 (Ф5)”.

Формальный анализ (без привлечения морфологического и семантического анализа) каждого из четырёх предложений позволяет установить, что словосочетание “сетей, для которых защита от перегрузки обязательна” встречается в трёх из четырёх предложений и во всех случаях следует за группой подлежащего (служит его определением). Присвоим ей уровень на единицу больше уровня группы подлежащего, т.е. индекс - 1.1. В последнем предложении место этого словосочетания занимает другая фраза “ сетей, не требующих защиты от перегрузки (требуется только защита от токов КЗ) “. Следовательно, она также окажется на втором уровне, но уже второй на нём после фразы 1.1. и получит индекс 1.2. Продолжая этот процесс, но с учётом применения для описанных действий операций над таблицами в языке VisualBasicforApplicationдляMSWord, их можно иллюстрировать следующим образом.

Действие первое - создаётся таблица из двух строк и числом столбцов, равным числу выделенных абзацев. Выполняется операция объединения ячеек первой строки и в эту строку помещается общая группа подлежащего, а во вторую по соответствующим ячейкам - остальной текст.

Таблица 1

1.Коэффициент защиты

1.1. сетей, для которых защита от перегрузки обязательна, для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией во взрыво- и пожароопасных производственных, служебных, служебно-бытовых помещениях, независимо от рода проводника (осветительные сети), для токов защиты: Iном_вст и Iуст_е_о равен 1.25; а для Iсраб_комб_нр иIсраб_теп_рег равен 1.

1.2. сетей, для которых защита от перегрузки обязательна, для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией во невзрыво- и непожароопасные помещения (например, провода АПР, ПР на роликах и изоляторах) для токов защиты:Iном_вст, Iуст_е_о, Iсраб_комб_нр иIсраб_теп_рег равен 1.

1.3. сетей, для которых защита от перегрузки обязательна, дляпроводников с бумажной изоляцией и изоляцией из вулканизированного полиэтилена для токов защиты: Iном_вст, Iуст_е_о, Iсраб_комб_нр равен 1, аIсраб_теп_рег равен 0.8.

1.4. сетей, не требующих защиты от перегрузки (требуется только защита от токов КЗ), для токов защиты: Iном_вст равен 0.33; Iуст_е_о равен 0.22; Iсраб_комб_нр равен 1 иIсраб_теп_рег равен 0.8.

Действие второе - ячейки второй строки, начинающиеся одинаковой фразой, разбиваются каждая на две и ячейки второго уровня объединяются. В объединённую ячейку помещается общая фраза.

Таблица 2

1. Коэффициент защиты

1.1. сетей, для которых защита от перегрузки обязательна

1.2. сетей, не требующих защиты от перегрузки (требуется только защита от токов КЗ), для токов защиты: Iном_вст равен 0.33; Iуст_е_о равен 0.22; Iсраб_комб_нр равен 1 иIсраб_теп_рег равен 0.8.

1.1.1. для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией во взрыво- и пожароопасных производственных, служебных, служебно-бытовых помещениях ), независимо от рода проводника (осветительные сети), для токов защиты: Iном_вст и Iуст_е_о равен 1.25; а для Iсраб_комб_нр иIсраб_теп_рег равен 1.

1.1.2. для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией в невзрыво- и непожароопасные помещения (например, провода АПР, ПР на роликах и изоляторах) для токов защиты:Iном_вст, Iуст_е_о, Iсраб_комб_нр иIсраб_теп_рег равен 1.

1.1.3. дляпроводников с бумажной изоляцией и изоляцией из вулканизированного полиэтилена для токов защиты: Iном_вст, Iуст_е_о, Iсраб_комб_нр равен 1, аIсраб_теп_рег равен 0.8.

Действие третье - выполняются операции разбиения и объединения первых двух ячеек третьей строки.

Таблица 3

1. Коэффициент защиты

1.1. сетей, для которых защита от перегрузки обязательна

1.2. сетей, не требующих защиты от перегрузки (требуется только защита от токов КЗ), для токов защиты: Iном_вст равен 0.33; Iуст_е_о равен 0.22; Iсраб_комб_нр равен 1 иIсраб_теп_рег равен 0.8.

1.1.1. для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией

1.1.2. дляпроводников с бумажной изоляцией и изоляцией из вулканизированного полиэтилена для токов защиты: Iном_вст, Iуст_е_о, Iсраб_комб_нр равен 1, аIсраб_теп_рег равен 0.8.

1.1.1.1. во взрыво- и пожароопасных производственных, служебных, служебно-бытовых помещениях, независимо от рода проводника (осветительные сети), для токов защиты: Iном_вст и Iуст_е_о равен 1.25; а для Iсраб_комб_нр иIсраб_теп_рег равен 1.

1.1.1.2. в невзрыво- и непожароопасные помещениях (например, провода АПР, ПР на роликах и изоляторах) для токов защиты:Iном_вст, Iуст_е_о, Iсраб_комб_нр иIсраб_теп_рег равен 1.

Анализ текста в оставшимися неразбитыми ячейках, позволяет выделить словосочетание “для токов защиты: ”, которое встречается во всех колонках и, следовательно, не зависит от них. Поэтому оно должно быть вынесено в самостоятельную колонку. Это словосочетание служит общим именем значений:Iном_вст,Iуст_е_о,Iсраб_комб_нр,Iсраб_теп_рег, которые также встречаюся во всех колонках и, следовательно не зависят от вышерасположенных ячеек, однако каждое из них входит в различные лексемы, поэтому они должны быть помещены в колонку под словосочетанием “для токов защиты: ”, но в отдельные ячейки.

Таблица 4

для токов защиты:

1. Коэффициент защиты

1.1. сетей, для которых защита от перегрузки обязательна

1.2. сетей, не требующих защиты от перегрузки (требуется только защита от токов КЗ)

1.1.1. для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией

1.1.2. дляпроводников с бумажной изоляцией и изоляцией из вулканизиро-ванного полиэтилена

1.1.1.1. во взрыво- и пожароопасных производственных, служебных, служебно-бытовых помещениях независимо от рода проводника (осветительные сети),

1.1.1.2. в невзрыво- и непожароопасные помещениях (например, провода АПР, ПР на роликах и изоляторах)

Iном_вст

равен 1.25

Равен 1.

равен 1

равен 0.33

Iуст_е_о

равен 1.25

Равен 1.

равен 1

равен 0.22

Iсраб_комб_нр

равен 1.

Равен 1.

равен 1

равен 1

Iсраб_теп_рег

равен 1.

Равен 1.

равен 0.8.

равен 0.8

В качестве последних действий осталось удалить строку, содержащую одно и тоже значение во всех четырёх колонках, объединить соседние ячейки с одинаковыми значениями и удалить слово “равен”поскольку оно встречается во всех колонках (Табл. 5).

В результате проведённых формальных действий получена не полностью оптимизированная иерархическая кросс-таблица, сохранившая грамматическую структуру исходного текста, но более удобная в употреблении в силу своей наглядности. Однако, кроме этого, такая таблица

Таблица 5

для тока защиты:

Коэффициент защиты (1)

(1.1) сетей, для которых защита от перегрузки обязательна

(1.2) сетей, не требующих защиты от перегрузки (требуется только защита от токов КЗ)

(1.1.1) для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией

(1.1.2) для проводников с бумажной изоляцией и изоляцией из вулканизиро-ванного полиэтилена

(1.1.1.1) во взрыво- и пожароопасные производственных, служебных, служебно-бытовых помещениях независимо от рода проводника (осветительные сети)

(1.1.1.2) в невзрыво- и непожаро-опасных помещениях (например, провода АПР, ПР на роликах и изоляторах)

Iном_вст

1,25

1

1

0,33

Iуст_е_о

0,22

Iсраб_теп_рег

1

0,8

принципиально уже может быть занесенав базу знаний СИЛТ (описываетсяниже) и к ней может быть обеспечен программный доступ из инженерных приложений. Таблица оптимизирована не полностью, поскольку факт Ф2, т.е. “Коэффициент защиты равен 1 ” повторяется в таблице трижды, но в рамках применяемого двумерного представления данных полностью избежать повторяемости не представляется возможным.

Принципиальная возможность программного доступа к подобной таблице не означает, что это будет эффективно и удобно делать, поскольку признаки классификации представлены произвольными словосочетаниями и даже не в именительном падеже. Для того чтобы подобные таблицы было бы удобно использовать как человеку, так и программному приложению над ними следует выполнить дальнейшие преобразования. Проиллюстрируем это на том же самом примере.

Словосочетания: “сетей, для которых защита от перегрузки обязательна” и “сетей, не требующих защиты от перегрузки” приведём к одному атрибуту логического типа “Необходимость защиты сети от перегрузки”, принимающего значенияДа или Нет. Теперь индекс 1.1. будет соответствовать факту Ф1.1. “Необходимость защиты сети от перегрузки = Да”, а индекс 1.2. - факту Ф1.2. “ Необходимость защиты сети от перегрузки = Нет”

Словосочетания: “для проводников с резиновой и аналогичной по тепловым характеристикам изоляцией” и “дляпроводников с бумажной изоляцией и изоляцией из вулканизированного полиэтилена” преобразуем к значениям атрибута “Тип изоляции проводников электрической сети”, среди допустимых значений которого будут находиться и следующие значения: резиновая; бумажная; из вулканизированного полиэтилена и т.п. В таком случае индекс 1.1.1. будет выражаться фактом Ф1.1.1. - “Тип изоляции проводников электрической сети - резиновая ”, а индекс 1.1.2. - фактом Ф1.1.2. представляющим собой дизъюнкцию двух фактов - “Тип изоляции проводников электрической сети - бумажная (Фтипб1.1.2)” или “Тип изоляции проводников электрической сети - из вулканизированного полиэтилена (Фтипвп1.1.2)”.

Аналогичным образом преобразуем остальные словосочетания в форму соответствующих атрибутов:

  • Степень взрыво и пожароопасности:

  • невзрыво- и непожароопасные;

  • взрыво- и пожароопасные;

  • Тип помещения:

  • производственные;

  • служебные;

  • служебно-бытовые;

  • Род проводника:

  • осветительные сети;

  • провода АПР;

  • провода ПР на роликах и изоляторах;

  • Вид тока защиты:

  • Номинальный Iном_вст (Ф2.1);

  • Установочный Iуст_е_о (Ф2.2);

  • Срабатывания Iсраб_теп_рег (Ф2.3).

Теперь индекс 1.1.1.1 станет фактом Ф1.1.1.1, представляющим собой конъюнкцию двух фактов: “Степень взрыво и пожароопасности - взрыво- и пожароопасные (Фсвп1.1.1.1)иТип помещения - cлужебные (Фтпс1.1.1.1)” или “Тип помещения - бытовые (Фтпб1.1.1.1)”, а индекс 1.1.1.2 - фактом Ф1.1.1.2 “Степень взрыво и пожароопасности - невзрыво- и непожароопасные (Фсвпн1.1.1.2)и (“Род проводника - провода АПР (Фрпапр1.1.1.2)” или “Род проводника - провода ПР на роликах и изоляторах (Фрппр1.1.1.2))”

В терминах фактов табл. 5 примет следующий вид (Табл. 6).

Таблица 6

Ф1.1

Ф1.2

Ф1.1.1

Фтипб 1.1.2

Фтипвп 1.1.2

Фсвп1.1.1.1

Фсвпн 1.1.1.2

Фтпс1.1.1.1

Фрпапр 1.1.1.2

Фрппр 1.1.1.2

Ф2.1

Ф1

Ф2

Ф2

Ф4

Ф2.2

Ф5

Ф2.3

Ф2

Ф3

Анализируя полученный результат можно увидеть, что факт Ф2 не зависит от фактов: Фрпапр 1.1.1.2, Фрппр 1.1.1.2, которые, следовательно, можно убрать из таблицы и получить следующую форму таблицы.

Таблица 7

Ф1.1

Ф1.2

Ф1.1.1

Фтипб 1.1.2

Фтипвп 1.1.2

Фсвп1.1.1.1

Фсвпн 1.1.1.2

Фтпс1.1.1.1

Ф2.1

Ф1

Ф2

Ф2

Ф4

Ф2.2

Ф5

Ф2.3

Ф2

Ф3

После преобразования табл. 7 к общеупотребительному виду получим следующую таблицу с условиями (Табл. 8).

Таблица 8

Ток защиты

Необходимость защиты сети от перегрузки

да

нет

Степень взрыво и пожароопасности

Тип изоляции проводников электрической сети

Взрыво- и пожаро-опасные

невзрыво- и непожароопасные

резиновая

бумажная, из вулканизированного полиэти-лена

Тип помещения

Cлужебные, бытовые

Коэффициет защиты

Iном_вст

1.25

1

1

0.33

Iуст_е_о

0.22

Iсраб_теп_рег

1

0.8

На основе табл. 7 можно получить другой способ представления той же самой информации, а, именно, - в виде следующих продукций:

Если {Ф1.1 иФ1.1.1 и Фсвп1.1.1.1 иФтпс1.1.1.1 и (Ф2.1 или Ф2.2)} тоФ1.

Если {Ф1.1 иФ1.1.1 и Фсвп1.1.1.1 иФтпс1.1.1.1 иФ2.3 или

Ф1.1 иФ1.1.1 и Фсвпн 1.1.1.2 и (Фрпапр 1.1.1.2 или Фрппр 1.1.1.2) или

Ф1.1 и (Фтипб 1.1.2 или Фтипвп 1.1.2) и (Ф2.1 или Ф2.2)} тоФ2.

Если{(Ф1.1 и (Фтипб 1.1.2 или Фтипвп 1.1.2) или Ф1.2) и Ф2.3} то Ф3.

Если {Ф1.2 и Ф2.1} то Ф4.

Если {Ф1.2 и Ф2.2} то Ф5.

Очевидно, что специалист практик предпочтёт первый способ представления информации, а именно, табличный.

Как можно видеть из этого примера, процесс приведения текстуальных знаний к табличной форме может быть успешно формализован, что позволяет увеличивать объём эвристических знаний, представленных в форме информационных таблиц.

Тема 18. Компонентный анализ проектной среды принятия решений в САПР. Дескрипторная компонента. Нелинейные структуры данных. Классификационная компонента. Компонента знаний.

Дескрипторная компонента информационных систем ППР

Простую дескрипторную модель можно представлять в форме таблицы, каждому столбцу которой соответствует определенный дескриптор информационно-поискового языка (ИПЯ). Заголовок столбца - это имя дескриптора, элементы столбца таблицы - это значения поля дескриптора (области определения переменной в терминах классической математики или домена в терминах реляционной модели). Строка таблицы - это поисковый образ объекта, представленный значениями определенного набора характеристик, присущих всем объектам поиска.

Выражая эти же положения в терминах реляционных СУБД, мы приходим к суждениям, что поле дескриптора - это домен, отдельный поисковый образ, соответствующий кортежу реквизитов - это запись таблицы или группа последовательно связанных отношением записей нескольких таблиц. Множество поисковых образов - это база данных.

При этом следует обратить внимание на то обстоятельство, что не всякая дескрипторная модель адекватно отображается в реляционную базу данных. Подходящие дескрипторные модели должны удовлетворять следующим ограничениям:

  • поисковый образ каждого объекта представляется линейной последовательностью дескрипторов;

  • из всего множества дескрипторов может быть выделена группа дескрипторов, присущая всем объектам. Если таких дескрипторов нет, они должны быть введены искусственно;

  • все объекты должны укладываться в иерархическую классификацию на основе общности описываемых их дескрипторов. При этом должен соблюдаться принцип наследования – все дескрипторы высшего уровня в равной мере относятся к объектам, описываемым дескрипторами нижнего уровня.

Компонента в форме дескрипторной модели может эффективно работать лишь в случае, если поисковые образы всех объектов являются достаточно однородными по своей структуре, т.е. распадаются на относительно небольшое число типов. В противном случае объекты поиска должны быть подвергнуты ряду сложных классификаций по признаку однородности поисковых образов, с тем, чтобы объекты одного класса можно было бы представлять одной таблицей.

Отсюда явно видны недостатки дескрипторной модели и ее программной реализации в изложенной выше форме для создания информационных систем СППР - необходимость управления огромным числом одновременно открытых таблиц базы данных, что делает систему очень сложной и слишком трудоемкой в разработке и модификации. С точки зрения СППР можно выделить два принципиальных ограничения дескрипторных моделей:

  • невозможность ее применения в случаях структурированных поисковых образов, которым относится большая часть объектов проектирования (реинжиниринга);

  • статичность модели, модификация модели в режиме эксплуатации системы, хоть и допустима, но весьма неудобна.

Поэтому дескрипторная компонента является лишь обязательной головной компонентой любой СППР, обеспечивающей первичный учет и начальную классификацию всех объектов моделируемой среды.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]