Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Математическое моделирование / Arz_Zen_(2010)_Artificial_Intellegence.pdf
Скачиваний:
69
Добавлен:
20.03.2016
Размер:
7.31 Mб
Скачать

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «ТАМБОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени Г. Р. ДЕРЖАВИНА»

А. А. Арзамасцев, Н. А. Зенкова

Искусственный интеллект и распознавание образов

Допущено Редакционно-издательским советом ТГУ им. Г. Р. Державина в качестве учебного пособия для студентов, обучающихся по специальностям 010501 – Прикладная математика и информатика и 010503 – Математическое обеспечение и администрирование информационных систем

Тамбов 2010

1

УДК 681.3.07 ББК 32.973.26-018.2.75

А80

Рекомендовано к печати Редакционно-издательским советом ТГУ имени Г. Р. Державина

Р е ц е н з е н т ы :

доктор технических наук, профессор, заведующий кафедрой автоматизированного проектирования технологического оборудования Тамбовского государственного технического университета В. А. Немтинов;

доктор технических наук, профессор кафедры информатики и информационных технологий Тамбовского государственного университета имени Г. Р. Державина

И. И. Пасечников

Арзамасцев А. А.

А80 Искусственный интеллект и распознавание образов : учеб. пособие / А. А. Арзамасцев, Н. А. Зенкова ; М-во обр. и науки РФ, ГОУВПО «Тамб. гос. ун-т им. Г. Р. Державина». Тамбов : Издательский дом ТГУ им. Г. Р. Державина, 2010. 196 с.

Пособие написано на основе лекционного и лабораторного курсов, которые один из авторов ведет в Институте математики, физики и информатики ТГУ имени Г. Р. Державина. Оно предназначено для студентов, обучающихся по специальностям «Прикладная математика и информатика» и «Математическое обеспечение и администрирование информационных систем», но может быть также использовано для самостоятельной подготовки студентами других специальностей.

УДК 681.3.07 ББК 32.973.26-018.2.75

©Арзамасцев А. А., Зенкова Н. А., 2010

©ГОУВПО «Тамбовский государственный университет имени Г. Р. Державина», 2010

2

MINISTRY OF EDUCATION AND SCIENCE

OF THE RUSSIAN FEDERATION

STATE EDUCATIONAL INSTITUTION OF HIGHER PROFESSIONAL EDUCATION «TAMBOV STATE UNIVERSITY

named after G. R. DERZHAVIN»

А. А. Arzamastsev, N. А. Zenkova

Artificial Intelligence

and Pattern Recognition

Permitted by the Editorial-Publishing Board of TSU named after G.R. Derzhavin as Course Book for Students Studying the Discipline 010501 – Applied Mathematics and Information Technology and 010503 – Software and Information System Administration

Tambov 2010

3

Recommended for Publishing

by the Editorial-Publishing Board of TSU named after G. R. Derzhavin

Reviewers:

Doctor of Technical Sciences, Professor, Head of the Department of Computer-Aided Design of Technological Equipment of Tambov State Technical University V. А. Nemtinov;

Doctor of Technical Sciences, Professor of Informatics and Information Technology Department of Tambov State University named after G. R. Derzhavin I. I. Pasechnikov

Arzamastsev А. А.

Artificial Intelligence and Pattern Recognition: Course Book / А. А. Arzamastsev, N. А. Zenkova; Ministry of Education and Science of RF, SEIHPE «Tambov State University named after G. R. Derzhavin». Tambov: the Publishing House of TSU named after G. R. Derzhavin, 2010. 196 pp.

Course book has been written on basis of course of lectures and laboratory works which the authors conduct at the Institution of Mathematics, Physics and Information Technology of TSU named after G. R. Derzhavin. It is intended for students studying the disciplines «Applied Mathematics and Information Technology» and «Software and information system administration». It can also be used for self-training of students of other disciplines.

©Arzamastsev А. А., Zenkova N. А., 2010

©SEIHPE «Tambov State University named after G. R. Derzhavin», 2010

4

Содержание

 

Предисловие ………………………………………………………….

9

Благодарности ……………………………………………………….

11

Введение ……………………………………………………..……….

13

Литература для самостоятельного изучения…………................

15

Часть 1. Искусственный интеллект (ИИ) –

 

повторение алгоритмов Природы? …………................

16

1.1.Основные понятия и определения …………….………….. 17

1.2.Сферы применения систем ИИ и краткий исторический очерк ................................……...……...……. 19

1.3. Что привело к разработке ИНС? ……………...……...…… 23

1.4.Мозг человека – прототип ИНС ……………...……...……. 25

1.5.Формальный аппарат искусственных нейронных сетей (ИНС) ………………………………………………… 27

1.6.Обучение ИНС ……………………………………………... 31

1.7.Существующие структуры ИНС …..……………………… 37

1.8.Свойства ИНС ……………………………………………… 43

1.9.Проблема представимости в ИНС ………………………... 43

1.10.Выбор структуры ИНС ………………………………….. 47

Литература к части 1 ……………………………………….. 54

Часть 2. Примеры систем искусственного интеллекта,

 

разработанные на кафедре компьютерного

 

и математического моделирования ……………………

55

2.1. Использование аппарата ИНС в психологии ….…………

56

2.1.1. ИНС-моделирование психологических тестов ……

58

2.1.2. Методика идентификации

 

трудноформализуемых понятий ……………………

70

2.1.3.Идентификация уровня готовности абитуриентов к обучению в вузе ….……………….. 80

2.1.4.Идентификация уровней готовности студентов к трудовой деятельности ……………….. 94

2.1.5.Другие идеи …………………………………………. 95

2.2.Прогнозирование временных рядов на основе

ИНС-моделей и практические применения ……………… 99

2.2.1.Теоретические основы ……………………………… 100

2.2.2.Программный комплекс и вычислительные эксперименты ..……………………………………… 105

2.3.Системы распознавания речи …………...………………… 107

2.3.1.Существующие подходы …………………………… 108

2.3.2.Подход к построению систем распознавания речи на основе математической модели

органа слуха ….……………………………………… 113

5

2.4.Информационная технология построения экспертной системы (ЭС) с интеллектуальным

ядром на основе искусственных нейронных сетей ……… 120

2.4.1.Области применения экспертных систем и основные достижения ….…………………………… 122

2.4.2.Структура и принципы функционирования традиционных экспертных систем ………………… 126

2.4.3.Технология разработки и условия применения экспертных систем ………………………..………… 129

2.4.4.Инструментальных средства для реализации экспертных систем и их типы ……………………… 132

2.4.5.Экспертные системы с веб-интерфейсом .………… 134

2.4.6.Сравнение современных способов представления знаний и механизмов принятия решений в экспертных системах ……………………………… 135

2.4.7.Реализация технологии разработки ЭС ….………… 139

2.5.Использование методов математического моделирования и искусственного интеллекта

для оценки деятельности научных работников ….……… 149

Литература к части 2 ….…………………………….……… 167

Часть 3. Лабораторные работы

3.1.Лабораторная работа 1. Знакомство с программой моделирования искусственных нейронных сетей

NNC (Neural Network Constructor) …………….………….. 168

3.2.Лабораторная работа 2. Восстановление внутренней структуры объекта аддитивного типа по обучающей выборке с помощью ИНС-модели …...…………………… 182

3.3.Лабораторная работа 3. Восстановление внутренней структуры объекта мультипликативного типа по обучающей выборке с помощью ИНС-модели ………. 184

3.4.Лабораторная работа 4. Построение ИНС-модели

и прогнозирование временного ряда (случай одного наблюдаемого базового фактора) ………. 186

3.5.Лабораторная работа 5. Построение ИНС-модели и прогнозирование временного ряда (случай наблюдаемых базового и нескольких независимых

факторов) …………………………………………………… 189

3.6.Лабораторная работа 6. Распознавание текстовой

информации, представленной в виде изображения …… 193

Литература к части 3 …………………………….………...…… 195

6

Contents

Preface ……………………………………………………………………… 9 Gratitude …………………………………………………………………… 11 Introduction ………………………………………………..………………. 13

Literature for self-study…………............................................................

15

Part 1. Artificial intelligence (AI) –

 

reiteration of Nature algorithms? …………............................

16

1.1.Basic concepts and definitions…………….………………………. 17

1.2.Spheres of use of AI systems and a brief historical sketch……….. 19

1.3. What led to the development of ANN…………...……...………… 23 1.4. Human brain – prototype of ANN ……………...……...…………. 25 1.5. The formal apparatus of artificial neural networks (ANN)……… 27

1.6.Teaching of ANN…………………………………………............ 31

1.7.Existing structures of ANN …..…………………………………... 37

1.8.Properties of ANN………………………………………………… 43

1.9.A problem of representability in ANN……………………............ 43

1.10.Choice of ANN structure ………………………………………... 47 Literature to part 1 …………………………………………………. 54

Part 2. Examples of Artificial intelligence systems developed at the de-

 

partment of computer and mathematical simulation ………….

55

2.1. Use of ANN apparatus in psychology ….…………………………

56

2.1.1. ANN-modeling of psychological tests …………………….. 58

2.1.2. Identification methods of hard formalized notions …………

70

2.1.3. Identification of preparedness of entrants to teaching in high

80

school….……………………………………………………………

2.1.4. Identification of preparedness of students to labor activity

94

2.1.5. Other ideas …………………………………………………

95

2.2.Time series forecasting based on ANN-models and practical applications …………………………………………………………... 99

2.2.1.Theoretical bases …………………………………………... 100

2.2.2.Software package and computing experiments ……………. 105

2.3.Speech recognition systems …………...………………………….. 107

2.3.1.Existing approaches ……………………………………….. 108

2.3.2.Approach to modeling of speech recognition systems based

on mathematical simulator of organs of hearing ………………….. 113 2.4. Information technology of expert system (ES) modeling with in-

telligent heart based on artificial neural networks ………………... 120

2.4.1.Product areas of expert systems and main achievements …. 122

2.4.2.Structure and principles of functioning of the traditional expert systems ……………………………………………………….. 126

2.4.3.Development technology and conditions of application of expert systems ………………………..……………………………. 129

7

2.4.4.Tools for realization of expert systems and their types ……. 132

2.4.5.Expert systems with web-interface.………………………… 134

2.4.6.Comparison of modern ways of knowledge representation

and decision mechanisms in expert systems……………………….. 135

2.4.7.Realization of ES development technology….……………... 139

2.5.Application of methods of mathematical simulation and machine intelligence to assess the activity of scientists ….…………………. 149

Literature to part 2 ….…………………………….………………... 167

Part 3. Laboratory works

3.1.Laboratory work 1. Knowledge of the program of modeling of artificial neural networks NNC (Neural Network Constructor)…….. 168

3.2.Laboratory work 2. Reconstruction of the internal structure of the object of additive type of learning sample using the ANN model… 182

3.3.Laboratory work 3. Reconstruction of the internal structure of the object of multiplicative type of learning sample using the ANN model ……………………………………………………………… 184

3.4.Laboratory work 4. ANN-modeling and time series forecasting (a case of one observed basic factor) ………………………………… 186

3.5.Laboratory work 5. ANN-modeling and time series forecasting (a case of the observed basic and some independent factors) ……….. 189

3.6.Laboratory work 6. Text information recognition presented as an

image ………………………………………………………………. 193 Literature to part 3 …………………………….………...…………….. 195

8

Предисловие

Курс «Искусственный интеллект и распознавание образов» является одним из главных для студентов, обучающихся по специальности 010500 и базовым для студентов, выбравших специализацию «Математическое моделирование». Содержание лекций и лабораторных работ по нему в различных вузах отличается весьма существенно. Во многих случаях основной упор делается на математические стороны проблемы; при этом практически полностью игнорируются такие вопросы, как представление основных технологических идей, которые составляют основу современных систем искусственного интеллекта (ИИ), лишь в незначительной степени сравнивается интегральная эффективность современных систем ИИ с интеллектом биологических объектов и т. д. Указанные вопросы рассмотрены в части 1 данного учебного пособия.

Со времени образования кафедры компьютерного и математического моделирования (КММ) ТГУ имени Г. Р. Державина нами взят курс на разработку реальных систем ИИ для различных предметных областей. Многие из них в настоящее время уже реализованы или находятся в стадии реализации. Естественно, что за отведенное для лекций время нет возможности описать все тонкости построения таких систем: от анализа объекта и постановки задачи до получения результатов. Поэтому многие из них студенты смогут изучить самостоятельно по данному пособию (часть 2).

И, наконец, часть 3 пособия посвящена краткому описанию лабораторных работ, которые студент должен выполнить в рамках данного курса.

Основная цель курса, не только (и не столько) научить студентов, обучающихся по специальности «прикладная математика и информатика» типовым приемам, сколько показать им перспективные направления развития систем ИИ.

При сравнительно небольшом объеме часов учебной нагрузки, студенты четвертого курса должны усвоить теоретические положения и получить навыки практической работы в разработке некоторых систем ИИ.

Предлагаемое вашему вниманию учебное пособие написано основе лекционного и лабораторного курсов, которые один из авторов ведет, начиная с 2004 года в Институте математики, физики и информатики (ИМФИ) Тамбовского государственного университета имени Г. Р. Державина.

9

При разработке пособия использовались многие оригинальные материалы: статьи из периодической печати, материалы, полученные из сети Internet и другие источники, статьи авторов, материалы вычислительных экспериментов, полученные на основе пакетов прикладных программ, изученных одним из авторов во время стажировки в МГТУ им. Н. Э. Баумана, 2009 по направлению «Системы компьютерной математики». Данные источники приведены в списках литературы. Однако, сообразуясь с жанром данной книги – учебное пособие, мы не могли привести здесь все необходимые ссылки на используемые материалы. Они имеются в наших оригинальных статьях, диссертациях и других работах. Выражаем благодарность авторам таких источников.

Дисциплина «Искусственный интеллект и распознавание образов» читается для студентов специальностей 010501 и 010503 на четвертом курсе (8-й семестр, форма отчета – экзамен). Она опирается на целый ряд других дисциплин, которые изучались в предыдущих семестрах: «Численные методы», «Математическое и компьютерное моделирование», «Методы оптимизации», «Теория вероятности и математическая статистика», «Теория принятия решений» и др.

Пособие предназначено для студентов специальностей 010501 – «Прикладная математика и информатика» и 010503 – «Математическое обеспечение и администрирование информационных систем», но может быть использовано лицами, обучающимися по магистерской программе «Математическое моделирование» по направлению подготовки 010500.68 – «Прикладная математика и информатика», а также для самостоятельной работы, курсового и дипломного проектирования, и студентами других специальностей.

Все замечания и предложения с благодарностью будут приняты автором по электронной почте: arz_sci@mail.ru

29 сентября 2010 г.

10

Благодарности

Большая часть работ в области искусственного интеллекта, представленных в главе 2 выполнялась авторами в соответствии с тематическими и иными планами и грантами. Выражаем свою искреннюю благодарность:

Министерству образования и науки Российской Федерации и руководству Тамбовского государственного университета им. Г. Р. Державина за поддержку серии научных работ по тематическому плану «Разработка параллельных алгоритмов математического моделирования на основе нейросетевых методов и символьных вычислений», договор № 1.12.09

от 14.01.2009, Тамбов, ТГУ им. Г. Р. Державина, 2009–2010 г.г.;

Фонду содействия развитию малых форм предприятий в науч- но-технической сфере за поддержку проекта «Разработка компьютерных систем для обеспечения наукоемких процессов», государственный контракт

6379р/8845 от31.10.2008, Тамбов, ТГУим. Г. Р. Державина, 2008–2010 гг.;

Аналитической ведомственной целевой программе «Развитие научного потенциала высшей школы (2009–2010 годы)» на 2010 год по проекту «Разработка технологии построения интеллектуальной информационной системы для оценки социальных объектов», регистрационный номер 2.2.2.3/9074, Тамбов, ТГУ им. Г. Р. Державина, Германия, Университет Кобленц-Ландау, 2010;

Германской службе академических обменов (Deutscher Akademischer Austausch Dienst – DAAD) за поддержку научной работы по проекту программы Михаил Ломоносов (B) A0974042 «Development of the technology of intellectual information system design for the estimation of social objects», Тамбов, ТГУ им. Г. Р. Державина, Германия, Университет Коб- ленц-Ландау, 2010;

Германской службе академических обменов (Deutscher Akademischer Austausch Dienst – DAAD) за поддержку научной работы по проек-

ту A/09/03507, 2009, «Development of the computer methods of modeling by means of Agent Based Approach (ABA)», Германия, Университет Кобленц-

Ландау, 2009;

Германской службе академических обменов (Deutscher Akademischer Austausch Dienst – DAAD) за поддержку научной работы по проекту R325, A/08/08610, 2008, «Development of computer methods to evaluate the activity of researchers on the basis of mathematical models which

11

use the apparatus of artificial neural networks (ANN)», Германия, Универси-

тет Кобленц-Ландау, 2009;

Европейской программе TEMPUS-TACIS за поддержку проек-

та «System Modernization of University Management» (SMOOTH), UM_JEP24217, Тамбов, ТГУ им. Г. Р. Державина, 2005–2006;

Институту «Открытое общество» (Фонд Сороса) за поддержку проекта «Разработка информационной технологии психолого-педагоги- ческого тестирования начального уровня образования в гуманитарной сфере на основе нейросетевого моделирования», грант № 0АА108, 2002–2003, Тамбов, ТГУ им. Г. Р. Державина, 2002–2003.

Мы бесконечно признательны нашим дорогим коллегам:

профессору Коваль Нине Александровне и профессору Мильруду Радиславу Петровичу за многочисленные обсуждения разделов, касающихся использования аппарата искусственных нейронных сетей в психологических исследованиях и тестировании;

профессору Клаусу Троичу из университета Кобленц – Ландау,

Германия (Troitzsch Klaus Gerhard, University Koblenz-Landau, Koblenz, Germany) за многочисленные обсуждения практически всех разделов книги, замечательные лекции по моделированию в социальных системах, которые авторы имели возможность прослушать на летних школах в Кобленце в 2005–2010 гг., а также за представленные возможности сотрудничества в рамках многочисленных проектов по программам DAAD и TEMPUS;

профессору Вольфгангу Найгелу из технического университета г. Дрезден, Германия (Wolfgang Nagel, Technical University Dresden, Dresden, Germany) за многочисленные демонстрации технических возможностей реальных систем искусственного интеллекта, с которыми один из авторов имел возможность ознакомиться в 2009 году, в период поездки студентов специальности «Прикладная математика и информатика» ТГУ им. Г. Р. Державина по университетам Германии, поддержанной DAAD;

профессору ТГУ им. Г. Р. Державина Слеткову А. А. за предоставленную возможность работать с базой данных рейтингов ученых университета за 2004–2006 годы;

профессору Тютюннику В. М. за возможность ознакомится с материалами, численно характеризующими вклад в науку лауреатов Нобелевской премии по различным номинациям;

профессору Карлу Ван Метеру (Karl Van Meter, Ecole Supérior de Paris) (Париж, Франция) за обсуждение возможных подходов и полезные советы.

доценту Зубакову Александру Павловичу, старшему преподавателю Слеткову Денису Викторовичу и аспирантам Неудахину Александру Викторовичу и Крючину Олегу Викторовичу за многочисленные обсуждения, критические замечания, позволившие улучшить содержание этой книги и компьютерную реализацию большинства идей.

12

Введение

Термин «интеллект» (intelligence) происходит от латинского «intellectus», что означает ум, рассудок, разум; мыслительные способности человека. Соответственно искусственный интеллект (ИИ, он же artificial intelligence – AI в зарубежной литературе) обычно трактуется как свойство автоматических систем брать на себя отдельные функции интеллекта человека, например, выбирать и принимать оптимальные решения на основе ранее полученного опыта и рационального анализа внешних воздействий1. Система, наделенная интеллектом, является универсальным средством решения широкого круга задач (в том числе неформализованных), для которых нет стандартных, заранее известных методов решения.

Таким образом, мы можно определить искусственный интеллект и как универсальный сверхалгоритм, который способен создавать алгоритмы решения конкретных задач.

Искусственный интеллект (ИИ) – это наука о концепциях, позволяющих делать такие вещи, которые у людей выглядят разумными.

Но что же представляет собой интеллект человека? Есть ли это способность размышлять? Есть ли это способность усваивать и использовать знания? Есть ли это способность оперировать и обмениваться идеями? Несомненно, все эти способности представляют собой часть того, что является интеллектом. На самом деле дать определение в обычном смысле этого слова, по-видимому, невозможно, потому что интеллект – это сплав многих навыков в области обработки и представления информации1.

Центральные задачи ИИ состоят в том, что бы сделать компьютеры более полезными и чтобы понять принципы, лежащие в основе интеллекта. Поскольку одна из задач состоит в том, чтобы сделать компьютеры более полезными, ученым и инженерам, специализирующимся в вычислительной технике, необходимо знать, каким образом ИИ может помочь им в разрешении трудных проблем.

В середине прошлого века многие ученые пытались дать определение ИИ. Приведем лишь некоторые из них.

1 http://www.nestor.minsk.by/kg/2005/20/kg52017.html

13

Определение ИИ Андрея Николаевича Колмогорова: «искусственный интеллект – любая материальная система, с которой можно достаточно долго обсуждать проблемы науки, литературы и искусства…».

Определение ИИ Алана Тьюринга: «В разных комнатах находятся люди и машина. Они не могут видеть друг друга, но имеют возможность обмениваться информацией (например, с помощью электронной почты). Если в процессе диалога между участниками игры людям не удается установить, что один из участников – машина, то такую машину можно считать обладающей искусственным интеллектом».

Академик Андрей Николаевич Колмогоров – выдающийся российский математик. Родился 25 апреля 1903 года в г. Тамбове. Умер 20 октября 1987 г.

Тьюринг Алан Матиссон (Turing Alan Mathison, 1912 – 1954). Известный английский математик. В 1937 году дал математическое определение алгоритма через построение, названное машиной Тьюринга.

Академик Александр Андреевич Самарский (1919 – 2008). Выдающийся российский математик, основоположник школы математического моделирования в России. Директор института математического моделирования РАН. На рубеже 70-80 годов А.А. Самарский выступил с концепцией о методологии математического моделирования, как об «интеллектуальном ядре» процессов информатизации и познания.

14

Литература для самостоятельного изучения

1.Лорьер Ж. Л. Системы искусственного интеллекта. М.: Мир, 1991.

2.Николлс Дж. Г. и др. От нейрона к мозгу. М.: УРСС, 2003.

3. Нейроинформатика / А. Н. Горбань, В. Л. Дунин-Барковский, А. Н. Кирдин и др. Новосибирск: Наука. Сибирское предприятие РАН, 1998. (имеется на сервере кафедры КММ).

4.Уоссермен Ф. Нейрокомпьютерная техника, М.: Мир, 1992. (имеется на сервере кафедры КММ).

5.Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2004. (имеется на сервере кафедры КММ).

6.Барский А. Б. Нейронные сети: распознавание, управление, принятие решений. М.: Финансы и статистика, 2004. (имеется на сервере кафедры КММ).

7.Арзамасцев А. А., Зенкова Н. А. Моделирование в психологии на основе искусственных нейронных сетей. – Тамбов: ИМФИ ТГУ им. Г. Р. Державина, 2003. (имеется на сервере кафедры КММ).

8.Арзамасцев А. А., Зубаков А. П. Системы распознавания образов на основе аппарата искусственных нейронных сетей (ИНС): учебное пособие. Тамбов: ИМФИ ТГУ им. Г. Р. Державина, 2003.

15

Часть 1.

Искусственный интеллект: повторение алгоритмов Природы?

Думаю, что многие из читателей данной книги часто задавали себе такой вопрос: насколько мое поведение в той или иной ситуации является алгоритмичным и, с другой стороны, насколько я склонен принимать новые (нестандартные) решения или избирать новые манеры поведения, например, в новых или изменившихся условиях?

Проведем такой мысленный эксперимент. Требуется описать последовательность 3–4 основных действий, которую мы совершаем, приходя с работы (из университета!) домой. Удивительно, но подавляющее большинство совершенно разных людей описывают совершенно одинаковую последовательность: 1) переодеваюсь в домашнюю одежду; 2) короткий разговор с домочадцами; 3) душ-туалет; 4) скорее пообедать! Вывод: поведение людей в данной, хорошо знакомой ситуации, в значительной степени алгоритмично.

Теперь второй мысленный эксперимент: мы попадаем в темную комнату никакой априорной информации о внутреннем устройстве которой у нас нет. Наша задача – оценить обстановку и начать совершать некоторые осмысленные действия, например, чтобы выбраться из комнаты. Оказывается, что в данном случае, люди поступают не столь единодушно.

Отметим, что различие по сравнению с первым примером состоит в нестандартности ситуации, так что разные люди выбирают различные алгоритмы поведения. Во второй ситуации в наибольшей степени проявляются интеллектуальные качества испытуемых, заключающиеся в способности находить новые нестандартные алгоритмы поведения в новой обстановке.

Таким образом, можно определить интеллект как способность личности или кибернетического устройства находить новые алгоритмы поведения в изменившейся или совершенно новой обстановке при недостатке информации или ее сильной зашумленности.

16

1.1. Основные понятия и определения

Определение интеллекту мы уже дали. Приведем объяснение основный понятий, релевантных теме.

Искусственный интеллект. Иску́сственныйинтелле́кт (ИИ, англ. Artificial intelligence, AI) – наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ. ИИ связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами1.

Поясняя свое определение, Джон Маккарти указывает: «Проблема состоит в том, что пока мы не можем в целом определить, какие вычислительные процедуры мы хотим называть интеллектуальными. Мы понимаем некоторые механизмы интеллекта и не понимаем остальные. Поэтому под интеллектом в пределах этой науки понимается только вычислительная составляющая способности достигать целей в мире».

Другие определения искусственного интеллекта:

Научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования тех видов человеческой деятельности, которые традиционно считаются интеллектуальными.

Свойство интеллектуальных систем выполнять функции (творческие), которые традиционно считаются прерогативой человека2. При этом интеллектуальная система – это техническая или программная система, способная решать задачи, традиционно считающиеся творческими, принадлежащие конкретной предметной области, знания о которой хранятся в памяти такой системы. Структура интеллектуальной системы включает три основных блока – базу знаний, решатель и интеллектуальный интерфейс.

Наука под названием «Искусственный интеллект» входит в комплекс компьютерных наук, а создаваемые на ее основе технологии к информационным технологиям. Задачей этой науки является воссоздание с помощью вычислительных систем и иных искусственных устройств разумных рассуждений и действий3.

Искусственная нейронная сеть (ИНС). Под искусственной ней-

ронной сетью (artificial neural network) будем понимать адекватную в некотором смысле компьютерную модель биологической нейронной сети, отличающуюся от аналога в количественном отношении, но использующую базовые принципы устройства прототипа. В математическом плане

1 What is Artificial Intelligence? FAQ от Джона Маккарти, 2007. Режим доступа. http://ru.wikipedia.org/wiki/Искусственный_интеллект

2Аверкин А. Н., Гаазе-Рапопорт М. Г., Поспелов Д. А. Толковый словарь по искусственному интеллекту. М.: Радио и связь, 1992. 256 с.

3Осипов Г. С. Искусственный интеллект: состояние исследований и взгляд в будущее // Новости искусственного интеллекта. 2001. № 1.

17

ИНС – это набор определенных процедур, хорошо известных в различных областях математики (теория графов, численные методы, методы аппроксимации, методы нелинейного программирования и др.), объединенных с помощью компьютерной программы-оболочки; универсальный аппроксиматор для функций многих переменных.

Аппарат искусственных нейронных сетей (ИНС). Под аппаратом ИНС будем понимать набор известных (и в определенном смысле стандартных!) процедур, известных в математике и математическом моделировании: структурная идентификация объекта при его представлении в виде графов, условные и безусловные численные методы минимизация функций большого числа переменных, аппроксимация и т. д. с возможностью их совместного использования и визуализации результатов в виде сети, являющейся математической моделью биологической нейронной сети.

Образ – воспроизведение объекта, информация о нем или его описание, структурно сходное, но не совпадающее с ним1.

Распознавание образов – раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов, которые характеризуются конечным набором некоторых свойств и признаков. Такие задачи решаются довольно часто, например, при переходе или проезде улицы по сигналам светофора. Распознавание цвета загоревшейся лампы светофора

изнание правил дорожного движения позволяет принять правильное решение о том, можно или нельзя переходить улицу в данный момент.

Создание искусственных систем распознавания образов остается сложной теоретической и технической проблемой. Необходимость в таком распознавании возникает в самых разных областях – от военного дела и систем безопасности до оцифровки всевозможных аналоговых сигналов.

Традиционно задачи распознавания образов включают в круг задач искусственного интеллекта2.

ИНС-модель. Под ИНС-моделью, т. е. моделью, разработанной с помощью аппарата ИНС будем понимать совокупность структуры графа сети, ее настроек, представляющих собой значения весовых коэффициентов

ифункций нейронов, полученных в ходе обучения сети на основе эмпирических данных. По классификации математических моделей3 ИНС-модель обычно является моделью статики, с сосредоточенными параметрами, стационарной, непрерывной, детерминированной.

Обучение с учителем. Под обучением ИНС-модели будем понимать целенаправленный процесс изменения значений весовых коэффициентов, повторяемый до тех пор, пока сеть не приобретет необходимые свойства. В

1http://ru.wikipedia.org/wiki/Образ

2http://ru.wikipedia.org/wiki/Распознавание_образов

3Арзамасцев А. А. Математическое и компьютерное моделирование. Тамбов: Издательский дом ТГУ им. Г. Р. Державина, 2010. 257 с.

18

качестве «учителя» в данном случае обычно используется совокупность имеющихся эмпирических данных. Заметим, что при данном способе обучения обязательно присутствует эксперт – «учитель», который классифицирует эмпирические данные, а значит устанавливает для определенного набора входных параметров выходное значение.

Обучение без учителя. По мере поступления данных с реального объекта и обучения (с учителем) на их базе имеющейся ИНС-модели, последняя, начиная с некоторого момента времени, в достаточной степени обучается и уже сама становится в состоянии классифицировать новую информацию и включать ее в свою базу знаний. При этом новый процесс обучения происходит уже с учетом этой информации без присутствия эксперта – «учителя».

Необходимо отметить, что процессы «обучения с учителем» и «обучения без учителя» в значительной степени схожи с процессом обучения человека (ребенка). Сначала он имеет некоторый небольшой набор шаблонов обученности (врожденные рефлексы) на основании которых эксперт, в качестве которого обычно выступает мать и другие люди, участвующие в его воспитании, сообщают ребенку новую информацию, при этом классифицируя ее. В определенный момент времени обучаемый накапливает значительный объем сведений об окружающем мире, так что эксперты становятся ему не нужны и он сам способен классифицировать поступающую информацию, включать ее в свою «базу знаний» и создавать собственную модель данной области.

Экспертная система. (ЭС, expert system) – компьютерная программа, способная частично заменить специалиста-эксперта в разрешении проблемной ситуации. В информатике экспертные системы рассматриваются совместно с базами знаний как модели поведения экспертов в определенной области знаний с использованием процедур логического вывода и принятия решений, а базы знаний – как совокупность фактов и правил логического вывода в выбранной предметной области деятельности1.

1.2. Области применения ИИ и краткий исторический очерк

Некоторые области применения систем искусственного интел-

лекта: доказательство теорем, игры, распознавание образов, принятие решений, адаптивное управление, сочинение машинной музыки, обработка данных на естественном языке, обучающиеся сети (нейросети), трансляция текстовой информации и др.

Краткий исторический обзор развития работ в области ИИ2. На-

чало исследований в области ИИ (конец 50-х годов) связывают с работами

1http://ru.wikipedia.org/wiki/Экспертная_система

2http://narod.yandex.ru/100.xhtml?deadbeef.narod.ru/work/docs/ai/01.pdf

19

Ньюэлла, Саймана и Шоу, исследовавших процессы решения различных задач. Результатами их работ явились такие программы как «ЛОГИКТЕОРЕТИК», предназначенная для доказательства теорем и «ОБЩИЙ РЕШАТЕЛЬ ЗАДАЧ». Эти работы положили начало первому этапу исследований в области ИИ, связанному с разработкой программ, решающих задачи на основе применения разнообразных эвристических методов.

Эвристический метод решения задачи при этом рассматривался как свойственный человеческому мышлению «вообще», для которого характерно возникновение догадок о пути решения задачи с последующей проверкой их. Ему противопоставлялся используемый в ЭВМ алгоритмический метод, который интерпретировался как механическое осуществление заданной последовательности шагов, детерминированно приводящей к правильному ответу. Трактовка эвристических методов решения задач как сугубо человеческой деятельности и обусловила появление и дальнейшее распространение термина ИИ. Примерно в то время, когда работы Ньюэлла и Саймона стали привлекать к себе внимание, в Массачусетсском технологическом институте, Стэнфордском университете и Стэнфордском исследовательском институте также сформировались исследовательские группы в области ИИ.

История: «романтический период» ИИ → серьезные научные исследования → практические задачи.

50-е60-е гг. ХХ века – «романтический период» ИИ: «машинные стихи», «машинная музыка», машинный перевод, интеллектуальные игры (шашки, шахматы и др.);

60-е70-е гг. ХХ века – исследование методов решения задач (методов поиска решения);

70-е80-е гг. ХХ века – исследование методов представления знаний нужных для решения задач;

80-е90-е гг. ХХ века – исследование методов приобретения знаний (передачи их от человека ЭВМ);

90-е гг. ХХ века – наше время – теоретическое осмысление, поиск новых идей и задач.

К постоянным проблемам ИИ можно отнести: начальный уровень «знаний» системы ИИ, проблема ее обучения человеком и ее самообучения. Общение человека с системой ИИ (языки общения, программноаппаратные средства). Инструментальные средства – языки программирования для задач ИИ.

Типы систем ИИ (в историческом аспекте): решатели задач, роботы, экспертные системы, агенты. Так структура традиционной системы ИИ приведена на рис. 1.1, в соответствии с которым ЭС состоит из следующих основных компонентов: решателя (интерпретатора); рабочей памяти (РП), называемой также базой данных (БД); базы знаний (БЗ); компонентов приобретения знаний; объяснительного компонента; диалогового компонента. Взаимодействие этих элементов будет рассмотрено в разделе 2.4.2.

20

Рис. 1.1. Структурная схема экспертной системы

Современные направления развития искусственного интеллек-

та1.

Представление знаний и моделирование рассуждений. Представ-

ление знаний (knowledge representation) – одно из наиболее сформировавшихся направлений искусственного интеллекта. Традиционно к нему относилась разработка формальных языков и программных средств для отображения и описания когнитивных структур. Различные способы представления знаний лежат в основе моделирования рассуждений, куда входят: моделирование рассуждений на основе прецедентов (case-based reasoning, CBR), аргументации или ограничений; моделирование рассуждений с неопределенностью, рассуждения о действиях и изменениях, немонотонные модели рассуждений и др.

Приобретение знаний, машинное обучение и автоматическое по-

рождение гипотез. Работы в области приобретения знаний интеллектуальными системами были и остаются важнейшим направлением теории и практики ИИ. Целью этих работ является создание методологий, технологий и программных средств переноса знаний (или, как иногда говорят, компетентности) в базу знаний системы. При этом в качестве источников зна-

1 http://www.raai.org/about/persons/osipov/pages/ai/ai.html

21

ний выступают эксперты (высококвалифицированные специалисты предметных областей), тексты и данные, например хранимые в базах данных.

Интеллектуальный анализ данных и обработка образной ин-

формации. Это сравнительно новое направление, основу которого составляют две процедуры: обнаружение закономерностей в исходной информации и использование обнаруженных закономерностей для предсказания (прогнозирования). Сюда относят задачи выбора информативных данных из большой их совокупности, выбора информативных характеристик некоторого объекта из более широкого множества его характеристик, задачи построения модели, позволяющие вычислять значения выбранных информативных характеристик по значениям других характеристик, и т. п. Значительную часть этого направления составляют исследования различных аспектов распознавания изображений, в частности с помощью нейросетей.

Многоагентные системы, динамические интеллектуальные сис-

темы и планирование. Это направление, изучающее интеллектуальные программные агенты и их коллективы. Интеллектуальный агент – это программная система, обладающая: автономностью – агенты действуют без непосредственного участия человека и могут в некоторых пределах сами управлять своими действиями; социальными чертами – агенты взаимодействуют с другими агентами (и, возможно, человеком) посредством некоторого языка коммуникации; реактивностью – агенты воспринимают окружающую среду, которая может быть физическим миром, множеством других агентов, сетью Internet или комбинацией всего этого, и реагируют на ее изменения; активностью – агенты могут демонстрировать целенаправленное поведение, проявляя при этом инициативу.

Обработка естественного языка, пользовательский интерфейс и модели пользователя. Это направление связано с разработкой систем поддержки речевого общения; решением проблем уточнения запроса в информационных системах; задачами сегментации текстов по тематике, задачами управления диалогом; задачами анализа естественного языка с использованием различных эвристик.

Нечеткие модели и мягкие вычисления. Это направление пред-

ставлено нечеткими схемами «вывода по аналогии», взглядом на теорию нечетких мер с вероятностных позиций, нечеткими аналитическими моделями геометрических объектов, алгоритмами эволюционного моделирования с динамическими параметрами, такими как время жизни и размер популяции, методами решения оптимизационных задач с использованием технологий генетического поиска, гомеостатических и синергетических принципов и элементов самоорганизации.

Современные направления развития искусственного интеллекта

вРоссии.

1.Искусственные нейронные сети (проф. Горбань А. Н., Вычисли-

тельный центр СО РАН, г. Красноярск) – ядром используемых представле-

22

ний является идея о том, что нейроны можно моделировать простыми автоматами, а вся сложность мозга, гибкость его функционирования и другие важнейшие качества определяются связями между нейронами. Реальный выход – программы, моделирующие ИНС для обыкновенных компьютеров.

2.Нейрокомпьютеры и их применение (проф. А. И. Галушкин,

МФТИ, Институт проблем управления им. В. А. Трапезникова РАН, Москва) – разработка нейрокомпьютеров, как специализированных устройств, использующих принципы процессирования информации, заимствованные из биологических прототипов. Реальный выход – специализированные нейрокомпьютеры.

3.Программирование систем представления знаний (Факультет вычислительной математики и кибернетики МГУ. Изучаются языки LISP, PROLOG на основе которых создаются программы представления знаний).

4.Экспертные системы. Специальные программы, которые используют различные формы представления знаний в конкретных предметных областях. В основном здесь сосредоточены инженерные разработки.

Все сказанное выше означает, что искусственный интеллект – экспериментальная наука: создавая те или иные компьютерные представления и модели, исследователь сравнивает их поведение между собой и с примерами решения тех же задач специалистом, модифицирует их на основе этого сравнения, пытаясь добиться лучшего соответствия результатов.

Чтобы модификация программ улучшала результаты, надо иметь разумные исходные представления и модели. Их доставляют психологические исследования сознания, в частности когнитивная психология.

Важно, что методы искусственного интеллекта имеют дело только с теми механизмами компетентности, которые носят вербальный характер (допускают символьное представление). Далеко не все механизмы, используемые человеком для решения задач, таковы.

1.3.Что привело к разработке ИНС?

В этом разделе дано краткое описание аппарата искусственных нейронных сетей. Мы не ставили целью дать исчерпывающее описание этого достаточно эффективного инструмента, пригодного для моделирования не только в психологии, но и в естественных науках, медицине, экономике, исследовании социальных процессов и т. д. По этой проблеме, начиная с 1949 года, когда Д. Хэбб продемонстрировал, что сеть нейронов может обучаться, имеется большое количество работ. Кроме того, такие известные программные продукты, как MatLab и Statistica имеют встроенные пакеты для работы с нейронными сетями. Мы ограничимся в этой небольшой книге лишь краткими сведениями об аппарате ИНС и его возможностях.

На сегодняшний день современные компьютеры значительно превосходят человека по способности выполнять числовые операции. Однако

23

человек достаточно просто и быстро может решать такие сложные задачи восприятия внешних данных как, например, узнавание в толпе, понимание речи различных людей, опытный врач может быстро поставить диагноз болезни по внешнему виду больного человека. Со всеми этими задачами даже современному суперкомпьютеру справиться очень сложно. В чем же причина таких значительных различий? Трудности возникают при моделировании объектов, представляющих собой функции многих переменных. Но ведь человек умеет моделировать предметную область, где имеются такие функции!

Способность к моделированию является естественной потребностью человека, поскольку, он постоянно пользуется ей в повседневной жизни для решения различных задач. Способность к моделированию предметной области человек использует для прогнозирования различных событий, процессов и явлений. Инструментом моделирования у человека является биологическая нейронная сеть, архитектура которой совершенно не похожа на архитектуру компьютера.

Поэтому было естественно создать некую модель, аналогичную биологической нейронной сети на компьютере. Такое направление в науке, использующее аналогии с природными объектами, называют бионикой.

В настоящее время, с появлением искусственных нейронных сетей исследователи получили в распоряжение инструмент, способный к самообучению на основе поступающих данных, позволяющий осуществлять моделирование в условиях неполной, зашумленной информации, позволяющий прогнозировать и производить расчеты.

Основные идеи аппарата ИНС как инструмента заключаются в следующем:

являясь моделью нейронных сетей человека, ИНС способны к обучению на основе поступающей информации; они также способны обучаться в условиях неполной, сильно зашумленной информации, что является очень важным свойством для распознавания образов в реальном мире;

поскольку каждый элемент ИНС является относительно простым, использование их в качестве аппарата не ассоциируется у пользователя со сложными математическими методами, что бывает удобно во многих случаях, например, когда пользователь является специалистом в гуманитарной области;

при изучении объекта, структура которого изначально неясна, возможно создавать структуры с большим количеством нейронов, связей и т. д.; несущественные элементы в дальнейшем могут быть легко удалены, если абсолютные значения весовых коэффициентов не превышают некоторого порогового уровня; указанное свойство позволяет осуществлять структурную идентификацию объекта, используя лишь входные и выходные значения;

24

– после обучения сети возможно наблюдать всю структуру связей и передаточные функции отдельных каналов, что при необходимости можно использовать для параметрической идентификации объекта;

В настоящее время ведется поиск приложения аппарата ИНС в самых различных дисциплинах.

1.4. Мозг человека – прототип ИНС

Структура ИНС была спроектирована на основе результатов изучения принципов функционирования человеческого мозга. Несмотря на то, что на самом деле сходство между ними не очень значительное, даже довольно грубая аналогия дает очевидный эффект. Так, ИНС имеют способность обучаться на опыте, делать обобщения, совершать ошибки, то есть те свойства, которые присущи человеческому мозгу. В связи с этим, важную часть в теории ИНС занимают вопросы изучения работы биологических нервных клеток и сетей. Необходимо иметь математическую модель, которая адекватно описывала бы информационные процессы в биологическом нейроне. Для этого нужно знать как он устроен и работает, а также какие свойства нейрона важны при моделировании, а какие – нет. Должны быть известны ответы на вопросы о том, как передается информация между нейронами через синапсы, как меняется проводимость синапса в зависимости от проходящих по нему сигналов, а также по каким законам нейроны связаны друг с другом. Необходимо понять – как биологические нейронные сети обучаются решать различные задачи, каким образом выбираются параметры сети, чтобы давать правильные выходные сигналы и какой выходной сигнал считается «правильным».

Биологические нейронные сети в ходе своего функционирования не используют сложные математические вычисления, однако, по своим возможностям часто превосходят математические и компьютерные модели. Мощь биологических нейронных сетей демонстрирует тот объем входных «изображений», которые они обрабатывают в режиме реального времени. Ведь мозг получает информацию из очень многих источников: от органов зрения и слуха, а также от миллионов рецепторов, расположенных по всему организму. Их сигналы мозг обрабатывает, выдавая на «выходе» импульс к какому-либо действию. Ни один компьютер на сегодняшний день не способен сравниться с человеческим мозгом по скорости обработки информации.

Наиболее важными свойствами биологических нейронных сетей являются.

1.Параллельность обработки информации.

2.Способность к классификации, обобщению, абстрагированию, ассоциативность (возможность восстановления сетью полного образа по его

25

частям). Все известные человеку задачи решаются нейронными сетями, что говорит об их способности к обработке информации.

3.Способность к самоорганизации. В течение жизни биологические нейронные сети самостоятельно обучаются решению разнообразных задач под воздействием внешних воздействий. В нервной системе формируются необходимые алгоритмы деятельности, которые в дальнейшем уточняются

иусложняются. Среди систем, созданных человеком до сих пор нет способных к самоорганизации и самоусложнению. Исключением являются лишь компьютерные программы.

4.Биологические нейронные сети являются аналоговыми системами. Информация поступает в сеть по большому количеству каналов и кодируется по пространственному принципу: вид информации определяется номером нервного волокна, по которому она передается. Амплитуда входного воздействия кодируется плотностью нервных импульсов, передаваемых по волокну.

5.Биологические нейронные сети обладают высокой надежностью. Об этом свидетельствует тот факт, что выход из строя даже около 10 % нейронов не прерывает работы нервной системы. В то время как сбой одной ячейки памяти или одного узла в аппаратуре компьютера, основанного на принципах фон-Неймана, приведут к выводу из строя всей системы.

Исследователи полагают, что для создания искусственного интеллекта необходимо создать систему, подобную мозгу человека. Элементом

структуры мозга является нервная клетка – нейрон. Мозг состоит из очень большого числа (приблизительно около 1011) нейронов, соединенных между собой многочисленными связями. Нейроны способны распространять сигналы, имеющие электрохимическую природу. Они выполняют прием, преобразование и дальнейшую передачу информации другим нейронам. Каждый нейрон содержит ядро и множество ветвящихся отростков двух типов.

Отростки первого типа – дендриты служат в качестве входных каналов для нервных импульсов от других нейронов, то есть представляют собой разветвленную структуру ввода информации. От тела нейрона дендриты идут к другим нейронам, принимая сигналы в точках соединения, называемых синапсами. Отросток второго типа называется аксоном и представляет собой разветвляющийся выход. Длина аксонов обычно заметно превосходит размеры дендритов. Аксоны клетки соединяются с дендритами других клеток с помощью синапсов. В области синапса происходит обмен информацией о возбуждении между нейронами.

В механизме синаптической передачи импульсов участвуют специфические химические вещества – нейромедиаторы, которые вызывают изменения проницаемости локального участка мембраны клетки. Некоторые виды медиаторов обладают возбуждающим действием – стремятся вызвать возбуждение клетки и выработать выходной импульс, другие являются

26

тормозящими и стремятся подавить такой импульс. В теле клетки происходит суммирование сигналов, полученных от дендритов. В том случае, если их результирующий сигнал выше определенного уровня (порога активации), нейрон активируется и вырабатывает импульс, проходящий по аксону к другим нейронам, которые тоже могут в свою очередь активироваться. Интенсивность сигнала, получаемого нейроном, сильно зависит от активности синапсов.

Несмотря на то, что мозг построен из большого числа таких достаточно простых элементов, он способен решать очень сложные задачи. Безусловно, устройство мозга на самом деле намного сложнее и его большая часть остается до сих пор неизученной. Однако искусственные нейронные сети, структура которых была смоделирована по некоторому подобию человеческого мозга, способны достигать замечательных результатов, используя модель, которая ненамного сложнее, чем описанная выше.

1.5. Формальный аппарат искусственных нейронных сетей

Искусственные нейронные сети очень разнообразны по своим конфигурациям. Но, несмотря на существенные различия, многие из них обладают некоторыми общими чертами.

Искусственный нейрон. Каждая ИНС состоит из однотипных элементов, имитирующих работу нейронов мозга. Искусственный нейрон характеризуется своим текущим состоянием по аналогии с нервными клетками головного мозга, которые могут быть возбуждены или заторможены. Он имеет несколько входов (дендриты) и один выход (аксон). Также он обладает группой синапсов – однонаправленных входных связей, соединенных с выходами других нейронов. По аксону сигнал (возбуждения или торможения) поступает на синапсы следующих нейронов. Схематическое изображение искусственного нейрона приведено на рис. 1.2.

Каждому входу ставится в соответствие некоторый весовой коэффициент (w), характеризующий величину синаптической связи и оценивающий степень влияния сигнала с этого входа на сигнал на выходе.

На входы такого искусственного нейрона поступает множество сигналов от выходов других нейронов. Уровень активации нейрона (его текущее состояние) определяется взвешенным суммированием входных сигналов, т. е. каждый входной сигнал x1, x2, …, xn умножается на соответствующий вес w1, w2, …, wn, аналогичный синаптической силе:

n

 

S = xi wi

(1.1)

i=1

Далее сигнал S преобразуется активационной функцией f и дает сигнал y, являющийся выходом нейрона:

27

y = f(S)

(1.2)

Рис. 1.2. Модель формального нейрона

здесь, x – вектор входных сигналов нейрона; это могут быть сигналы, поступающие с объекта или с выходов других нейронов; w – весовые коэффициенты, (коэффициенты синаптических связей), сеть нейронов обучается за счет выбора этих коэффициентов; S – ненаблюдаемая извне величина, представляющая собой результат суммирования входных воздействий; y – выход нейрона.

Активационная функция может иметь различный вид. Наиболее часто для этой цели используются: линейная, пороговая функции, гипперболический тангенс и нелинейная функция с насыщением, которую часто называют логистической функцией или сигмоидом, которая математически выражается как:

Рис. 1.3. Различные виды активационных функций нейронов ИНС: a) – линейная, d) – параболическая второй степени, g) – параболическая третьей степени, f) – ступенчатая функция, b), c), e), h) – различные виды сигмоидных функций.

28

y =

1

(1.3)

1+eS

Сигмоидальная функция дифференцируема на всей оси абсцисс, что используется в некоторых алгоритмах обучения. Центральная область этой функции имеет большой коэффициент усиления и поэтому позволяет решить проблему обработки слабых сигналов, в то время как области с падающим усилением на левом и правом краях подходят для больших возбуждений. В результате этого искусственный нейрон функционирует с большим усилением в широком диапазоне уровня входного сигнала.

Некоторые часто используемые функции нейрона представлены на рис. 1.3.

Гиперболический тангенс также часто используется в качестве активационной функции. В отличие от сигмоидальной функции, она принимает значения различных знаков, что оказывается выгодным для ряда сетей. Биологи часто используют эту функцию в качестве математической модели активации нервной клетки. Для усиления эффективности нейронных вычислений искусственные нейроны соединяют между собой в сеть. Сети могут быть однослойные и многослойные.

Однослойные ИНС (рис. 1.4). Однослойная сеть состоит из группы нейронов, представляющих собой слой. Каждый входной элемент отдельным весом соединен с каждым искусственным нейроном, вычисляющим взвешенную сумму входов. Соединения между нейронами, входами и выходами в сети могут быть самыми различными.

На n входов поступают сигналы, проходящие по синапсам на k нейронов (рис 1.4). Текущее состояние каждого нейрона определяется формулой:

n

 

S j =xi wi j , j=1…m

(1.4.)

i=1

29

Рис. 1.4. Однослойный персептрон

Выходами этой нейронной сети будут значения:

 

 

n

 

 

 

y j =

f

xi wi j

 

, j=1…m

(1.5)

 

 

i=1

 

 

 

Если весовые коэффициенты синапсов одного слоя нейронов свести в матрицу W, состоящую из n строк и m столбцов и элементы wij которой задают величину синаптической связи i-го входа с j-ым нейроном, то процесс, происходящий в нейронной сети, можно записать в матричной форме:

Y = F(X,W)

(1.6)

где X – входной вектор, Y – выходной вектор.

Многослойные ИНС. Многослойные сети обладают большими возможностями, чем однослойные. Несмотря на то, что созданы сети самых различных конфигураций, послойная организация нейронов является аналогом слоистых структур определенных отделов мозга. Выход одного слоя является входом для последующего слоя нейронной сети (рис. 1.5).

Рис. 1.5. Многослойный (двухслойный) персептрон

Необходимо отметить, что важную роль здесь играет нелинейность активационной функции, что является необходимым условием для увеличения гибкости многослойной сети по сравнению с однослойной.

Среди разнообразных структур ИНС можно выделить две основные архитектуры – слоистые и полносвязные сети.

В слоистых сетях нейроны расположены в несколько слоев. Нейроны первого слоя получают входные сигналы, преобразуют их и передают нейронам второго слоя. Далее срабатывает второй слой, третий и т. д. до последнего слоя, который выдает выходные сигналы. Каждый выходной сигнал предыдущего слоя подается на вход всех нейронов последующего.

30

Число нейронов в каждом слое может быть произвольным. В полносвязных сетях каждый нейрон передает свой выходной сигнал остальным нейронам, включая самого себя. Выходными сигналами могут быть все или некоторые выходные сигналы нейронов после нескольких тактов функционирования сети. Все входные сигналы подаются всем нейронам.

ИНС могут быть бинарные и аналоговые. В бинарных сетях, оперирующих с двоичными сигналами, выход каждого нейрона может принимать только два значения: логический ноль («заторможенное» состояние) и логическая единица («возбужденное» состояние). В аналоговых сетях выходные значения нейронов способны принимать непрерывные значения.

Активационная функция может быть одной и той же для всех нейронов сети. В этом случае сеть называют однородной (гомогенной). Если же она зависит еще других параметров, значения которых меняются от нейрона к нейрону, то сеть называют неоднородной (гетерогенной).

Для каждой конкретной задачи выбор структуры ИНС осуществляется в соответствии с ее особенностями и сложностью. В настоящее время для решения некоторых типов задач уже разработаны оптимальные конфигурации. Для решения задачи неизвестного типа исследователю приходится разрабатывать новую конфигурацию сети. При этом он может варьировать функцией нейрона, количеством слоев и связей сети, использовать различные алгоритмы обучения. Проблема поиска структуры нейронной сети зависит от конкретной задачи. Часто оптимальный вариант получается на основе интуитивного подбора. Проблема выбора и модификации структуры сети будет рассмотрена в следующих разделах.

1.6. Обучение ИНС

Наиболее интересным и важным свойством ИНС является их способность к обучению, напоминающая процесс развития интеллекта биологических объектов.

Современные компьютеры значительно превосходят человека по способности выполнять числовые операции. Однако человек достаточно просто и быстро может решать такие сложные задачи восприятия внешних данных как, например, узнавание в толпе, понимание речи. Опытный врач может быстро поставить диагноз болезни по внешнему виду больного человека. Со всеми этими задачами даже современному суперкомпьютеру справиться очень сложно. Все это происходит как бы «автоматически» благодаря тому, что биологическая нейронная сеть обучается на примерах, на опыте. В дальнейшем она начинает обладать способностью к моделированию предметной области и, поэтому, может решать задачи, которым не была обучена ранее.

Обучение позволяет сети «запомнить» образы, предъявляемые на ее вход. Заключается оно в том, что сети «предъявляют» некоторые множест-

31

ва входов и выходов. При этом осуществляется подстройка весовых коэффициентов в соответствии с определенной процедурой. В процессе обучения сети весовые коэффициенты постепенно становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор.

Существующие приемы обучения нейронных сетей могут быть в широком смысле классифицированы на «алгоритмы обучения с учителем» и «алгоритмы обучения без учителя».

Обучение с учителем. В этом случае сети предъявляются значения как входных, так и выходных сигналов, в соответствии с которыми она по некоторому внутреннему алгоритму подстраивает веса своих синаптических связей. Для каждого входного вектора существует парный ему целевой вектор, задающий требуемый выход. Вместе они называются обучающей парой. Обычно сеть обучается на многих парах. Некоторое множество таких обучающих пар называется обучающей выборкой. Механизм обучения сети в этом случае выглядит следующим образом: предъявляется входной вектор, вычисляется выход сети и сравнивается с соответствующим целевым вектором, при этом разность (ошибка) с помощью обратной связи подается в сеть. Весовые коэффициенты изменяются в соответствии с некоторым алгоритмом, стремящимся минимизировать ошибку. При последовательном предъявлении векторов обучающей выборки вычисляются ошибки, и весовые коэффициенты подстраиваются для каждого вектора до тех пор, пока ошибка по всему обучающему массиву не достигнет приемлемо низкого уровня.

Обучение без учителя. В случае обучения без учителя выходы нейронной сети формируются самостоятельно, а весовые коэффициенты изменяются по алгоритму, учитывающему только входные и производные от них сигналы. Обучающая выборка состоит только из входных векторов. В данном случае алгоритм обучения подстраивает веса сети так, чтобы получались согласованные выходные векторы, то есть, чтобы предъявление достаточно близких входных векторов давало одинаковые выходы. В процессе обучения выделяются статистические свойства обучающей выборки, сходные векторы группируются в классы. Получая на входе вектор из данного класса, сеть даст определенный вектор на выходе. Однако до обучения невозможно предугадать каков будет результат функционирования сети на выходе для данного класса входных векторов. Полученные выходы подобной сети должны преобразоваться в некоторую понятную форму, обусловленную процессом обучения. Определить связь между входом и выходом, установленную нейронной сетью, обычно бывает не сложно. Считают, что обучение без учителя является более близкой моделью обучения в биологической системе, чем обучение с учителем.

У каждого из этих способов обучения есть свои достоинства и недостатки. Преимущество первого состоит в том, что на выходе мы будем получать то, на что и обучали сеть, так как при обучении без учителя сеть за-

32

поминает образы и дает им «свою» классификацию. С другой стороны, второй способ позволяет сети запоминать новые образы, а не только те, на которые она была обучена в начале.

Зададим себе следующий вопрос: от чего зависит число входов, выходов, скрытых слоев и нейронов в скрытых слоях ИНС?

Очевидно, что число входов сети должно быть равно количеству входов объекта, а число выходов также должно быть равно количеству выходов объекта.

Структуру ИНС – число скрытых слоев и количество нейронов в скрытом слое будем выбирать в процессе настройки сети (об этом расскажем в одном из следующих разделов).

Активационные функции нейронов и весовые коэффициенты будем выбирать с использованием одного из методов минимизации функции, представляющей собой ошибку сети: безградиентных, градиентных, случайного поиска и т. д. Данные методы обычно изучаются в курсе «Методы оптимизации».

Например, задача обучения (с учителем) ИНС, моделирующей объект, показанный на рис. 1.6 может быть сформулирована следующим образом.

Рис. 1.6. Схема моделируемого объекта

Разработка ИНС-модели начинается с накопления эмпирической информации о входных и выходных значениях объекта. Такая информация обычно может быть представлена в табличном виде (табл. 1.1).

Таблица 1.1

Эмпирические данные наблюдений за объектом

X1

X2

Xn

Y1

Y2

Yk

1

X11

X21

 

Xn1

Y11

Y21

 

Yk1

2

X12

X22

 

Xn2

Y12

Y22

 

Yk2

M

M

M

 

M

M

M

 

M

p

X1p

X2p

 

Xnp

Y1p

Y2p

 

Ykp

Для того, чтобы ИНС-модель была способна к генерализации эмпирических данных число строк в обучающей выборке – p в общем случае

33

должно быть больше, чем число степеней свободы искусственной нейронной сети. Отметим, что для гомогенной ИНС с фиксированной структурой связей число степеней свободы равно числу независимых весовых коэффициентов. Для гетерогенной сети число степеней свободы равно числу независимых весовых коэффициентов плюс число нейронов для которых в процессе обучения ИНС-модели выбираются функции активации.

Таким образом, количество строк эмпирических данных об объекте в табл. 1.1 должно быть достаточно большим. Поскольку в процессе обучения ИНС-модели структура искусственной нейронной сети часто не задана изначально, в процессе обучения приходится пополнять таблицу эмпирических данных новыми записями.

Обозначим через F(w) – функцию невязки, зависящую от вектора весовых коэффициентов w, и представляющую собой расстояние между век-

торами выходных координат объекта, содержащихся в обучающей выборке Ytabl и полученных по ИНС-модели – Ynet:

F(w)=

 

 

 

 

 

 

 

=

 

 

 

Ytabl Ynet (w)

 

 

 

=

p k

(Y tabl Y net (w))2

min

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑∑ ij

ij

w

(1.7)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1 i=1

 

 

 

 

Под обучением ИНС будем понимать процесс минимизации невязки (1.7) за счет выбора значений вектора w. Сеть со значениями компонент вектора w*=(w*1, w*2,…,w*m), при которых достигается минимум невязки (1.7), будем называть обученной. Значение F(w*), полученное при таких значениях компонент вектора w, численно характеризует несоответствие обучающей выборки и ИНС-модели.

Таким образом, задача обучения ИНС может быть сформулирована как задача нахождения минимума функции многих переменных. Поскольку в искусственной нейронной сети каждый нейрон имеет нелинейный элемент, такая задача является задачей нелинейного программирования.

Если после обучения сети величина невязки равна нулю – это значит, что сеть обучилась абсолютно точно.

Причинами того, что невязка F(w*) не равна нулю могут быть:

погрешность эмпирических данных обучающей выборки или их противоречивость; такая погрешность является непреодолимой на этапе предварительной подготовки данных;

неверно выбрана структура ИНС; это можно преодолеть путем выбора новой структуры, например, с большим числом нейронов в слое и большим числом скрытых слоев;

метод минимизации невязки (1.7) «зашел» в локальный минимум; можно попробовать выбраться из него или совершить «спуск» из другой начальной точки.

34

Алгоритм обратного распространения ошибки (error back propagation)1 . Этот алгоритм наиболее часто используется для обучения ИНС. Алгоритм обратного распространения ошибки определяет стратегию подбора весов (коэффициентов синаптических связей) многослойной сети с применением градиентных методов оптимизации. Основу его составляет целевая функция:

E(w) = 12

M

 

( yk dk )2

(1.8)

 

k =1

 

где y – фактические данные в обучающей выборке; d – выходные сигналы сети, соответствующие вектору x. При большом количестве обучающих выборок j (j= 1,2,…,p) формула (1.8) приобретает следующий вид:

 

1

p

M

 

E(w) =

∑ ∑( yk( j) dk( j) )2

(1.9)

2

 

j=1

k =1

 

 

 

 

Уточнение весов может производиться после предъявления каждой обучающей выборки, либо однократно, после предъявления всех выборок, составляющий цикл обучения, который иногда называется эпохой.

Считается, что наиболее эффективным способом обучения сети оказываются градиентные методы, согласно которым уточнение весов производится по формуле:

w(k +1) = w(k) +

w,

(1.10)

w = ηp(w)

 

 

 

где η – коэффициент обучения, p(w) – направление в многомерном пространстве w.

Стратегия обратного распространения ошибки:

1. Анализ сети в прямом направлении передачи информации при использовании вектора x. При этом вектор w задают каким-либо образом (например, используя генератор случайных чисел). Рассчитываются все сигналы сети, а также соответствующие производные функций активации каждого слоя:

df (ui(1) )

,

df (ui(2) )

,...,

df (ui(m) )

(1.11)

du(1)

 

du(2)

 

du(m)

 

i

 

i

 

i

 

где m – количество слоев сети.

2. Создание сети обратного распространения ошибок путем изменения направлений передачи сигналов, замена функций активации их производными и подача на выход сети возбуждения в виде разности между фактическим и ожидаемым значением.

1 Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. 344 с.

35

3. Уточнение весов (обучение сети) производится по следующим правилам (рис. 1.7):

Рис. 1.7. Уточнение весовых коэффициентов

4. Обратный процесс следует повторить для всех обучающих выборок, продолжая его вплоть до выполнения условия остановки алгоритма. Действие алгоритма завершается в момент, когда норма градиента упадет ниже априори заданного значения ε, характеризующего точность процесса обучения.

Для минимизации ошибок (функций невязки) часто используют различные методы нелинейного программирования. Иллюстрация работы некоторых таких алгоритмов показана на рис. 1.8–1.10.

Рис. 1.8. Обучение ИНС. Иллюстрация простого градиентного метода поиска минимума функции невязки F

36

Рис. 1.9. Обучение ИНС. Иллюстрация метода покоординатного спуска

Рис. 1.10. Обучение ИНС. Иллюстрация метода Монте-Карло

1.7. Существующие структуры ИНС

Обычно для решения практических задач рассматриваются следующие структуры ИНС – многослойный персептрон (рис. 1.11), сеть каскадной корреляции Фальмана (рис. 1.12–1.15) и сеть Вольтерри (рис. 1.16). Выбор данных структур обусловлен их широким использованием в задачах аппроксимации и прогнозирования.

Многослойный персептрон – это полносвязная сеть прямого распространения. Такая структура содержит входной, выходной и несколько скрытых слоев. Количество нейронов на слоях может быть произвольным. Поскольку сеть является полносвязной, то каждый нейрон i-го слоя соединен с каждым нейроном (i +1)-го слоя. Данные структуры являются наиболее распространенными, что обуславливается их универсальностью.

37

На рис. 1.11 x обозначает вектор входных, а y – вектор выходных данных. Данная сеть имеет N L слоев, среди которых слой с индексом 0 является входным, с индексом NL 1 – выходным, а слои с 1 по NL 2 – скры-

тыми. Каждый i-ый скрытый слой содержит ˆ нейронов. Количество ней-

Ni

ронов на входном слое обозначено L , а на выходном – P .

Рис. 1.11. Многослойный персептрон

Сеть каскадной корреляции Фальмана – это специализированная многослойная нейронная конструкция, в которой подбор структуры сети происходит параллельно с ее обучением путем добавления на каждом этапе обучения одного скрытого нейрона. Таким образом, определение структуры сети и реализацию алгоритма обучения можно трактовать как подбор оптимальной архитектуры. Архитектура сети каскадной корреляции представляет собой объединение нейронов взвешенными связями в виде развивающегося каскада. Каждый очередной добавляемый нейрон подключается к входным узлам и ко всем уже существующим скрытым нейронам сети. Выходы всех скрытых нейронов и входные узлы сети напрямую подключаются также и к выходным нейронам.

Процесс обучения сети начинается до ввода в нее скрытых нейронов. Значения весовых коэффициентов подбираются таким образом, чтобы минимизировать значение некоторой целевой функции.

38

Рис. 1.12. Сеть каскадной корреляции Фальмана без скрытых нейронов

Рис. 1.13. Сеть каскадной корреляции Фальмана c одним скрытым нейроном

Рис 1.14. Сеть каскадной корреляции Фальмана c двумя скрытыми нейронами

39

Рис 1.15. Сеть каскадной корреляции Фальмана c несколькими скрытыми нейронами

Если результат функционирования сети считается удовлетворительным с точки зрения ожидаемой или допустимой погрешности, процесс обучения и формирования структуры сети завершается. В противном случае следует расширить структуру сети добавлением одного скрытого нейрона. Для этого применяется специальная процедура, при выполнении которой вначале формируются и фиксируются входные веса нового нейрона, после чего он вводится в существующую сетевую структуру и его выход подключается ко всем выходным нейронам посредством связей с соответствующими весами. После подключения очередного скрытого нейрона происходит уточнение весов нейронов. Если полученный результат признается удовлетворительным, обучение завершается. В противном случае процедура включения в сеть очередного скрытого нейрона повторяется вплоть до достижения желаемого результата обучения.

Сеть Вольтерри – это динамическая сеть для нелинейной обработки последовательности сигналов, задержанных относительно друг друга. Воз-

буждением для сети в момент l служит

вектор

x = xι,xι1 ,xι2 ,..,xιl

t

,

где lt – количество единичных задержек,

 

 

 

а lt +1

означает размерность

вектора. В соответствии с определением ряда Вольтерри выходной сигнал генерируется по следующей формуле:

40

 

 

 

tt

 

 

 

 

 

 

 

 

lt

 

lt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y(ι) = (wi1 x(ιi1 )) +

 

 

 

 

 

wi i

x(ιi1 )x(ιi2 )

 

 

 

 

 

i =1

 

 

 

 

 

 

 

 

 

 

 

1, 2

 

 

 

 

 

 

 

 

 

 

 

 

 

i =1

i =1

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

(1.12)

l

t

 

l

t

 

l

t

l

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+

...

wi i ..,i

K

x(ιi1 )x(ιi2 )...x(ιiK )

 

 

 

 

 

 

 

 

 

 

 

 

=1

 

1, 2,

 

 

 

 

 

 

 

i =1 i =1 i =1 i

K

 

 

 

 

 

 

 

 

 

1

 

 

2

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

где x обозначает входной сигнал,

а веса w ,

wi ,

.., wi, j,..,K и т. д., называемые

ядрами Вольтерри, соответствуют реакциям высших порядков. Порядок этого полинома также называют степенью ряда Вольтерри.

Рис. 16. Сеть Вольтерри

Различные точки зрения на вопрос: «что такое искусственные нейронные сети?».

Сточки зрения специалиста по компьютерному моделированию:

ИНС – это адекватная в некотором смысле модель биологических нейронных сетей (биологического разума), сильно отличающаяся от аналога в количественном отношении, но позволяющая проделать большое число интересных опытов (например, наши лабораторные работы).

Сточки зрения математика: ИНС – это набор определенных процедур, хорошо известных в различных областях математики (теория графов, численные методы, методы аппроксимации, методы нелинейного программирования и др.), объединенных «под одной крышей» с помощью компьютерной программы; некий универсальный аппроксиматор для функций многих переменных, мало отличающийся от известных методов аппроксимации и методов математической статистики.

41

Сточки зрения пользователя – это некоторое устройство (device) с

малопонятным содержимым внутри (некий черный ящик), но умеющее обучаться на основе эмпирических данных.

Сточки зрения программиста – это некоторая программа, которую так до конца и неясно, как программировать, и многие аспекты работы которой будут ясны лишь после ее запуска.

Сточки зрения биолога: ИНС – это не слишком удачный «протез» биологического разума, лишенный многих необходимых деталей, без которых он хорошо работать никогда не будет.

Сточки зрения обыкновенных студента и преподавателя: ИНС – это просто набор кружочков и палочек, каждая из которых наделена определенными свойствами; такая система почему то может обучаться, но пока еще не обучилась ничему хорошему!

Ученые, внесшие наиболее существенный вклад в развитие ИНС. 1943 – пионерская работа МакКаллока и Питтса «Логическое исчисление идей, относящихся к нервной деятельности». Оригинал:

McCulloch W.S. & Pitts W. A logical calculus of ideas immanent in nervous activity. Bull. Mathematical Biophysics, Vol. 5, 1943, pp. 115-133.

1956, 1957 – идеи А.Н. Колмогорова о возможности представления функций нескольких переменных функциями одного переменного. Ориги-

налы: Колмогоров А.Н. О представлении непрерывных функций нескольких переменных суперпозициями непрерывных функций меньшего числа переменных. Докл. АН СССР, 1956. Т. 108, № 2, С. 179-182. Колмогоров А.Н. О представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного. Докл. АН СССР, 1957.

Т. 114, № 5, С. 953-956.

1962 – исследование свойств персептрона Розенблаттом и, в частности, идея о возможности его обучения. Оригинал: Rosenblatt R. Principles of neurodynamics. Spartan Books, New York, 1962.

1969 Минский и Пейперт показали ограниченные возможности персептрона и тем самым надолго погасили энтузиазм исследователей.

Оригинал: Minsky M. & Papert S. Perceptrons: an introduction to computational geometry. MIT Press, Cambridge, Mass., 1969.

1982 – энергетический подход Хопфилда. Оригинал: Hopfield J.J. Neural networks and physical systems with emergent collective computational abilities. In: Proc. National Academy of Sciences USA, 79, 1982, pp. 2554-2558.

198? Вербос предложил алгоритм обратного распространения для обучения ИНС. Оригинал: Werbos P. Beyond regression: new tools for prediction and analysis in the behavioral sciences. PhD thesis, Dept. of Applied Mathematics.

42

1.8. Свойства ИНС

Свойства нейронных сетей (биологических и искусственных) в сравнении с компьютерной системой основанной на принципиальной схеме машины фон Неймана1 приведена в табл. 1.2.

Таблица 1.2

Свойства нейронных сетей

1.9. Проблема представимости в ИНС

Проблема представимости различной информации с помощью ИНС возникла в середине прошлого века в связи с невозможностью представления персептроном исключающего ИЛИ.

На рис. 1.17 показана возможность представления однослойным персептроном логических функций. Видно, что при значениях весовых коэффициентов, показанных на рисунке данный элемент правильно описывает известные таблицы значений функций.

1 Анил К. Джейн (Anil K. Jain) – Мичиганский государственный университет, США, Жианчанг Мао (Jianchang Mao), К. М. Моиуддин (K. M. Mohiuddin) – Исследовательский центр IBM в Альмадене США

43

Рис. 1.17. Возможность представления логических И и ИЛИ с помощью персептрона: a) – для логического И, b) – для логического ИЛИ, c) – используемая активационная функция персептрона

Теперь попробуем использовать однослойный персептрон для представления логической операции – исключающего ИЛИ (XOR) – рис. 1.18.

Рис. 1.18. Невозможность представления исключающего ИЛИ с помощью однослойного персептрона

44

Очевидно, что для случая представленного на рис. 1.18 невозможно провести линию разделяющую пространство данных на два подпространства, из которых одно соответствовало бы выходному сигналу 0, а другое 1. Внутри заштрихованной области выходной сигнал нейрона должен быть равен 1, а за ее пределами 0. Таким образом, персептрон на одном элементе не в состоянии представить даже такую несложную функцию, как XOR.

Вопрос о представлении функций многих переменных с помощью суперпозиций и сумм функций меньшего числа переменных и одного переменного рассматривался в работах1.

Теорема [Колмогорова]. Каждая непрерывная функция n переменных, заданная на единичном кубе n-мерного пространства, представима в виде:

2n+1

n

 

 

f (x1, x2 ,..., xn ) = hq ϕqp (xp ) ,

(1.13)

q=1

p=1

 

 

где функции ϕ непрерывны, а функции h кроме того, еще и стандартны, т. е. не зависят от выбора функции f.

В частности, каждая непрерывная функция двух переменных x, y представима в виде:

5

 

f (x, y) = hq [ϕq (x) q ( y)].

(1.14)

q=1

Схемы ИНС-моделей, соответствующие уравнениям (1.13) – (1.14) показаны на рис. 1.19 и 1.20 соответственно.

Важным аспектом их практического применения является число степеней свободы. Для схемы, показанной на рис. 1.19 и уравнения (1.13), число степеней свободы выражается уравнением:

(2n + 1) n + (2n + 1) n + 2n+1 = (2n + 1)2

(1.15)

Таким образом, в работах А. Н. Колмогорова показано, что функция многих переменных представима с помощью суперпозиций и сумм функций одного переменного.

Обобщенная аппроксимационная теорема применительно к вычислительным возможностям нейронных сетей доказана в работе2.

Из нее, в частности следует, следующее: от функции активации нейрона требуется только нелинейность – и более ничего. Какой бы она не была, можно так построить сеть связей и подобрать коэффициенты связей

1Колмогоров А. Н. О представлении непрерывных функций нескольких переменных суперпозициями непрерывных функций меньшего числа переменных. Докл. АН СССР, 1956. Т. 108. № 2. С. 179-182. Колмогоров А. Н. О представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного. Докл. АН СССР, 1957. Т. 114. № 5. С. 953-956.

2Горбань А. Н. Сибирский журнал вычислительной математики. 1998. Т. 1. № 1. С. 12-24.

45

между нейронами, чтобы нейронная сеть сколь угодно точно вычисляла любую непрерывную функцию от своих входов.

Рис. 1.19. Представление функции n переменных в виде ИНС-модели

Рис. 1.20. Представление функции двух переменных в виде ИНС-модели

46

1.10. Выбор структуры ИНС

Для решения любой задачи с использованием ИНС необходимо прежде всего спроектировать структуру сети, адекватную поставленной задаче. Теоретические предпосылки для решения этой задачи предложили Колмогоров А. Н. (1956, 1957) и Горбань А. Н. (1998).

Определение минимального количества скрытых слоев сети основано на использовании свойств аппроксимирующих функций. Например, импульсная функция и двумерная импульсная функция могут быть сформированы, как суперпозиция нескольких сигмоидальных функций, сдвинутых друг относительно друга (рис. 1.21 и рис. 1.22)1.

Рис. 1.21. Иллюстрация возможности получения импульсной функции с помощью двух сигмоидов

Рис. 1.22. Иллюстрация формирования импульса двумерной сетью: a) – разность пары двухмерных сигмоидальных функций; b) – структура, сформированная в результате суммирования разностей двух пар двухмерных сигмоидальных функций;

c)– форма импульса после обработки его пороговой сигмоидальной функцией

1Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. 344 с.

47

На основе анализа теорем Колмогорова А. Н., Осовский С. делает следующие выводы:

если ограничиться непрерывной функцией, трансформирующей N-мерное множество входных данных x в M-мерный выходной вектор y, то аппроксимация такого типа осуществима при использовании ИНС с одним скрытым слоем;

при N входных нейронах будет достаточно использовать для реа-

лизации этой функции скрытый слой с (2N + 1) нейронами. Таким образом, благодаря применению теоремы Колмогорова можно

определить число слоев ИНС и число нейронов в скрытых слоях, достаточное для аппроксимации заданного преобразования. Теорема не уточняет вид нелинейных функций, поэтому ее результаты могут быть использованы лишь в плане минимизации структуры ИНС.

На рис. 1.23 дана иллюстрация способности ИНС к обобщению на примере аппроксимации одномерной функции.

Рис. 1.23. a) – слишком большое число скрытых нейроном (скрытых слоев); b) – правильно подобранное число нейронов; c) – слишком малое число нейронов

При изучении объекта, структура которого изначально неясна, возможно создавать структуры с большим количеством нейронов, связей и т. д.; несущественные элементы в дальнейшем могут быть легко удалены, если абсолютные значения весовых коэффициентов (или коэффициентов чувствительности каналов) не превышают некоторого порогового уровня; указанное свойство позволяет осуществлять структурную идентификацию объекта, используя лишь входные и выходные значения.

После обучения сети можно наблюдать всю структуру связей и передаточные функции отдельных каналов, что при необходимости можно использовать для структурной и параметрической идентификации объекта.

Методы редукции структуры сети: от избыточной к оптималь-

ной (деструктивные алгоритмы). Недостатки: а) – как найти достаточную избыточную структуру сети? б) – большой объем вычислений, т. к. вычисления начинаются с минимизации функции наибольшего числа пе-

48

ременных; в) – трудность определения пороговых значений коэффициентов чувствительностей, т. к. низкий коэффициент чувствительности на предыдущем шаге может стать высоким на последующем шаге.

Для того, чтобы показать неприемлемость деструктивных алгоритмов рассмотрим нейронную сеть, показанную на рис. 1.24.

Число вычислений, необходимых для обучения сети обычно зависит от числа переменных (числа коэффициентов передачи всех нейронов N) как

P = a N

(1.16)

здесь a – некоторый параметр, существенно больший 1. Число коэффициентов передачи можно подсчитать как

N = n L1 + L1L2 + L2L3 +... + LM 1LM + LM k

(1.17)

Если принять для простоты, что L1=L2=…=LM , получим:

 

N = (n +k) L +(M 1)L2

(1.18)

или

 

P = a(n+k ) L+(M 1)L2 aq3

(1.19)

Рис. 1.24. Схема нейронной сети

На рис. 1.25 показан качественный характер зависимости (1.19) из которой следует, что деструктивные алгоритмы при прочих равных условиях требуют существенно большего времени выполнения; их основное назначение – идентификация структуры объектов.

49

Рис. 1.25. Сравнение суммарного числа операций, необходимых для работы конструктивного алгоритма (синее – слева) и деструктивного алгоритма (красное – справа) определения оптимальной структуры сети (положение, отмеченное звездочной) при прочих равных условиях

Методы наращивания структуры сети: от минимальной к оптимальной (конструктивные алгоритмы). Основной недостаток: не всегда понятно, до какого момента наращивать число нейронов в слоях и число самих скрытых слоев. Достоинство: по сравнению с деструктивным алгоритмом требует существенно меньшего времени на обучение.

Конструктивный алгоритм идентификации структуры сети, раз-

работанный авторами. Алгоритм базируется на двух эмпирических феноменах обучения ИНС, которые обычно наблюдаются при изменении числа нейронов в скрытом слое и количества скрытых слоев (см. рис. 1.26a, b).

На рис. 1.26a) показано, как изменяется ошибка обучения сети при изменении числа нейронов в скрытом слое. Видно, что вначале, при добавлении новых нейронов, ошибка убывает. Однако, начиная с некоторого числа нейронов, она стабилизируется так, что дальнейшее увеличение их количества не приводит к снижению ошибки обучения. По всей видимости, речь здесь может идти о непреодолимой погрешности, которую можно связать с несоответствием структуры ИНС-модели и моделируемого объекта. Можно сделать вывод, что увеличивать число нейронов в слое целесообразно лишь до тех пор, пока это приводит к уменьшению ошибки обучения (на рис. 1.26a это число – 4 или 5).

На рис. 1.26b) показано, как изменяется ошибка обучения сети при увеличении числа скрытых слоев, при условии, что выбор количества нейронов в каждом слое производится так, как это показано на рис. 1.26a. Из этого рисунка видно, что ошибка обучения сети быстро убывает до остаточного значения Fост, которое не может быть уменьшено в дальнейшем. По нашему мнению, такое значение Fост связано с погрешностью эмпири-

50

ческих данных, используемых при обучении сети. Из рис. 1.26b также хорошо видно, что информацию об уменьшении Fост можно использовать для выбора числа скрытых слоев. Так, ошибка обучения практически не меняется при использовании трех или четырех скрытых слоев в ИНС (рис. 1.26b).

a)

b)

Рис. 1.26. Методика выбора числа нейронов в скрытом слое – a) и количества скрытых слоев – b)

Рассмотренная феноменология обучения ИНС использована нами для конструирования эффективного алгоритма самоорганизации структуры. Суть алгоритма заключается в постепенном наращивании числа нейронов в каждом слое и числа скрытых слоев до тех пор, пока ошибка обучения сети Fост не перестанет уменьшаться (рис. 1.26a, b). Блок-схема такого алгоритма показана на рис. 1.27.

Вблоке 1 задают число входов ИНС – n (определяется постановкой задачи и зависит от числа факторов, оказывающих влияние на моделируемый объект), число выходов ИНС – k (определяется как число факторов, являющихся результатом моделирования и интересующих пользователя системы); начальное число слоев – S принимается равным нулю.

Вблоках 2 и 3 задаются начальные условия: начальная лучшая невязка для нейрона (BestError) – максимальное число используемого типа; начальная лучшая невязка для слоя (LayerBestError) – максимальное число используемого типа; начальная лучшая невязка для всей сети (NetBestError). В процессе конструирования сети данные невязки будут изменяться и достигать своего минимального значения.

Также пользователем задается величина delta – несущественное изменение невязки. Если разница между двумя невязками (полученной в настоящий момент времени и предыдущей) становится меньше величины delta, то построение слоя (в случае несущественного изменения BestError) или построение всей сети (в случае несущественного изменения

LayerBestError) будет прекращено.

51

Вблоке 4 задается первоначальное число нейронов в каждом из предполагаемых слоев ИНС равным нулю.

Вблоке 5 при переходе к построению нового слоя нейронов невязка сети получает то значение, которое получилось в конце построения предыдущего нейронного слоя.

Вблоке 6 в начале построения нового нейронного слоя счетчик слоев в сети – S увеличивается на единицу.

Вблоке 7 при подборе нового нейрона в текущем слое счетчик нейронов в этом слое – i увеличивается на единицу.

Вблоке 8 при подборе нового нейрона в текущем слое невязка данного слоя получает то значение, которое получилось в результате подбора предыдущего нейрона в слое.

Вблоке 9 при подборе активационной функции каждого нового нейрона в текущем слое осуществляется перебор всех уже имеющихся в наличии слоев ИНС.

Вблоке 10 осуществляется перебор всех нейронов в каждом из уже построенных слоев ИНС.

Вблоке 11 осуществляется перебор всех имеющихся в распоряжении пользователя активационных функций нейронов. Таким образом, имеется возможность не просто подобрать активационную функцию только для одного (рассматриваемого в данный момент времени) нейрона при закрепленных активационных функциях остальных нейронов в сети, а произвести перебор всех имеющихся нейронов и, если это приведет к уменьшению значения невязки, поменять активационные функции некоторых из них.

Вблоке 12 производится обучение сети по определенному алгоритму (один из методов определения минимума функции многих переменных)

инаходится значение лучшей текущей невязки – ej.

Блок 13. Если произошло уменьшение лучшей текущей невязки – ej по сравнению с лучшей невязкой для подбираемого в данный момент времени нейрона – BestError, то управление передается к блоку 14, в противном случае осуществляется переход к новой активационной функции нейрона (блок 11).

Вблоке 14 номер активационной функции, при которой произошло уменьшение ej, записывается в массив FBest в строку с номером S (этот номер соответствует номеру слоя) и в столбец с номером i (этот номер соответствует номеру нейрона, активационная функция которого подбирается в данный момент времени).

Вблоке 15 значение невязки ej записывается в переменную BestError – теперь это значение будет лучшим для подбираемого нейрона.

Вблоке 16 осуществляется запись текущих значений коэффициентов синаптических связей.

Блок 17. Если произошло существенное уменьшение (на величину, большую, чем delta) величины лучшей невязки последнего нейрона

52

(BestError) относительно лучшей невязки для последнего построенного слоя (LayerBestError), то можно добавить в текущий слой еще хотя бы один нейрон (см. блоки 18 и 19). В противном случае (если существенного уменьшения невязки не произошло), то добавление нового нейрона в текущий слой, вероятнее всего, не приведет к дальнейшему существенному уменьшению лучшей невязки, т. е. необходимо перейти к блоку 20.

Вблоке 18 осуществляется запись количества нейронов на последнем построенном слое.

Вблоке 19 производится восстановление начальных коэффициентов синаптических связей и осуществляется переход к блоку 7.

Блок 20. Если произошло существенное уменьшение (на величину, большую, чем delta) величины лучшей невязки последнего построенного слоя (LayerBestError) относительно лучшей невязки сети (NetBestError), то можно добавить в сеть еще хотя бы один нейронный слой: перейти к пункту 4. В противном случае (если существенного уменьшения невязки не произошло), то добавление нового слоя в сеть не приведет к дальнейшему уменьшению лучшей невязки сети, т. е. необходимо перейти к блоку 21.

Блок 21. Сеть построена.

Рис. 1.27. Блок-схема конструктивного алгоритма идентификации структуры сети

53

Литература к части 1

1.Уоссермен Ф. Нейрокомпьютерная техника. М.: Мир, 1992. (имеется на сервере кафедры КММ).

2.Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2004. (имеется на сервере кафедры КММ).

3.Барский А. Б. Нейронные сети: распознавание, управление, принятие решений. М.: Финансы и статистика, 2004. (имеется на сервере кафедры КММ).

4. Арзамасцев А. А., Зенкова Н. А. Моделирование в психологии на основе искусственных нейронных сетей. Тамбов: ИМФИ ТГУ им. Г. Р. Державина, 2003. (имеется на сервере кафедры КММ).

5.Арзамасцев А. А., Зубаков А. П. Системы распознавания образов на основе аппарата искусственных нейронных сетей (ИНС): учебное пособие. Тамбов: ИМФИ ТГУ им. Г. Р. Державина, 2003.

54

Часть 2.

Примеры систем искусственного интеллекта, разработанные на кафедре компьютерного и математического моделирования

Работы в области искусственного интеллекта начаты на кафедре компьютерного и математического моделирования ТГУ им. Г. Р. Державина в 2000 году с приходом аспирантов Костромицкого С. П. и Зенковой Н. А. Поначалу основная идея этих работ была чрезвычайно простой. Много лет занимаясь проблемами математического и компьютерного моделирования различных сторон функционирования биологических и биотехнологических объектов мы невольно пришли к идее смоделировать некоторые аспекты интеллекта биологических объектов, а также попытаться использовать бионические принципы для решения некоторых технических задач, таких как прогнозирование и распознавание образов. Со временем эти работы нашли значительный отклик со стороны преподавателей и аспирантов кафедры. Хронология наших разработок в области систем искусственного интеллекта следующая.

1.Компьютерные модели ИНС различной структуры и процессов их обучения (Арзамасцев А. А., Зубаков А. П., Костромицкий С. П. 2000–2001).

2.Изучение способности респондентов к аппроксимационно-про- гностической деятельности (генерализации) и моделированию предметной области (Арзамасцев А. А., Зенкова Н. А., 2001).

3.Использование аппарата ИНС для моделирования, представления

иразработки психологических тестов (Арзамасцев А. А., Зенкова Н. А., 2002). В работе позже приняли участие студенты специальности «Прикладная математика и информатика»: Крючин О., Кожевников Ф., Азарова П.

4.Использование ИНС для идентификации трудноформализуемых понятий на примере понятия «уровень готовности абитуриента для получения образования в определенной сфере» (Арзамасцев А. А., Зенкова Н. А., Безрученко И. Е., Китаевская Т. Ю., 2002–2005).

5.Технология распознавания речи на основе математической модели органа слуха и аппарата ИНС (Арзамасцев А. А., Титов Ю. Н., 2005–2006).

6.Прогнозирование временных рядов с помощью аппарата ИНС (Арзамасцев А. А., Козадаев А. С., 2005–2008).

55

7.Применение мультиагентного подхода для моделирования социальных процессов (Арзамасцев А. А., Соломина О. А., 2006–2009). В работе приняли участие студенты специальности «Прикладная математика и информатика»: Горбачева Т., Тепляков Д.

8.Технология проектирования экспертных систем с развивающимся интеллектуальным ядром на базе ИНС-моделей (Арзамасцев А. А., Неуда-

хин А. В., Зенкова Н. А., 2006–2009).

9.Разработка универсального нейросетевого симулятора для работы на кластерных вычислительных системах (Арзамасцев А. А., Крючин О. В., 2007–2010). В работе приняли участие студенты специальности «Прикладная математика и информатика»: Королев А., Вязовова Е., Суспицина М.

Необходимо отметить, что направления 2–4 закончились защитой кандидатских (Зенкова Н. А., Безрученко И. Е.) и докторской (Китаевская Т. Ю., 2005) диссертаций, направления 6–8 защитой кандидатских диссертаций (Козадаев А. С., 2008), (Соломина О. А., 2009), (Неудахин А. В., 2009). По направлению 9 в настоящее время кандидатскую диссертацию готовит к защите Крючин О. В.

Поэтому в данном разделе будут приведены некоторые из наших работ в области искусственного интеллекта.

2.1.Использование аппарата ИНС в психологии

Внастоящее время психологическая наука испытывает определенный подъем, связанный с широким внедрением новых информационных технологий и использованием их для решения практических задач. Психология, по своей сути, является не столько гуманитарной наукой, сколько естественной, изучающей структуру психики человека через различные познавательные процессы (такие как память, мышление, восприятие, речь), психические свойства и состояния личности (склонности и способности, мотивы, цели, интересы и др.), а также их зависимости между собой и зависимость от них человеческого поведения.

Всвязи с этим, переход к методам математического моделирования для изучения психологических объектов является желательным и востребованным. Эти методы позволяют получать воспроизводимые результаты, обнаруживать закономерности, корректно и адекватно построенные модели одновременно решают вопросы о представительности выборок и достоверности данных.

Одна из проблем психологии заключается в том, что для большинства психологических объектов невозможно построить модели, имеющие некий физический смысл, поэтому психологи часто используют эмпирические подходы к построению математических моделей, такие как факторный анализ, метод наименьших квадратов, планированный эксперимент

идр., применение которых является в значительной степени ограниченным.

56

Вместе с тем, в настоящее время разработано большое количество новых методов и технологий моделирования. В частности, по нашему мнению, большой интерес в психологической науке представляет использование аппарата искусственных нейронных сетей. Большим преимуществом аппарата ИНС по сравнению с эмпирическими подходами построения математических моделей является то, что эта технология соответствует тому образу их построения, который используют многие биологические объекты.

Системы психологической диагностики в настоящее время находят широкое применение при определении профессиональных предпочтений и способностей, в медицинских исследованиях, образовании и других сферах.

Наиболее распространенными диагностическими методами являются тесты или системы (батареи) тестов. Не смотря на их широкую применимость, технология разработки новых тестирующих систем имеет некоторые существенные недостатки: значительная трудоемкость исполнения практически всех этапов, вызванная большими объемами выборок; требуемая исходная выборка вопросов и заданий существенно превышает размер выборки, которая в дальнейшем используется для тестирования (остается в тесте); необходимость числовых оценок как самих значимых факторов, так и параметров, за которыми ведется наблюдение; некоторые чисто математические трудности (например, трудно выбрать значения весовых коэффициентов).

Указанные выше трудности разработки имеют чисто технологический характер. Однако, практически всем системам психологического тестирования присущи и некоторые принципиальные недостатки.

1.В условиях динамично меняющегося общества имеет место нестационарность социума, обусловленная значительными изменениями традиционной системы связей, ценностей и взаимоотношений субъектов. По этой причине существующие технологии психологического тестирования, опирающиеся на статистические стационарные связи (корреляционные зависимости), имеют ограниченное время жизни. Для преодоления этого недостатка тестирующая система должна иметь возможность адаптации к изменившимся условиям в процессе ее эксплуатации.

2.Системы тестирования, разработанные на основе корреляционных

ирегрессионных зависимостей, дают тем лучшие результаты тестирования респондентов, тем ближе личностные качества тестируемого приближаются к средним значениям; чем дальше отстоит тестируемый от средних показателей, тем худшие результаты дает психологический тест; такие результаты являются следствием использования различных аппроксимационных процедур.

Выходом из создавшейся ситуации может являться разработка адаптивной системы, способной самостоятельно настраиваться на данный контингент респондентов в процессе их тестирования.

57

Мы считаем, что удобной компьютерной технологией для решения этой задачи является аппарат искусственных нейронных сетей, успешно применяющийся в настоящее время в системах распознавания образов и искусственного интеллекта.

Аппарат искусственных нейронных сетей – это математический аппарат, являющийся в определенном смысле компьютерной моделью нейронных сетей биологических объектов и человека, обладающий способностями к обучению на основе эмпирических данных, работы в случае недостатка информации или при ее значительной зашумленности.

Мы предлагаем использовать аппарат искусственных нейронных сетей для разработки адаптивных систем психологического тестирования, определения внутренней структуры известных психологических тестов и, возможно, некоторых свойств личности.

Внастоящее время у нас имеется несколько примеров успешного использования аппарата ИНС в психологических исследованиях, которые будут описаны в последующих разделах.

2.1.1.ИНС-моделирование психологических тестов

Вэтом разделе осуществлена проверка возможности использования аппарата искусственных нейронных сетей в решении задач идентификации внутренней структуры психолого-педагогических объектов и предпринята

попытка моделирования теста по выявлению склонностей индивидов к различным сферам деятельности. Тест представляет собой компьютерный вариант методики Йовайши Л. А. Он разработан в Севастопольском городском центре занятости и получен как freeware с сайта www.psychology.net.ru.

Психологический тест был выбран в качестве объекта моделирования по следующим причинам. Во-первых, тест представляет собой модель определенных свойств (качеств) некоторой абстрактной усредненной личности. Поэтому, если с помощью аппарата ИНС удастся построить адекватную модель такого объекта, то это фактически означает, что данный математический аппарат в принципе можно использовать для моделирования, прогнозирования, идентификации внутренней структуры и получения оценок свойств самой личности. Во-вторых, такой модельный объект, как тест в значительной степени более удобен в исследованиях, чем человек. При работе с ним снимаются проблемы достоверности ответов, а полученные оценки являются осредненными для значительных групп, что снимает проблему их представительности. В-третьих, при работе с человеком, для получения значительной по объему матрицы наблюдений, необходимы существенные временные затраты, а тест без особых трудностей можно выполнять многократно и создавать обучающую выборку большого размера для ИНС.

58

Предварительно тест Йовайши Л. А. был исследован на стационарность и валидность получаемых оценок. Для этой цели тестировали десятерых сотрудников института математики, физики и информатики ТГУ имени Г. Р. Державина, для которых по опыту их работы были предварительно получены объективные оценки их личностных качеств. После тестирования коэффициент корреляции объективных и тестированных значений склонностей к различным сферам деятельности превысил 0,7, что было сочтено нами как удовлетворительный результат.

В качестве искусственной нейронной сети была выбрана программа типа freeware – Neural Network Constructor (NNC), version 3.01, 2001, раз-

работанная на ВЦ РАН. Автор программы Крепец В. В. Ее рабочая версия доступна в сети Internet по адресу http://vkrepets.chat.ru/NNC.exe. Данная программа позволяет использовать до 60 входных нейронов, варьировать функцией нейрона, количеством слоев и связей сети. Она содержит в себе готовые алгоритмы обучения по методам покоординатного спуска, случайного поиска, Ньютона, статистического градиента и их комбинациям.

Всю последовательность работ по формированию первичной ИНС – модели проводили в точном соответствии с методологией, разработанной нами в работах1.

Полный перечень вопросов теста Йовайши Л. А приведен в табл. 2.1. Тестируемый должен выбрать один из четырех вариантов ответа: < Конечно А >, < Конечно Б >, < Cкорее А, чем Б >, < Скорее Б, чем А >. После того, как ответы на все тридцать вопросов получены, программа осуществляет вывод оценок склонностей к различным сферам деятельности (рис. 2.1).

Выборку для обучения искусственной нейронной сети формировали следующим образом. Сначала были сгенерированы по методу МонтеКарло 109 различных возможных последовательностей ответов. Возможные варианты ответов на вопросы обозначали цифрами: < Конечно А > – 1, < Конечно Б > – 2, < Cкорее А, чем Б > – 3, < Скорее Б, чем А > –4. В результате многократного прогона теста из него были получены значения тестируемых свойств (склонность к работе с людьми; к умственным видам работ; к работе на производстве; к эстетике и искусству; подвижным видам деятельности; к планово-экономическим видам работ или степень материальной заинтересованности).

1 1. Арзамасцев А. А., Зенкова Н. А. Моделирование в психологии на основе искусственных нейронных сетей. Тамбов: ИМФИ ТГУ им. Г. Р. Державина, 2003. 2. Арзамасцев А. А., Зенкова Н. А. Система психологического тестирования на основе аппарата искусственных нейронных сетей // Искусственный интеллект. 2004. № 2. С. 237-242. 3. Арзамасцев А. А., Зенкова Н. А. Моделирование психологического теста с помощью аппарата искусственных нейрон-

ных. Вестник ТГУ. 2005. Т. 10. Вып. 2. С. 176-183.

59

Таблица 2.1

Вопросы теста Йовайши Л. А.

Номер

Содержание вопроса

вопроса

 

1Правы те люди, которые считают, что важнее: А. Много знать. Б. Создавать материальные блага

2Что Вас больше всего привлекает при чтении книг: А. Прекрасный литературный стиль. Б. Яркое изображение смелости и храбрости героев

3Какое награждение Вас больше всего бы обрадовало: А. За научное изобретение Б. За общественную деятельность на общее благо

4Если бы представилась возможность, какой пост Вы бы выбрали: А. Директора универмага. Б. Главного инженера завода

5Что следует больше ценить у участников самодеятельности: А. То, что они несут людям искусство и красоту. Б. То, что выполняют общественнополезную работу

6Какая область деятельности человека в будущем будет иметь доминирующее значение: А. Физика. Б. Физическая культура

7Если бы Вам предоставили пост директора школы, на что бы Вы обратили больше внимания: А. На создание необходимых удобств (удобная столовая и т. д.). Б. На сплочение дружеского и трудолюбивого коллектива

8Вы на выставке. Что Вас больше всего привлекает: А. Цвет и совершенство формы экспонатов. Б. Их внутреннее устройство (как и из чего они сделаны)

9Какие черты характера в человеке Вам больше нравятся: А. Мужество, смелость, выносливость. Б. Дружелюбие, чуткость, отсутствие корысти

10Представьте себе, что Вы профессор университета. Какому предмету Вы отдали бы предпочтение в свободное время: А. Занятиям по литературе.

Б. Опытам по физике, химии

11Вам предоставляется возможность посетить разные страны. В качестве кого Вы бы охотно поехали: А. Как известный спортсмен на международные соревнования. Б. Как известный менеджер для покупки товаров

12Какая из статей в газете вызвала бы у Вас больший интерес: А. Статья о машине нового типа. Б. Статья о новой научной теории

13Вы смотрите парад. Что больше привлекает Ваше внимание: А. Слаженность ходьбы, бодрость, грациозность участников. Б. Внешнее оформление колонн (знамена, одежда и т. д.)

14Представьте, что у Вас много свободного времени. Чем бы Вы охотнее занялись: А. Чем-либо практическим (ручным трудом). Б. Общественной работой (на добровольных началах)

15Какую выставку Вы посмотрели бы с большим удовольствием: А. Выставку новых продовольственных товаров. Б. Выставку новинок научной аппаратуры (физики, биологии)

16Если бы в школе были только два кружка, какой бы Вы выбрали: А. Технический. Б. Музыкальный

17Как Вам кажется, на что следовало бы обратить больше внимания в школе: А. На успеваемость учащихся – это необходимо для их будущего. Б. На спортэто необходимо для укрепления их здоровья

18Какие журналы Вы читали бы с большим удовольствием: А. Научнопопулярные. Б. Литературнохудожественные

60

Номер

Содержание вопроса

вопроса

 

19Какая из двух работ на свежем воздухе Вас больше бы привлекла: А. Работа с машинами и механизмами. Б. Ходячая работа (агроном, лесничий, дорожный мастер)

20На Ваш взгляд, для школы важнее подготовить учащихся: А. К практической деятельности (создавать материальные блага). Б. К работе с людьми, чтобы они могли помогать другим в этом

21Трудами каких выдающихся ученых Вы больше интересуетесь: А. Попова, Циолковского. Б. Менделеева, Павлова

22Что важнее для человека: А. Создать себе благополучный, удобный быт. Б. Иметь возможность пользоваться духовными ценностями

23Что важнее для благополучного будущего цивилизации: А. Правосудие. Б. Техника

24Какую из двух книг Вы с большим удовольствием читали бы: А. О достижениях спортсменов. Б. О развитии промышленности

25Что принесет обществу больше пользы: А. Забота о благосостоянии граждан. Б. Изучение поведения людей

26Что, на Ваш взгляд, более целесообразно: А. Больше развивать службу быта. Б. Создать технику, которой можно было бы пользоваться самим

27Какие лекции Вы слушали бы с большим удовольствием: А. О выдающихся ученых. Б. О выдающихся художниках

28Какого характера научную работу Вы бы выбрали: А. Работу с книгами в библиотеке. Б. Работу на свежем воздухе в экспедиции

29Что бы Вас больше заинтересовало в печати: А. Сообщение о выигрыше де- нежно-вещевой лотереи. Б. Сообщение о состоявшейся художественной выставке

30КакойпрофессииВы отдалибы предпочтение: А. Физкультуре или работе связаннойсдвижением. Б. Работемалоподвижной, но по созданию новой техники

Рис. 2.1. Результаты тестирования по методике Йовайши Л. А.

61

В качестве начального варианта структуры искусственной нейронной сети была выбрана конструкция, называемая перцептроном: тридцать входных (input) нейронов (по числу вопросов теста), соединенных с нейроном с линейной функцией и один выходной (output) нейрон. Такая простая конфигурация ИНС была выбрана в качестве начального варианта, однако, его дальнейшее тестирование показало, что для данной задачи указанная структура является вполне приемлемой.

Первые же попытки обучения ИНС показали, что функция невязки между расчетным и экспериментальным значениями векторов выходных координат быстро уменьшается. Однако окончательное значение невязки составляет 7,43, что далеко он нулевого уровня. Попытки варьирования активационной функцией нейрона, показали, что значительно уменьшить значение невязки (до значения 6,45) позволяет лишь активационная функция, представляющая собой параболическую зависимость третьей степени. Было сделано заключение о том, что, возможно, имеет место неверный выбор последовательности аргументов (см. рис. 2.2). В связи с этим была предпринята попытка поменять местами номера ответов на каждое задание следующим образм: 1 1, 24, 3 2, 4 3. Если в исходном случае четыре возможных варианта ответов на каждое задание были выстроены в последовательности: < Конечно А >, < Конечно Б >, < Cкорее А, чем Б >, < Скорее Б, чем А >, то после замены эта последовательность ответов была проранжирована по принципу от меньшего к большему, т. е. : < Конечно А > – 1, < Cкорее А, чем Б > – 2, < Скорее Б, чем А > – 3, < Конечно Б > – 4 (табл. 2.2).

Рис. 2.2. Линейная зависимость между факторами x и y – a). Неверный выбор последовательности факторов x1, x2, x3 и x4 превращает линейную зависимость в параболическую – b)

После такой коррекции нейронная сеть хорошо и быстро обучалась. При использовании в качестве активационной функции линейной зависимости значение невязки составило порядка 10–9, что соответствовало максимальной относительной погрешности модели по сравнению с обучающей выборкой всего в 0,2 %. На рис. 2.3–2.8 показаны коэффициенты передачи нейронов, полученные при моделировании различных свойств

62

(личностных качеств), краткое обозначение которых приведено в табл. 2.3. Схемы, показанные на рис. 2.3–2.8 названы нами первичной ИНС-моделью теста Йовайши Л. А.

Анализ первичной ИНС-модели теста (рис. 2.3–2.8) на основе абсолютных величин коэффициентов передачи каналов позволяет сделать следующие выводы.

Уровни абсолютных величин коэффициентов передачи каналов отличаются более чем на шесть порядков. При этом они кластеризуются около значений порядка 10–6 и 0,1–0,4. Каналы нейронной сети, имеющие коэффициенты передачи порядка 10–6 не оказывают существенного влияния на выходную величину, в связи с чем они могут быть истолкованы как незначимые.

Каждый из имеющихся вопросов является значимым для оценки ка- кого-либо личностного качества, т. е. в отношении всего теста. Только по десять вопросов из тридцати являются значимыми для определения каждого качества личности в отдельности. Это хорошо видно по абсолютным величинам коэффициентов передачи каналов (рис. 2.3–2.8). Ответ респондента на каждый из тридцати вопросов используется в тесте дважды, т. е. для идентификации двух различных качеств личности, причем, в одном случае ответ имеет положительный, то в другом случае отрицательный весовые коэффициенты. Это означает, что при выборе ответа на вопрос мы увеличиваем результат тестирования одного качества и при этом обязательно уменьшаем результат тестирования другого качества. Например, ответ на десятый вопрос (представьте себе, что Вы профессор университета; какому предмету Вы отдали бы предпочтение в свободное время: А. занятиям по литературе; Б. опытам по физике, химии; см. табл. 2.1) имеет положительный коэффициент передачи 0,38 при оценке качества Б (склонность к умственным видам работ, см. рис. 2.4) и отрицательный коэффициент передачи –0,36 при оценке качества Г (склонность к эстетике и искусству, см. рис. 2.6). Во всех остальных случаях (рис. 2.3, 2.5, 2.7, 2.8) ответ на десятый вопрос является незначимым. Это означает, что, если респондент ответит на десятый вопрос < Конечно А >, что соответствует номеру 1 (см. табл. 2.2), то это приведет к увеличению оценки качества Б, но одно-

Таблица 2.2

Соответствие вариантов ответов на вопросы теста Йовайши Л. А. и номеров ответов в ИНС-модели

Варианты ответа

Номера ответов

Конечно А

1

Скорее А, чем Б

2

Скорее Б, чем А

3

Конечно Б

4

63

 

Таблица 2.3

Обозначения качеств личности теста Йовайши Л. А.

Качества личности

Обозначение

Склонность к работе с людьми

Качество А

Склонность к умственным видам работ

Качество Б

Склонность к работе на производстве

Качество В

Склонность к эстетике и искусству

Качество Г

Склонность к подвижным видам деятельности

Качество Д

Склонность к планово-экономическим видам работ или

Качество Е

степень материальной заинтересованности

 

Рис. 2.3. Первичная ИНС-модель ка-

Рис. 2.4. Первичная ИНС-модель

чества А (склонность к работе с людьми).

качества Б (склонность к умственным

Средняя квадратичная ошибка модели в

видам работ). Средняя квадратичная

сравнении с тестом – 9,69 10–9

ошибка модели в сравнении с тестом –

 

9,6 10–9

64

Рис. 2.5. Первичная ИНС-модель ка-

Рис. 2.6. Первичная ИНС-модель

чества В (склонность к работе на производ-

качества Г (склонность к эстетике и ис-

стве). Средняя квадратичная ошибка моде-

кусству). Средняя квадратичная ошибка

ли в сравнении с тестом – 9,71 10–9

модели в сравнении с тестом – 9,36 10–9

временно уменьшит оценку качества Г. Если же респондент ответит на десятый вопрос < Конечно Б >, что соответствует номеру 4 (см. табл. 2.2), то это приведет к увеличению оценки качества Г, но одновременно уменьшит оценку качества Б.

В табл. 2.4 указаны значимые вопросы в определении качеств А–Е. Ее использование совместно с рис. 2.9 позволяет проводить эксперименты с тестом таким образом, чтобы максимизировать или минимизировать оценку какого-либо качества. Например, при оценке качества Б значимыми являются только ответы на вопросы 1, 3, 6, 10, 12, 15, 18, 21, 25 и 28 теста. Причем, для максимизации оценки качества Б при ответе на вопросы теста, на вопросы, имеющие отрицательные коэффициенты передачи (1, 3, 6, 18

65

Рис. 2.7. Первичная ИНС-модель качества Д (склонность к подвижным видам деятельности). Средняя квадратичная ошибка модели в сравнении с тестом – 9,59 10–9

Рис. 2.8. Первичная ИНС-модель качества Е (склонность к планово-эконо- мическим видам работ или степень материальной заинтересованности). Средняя квадратичная ошибка модели в сравнении с тестом – 8,56 10–9

и 28) необходимо отвечать – < Конечно А >, а на вопросы, имеющие положительные коэффициенты передачи (10, 12, 15, 21 и 25) необходимо отвечать – < Конечно Б >. При этом оценка качества Б будет равняться 30 баллам. Ответы на другие вопросы теста не оказывают влияния на оценку качества Б. Для минимизации оценок качества Б необходимо поступать наоборот – т. е. отвечать < Конечно Б > на вопросы (1, 3, 6, 18 и 28) и < Конечно А > на вопросы (10, 12, 15, 21 и 25). При этом оценка качества Б будет равняться нулю баллов.

66

Таблица 2.4

Значимость вопросов при тестировании качеств личности по методике Йовайши Л. А.

Тестируемое качество личности

Значимые вопросы

Качество А (склонность к работе с людьми)

3, 5, 7, 9, 14, 17, 20, 23, 25, 27

 

(всего 10 значимых вопросов)

Качество Б (склонность к умственным видам работ)

1, 3, 6, 10, 12, 15, 18, 21, 25, 28

 

(всего 10 значимых вопросов)

Качество В (склонность к работе на производстве)

4, 8, 12, 14, 16, 19, 21, 23, 26, 30

 

(всего 10 значимых вопросов)

Качество Г (склонность к эстетике и искусству)

2, 5, 8, 10, 13, 16, 18, 22, 27, 29

 

(всего 10 значимых вопросов)

Качество Д (склонность к подвижным видам

2, 6, 9, 11, 13, 17, 19, 24, 28, 30

деятельности)

(всего 10 значимых вопросов)

Качество Е (склонность к планово-экономическим видам

1, 4, 7, 11, 15, 20, 22, 24, 26, 29

работ или степень материальной заинтересованности)

(всего 10 значимых вопросов)

Рис. 2.9. Фрагменты ИНС-модели с удаленными несущественными связями. Средняя квадратичная ошибка фрагментов в сравнении с тестом: для качества А – 4,68 10–6; для качества Б – 2,85 10–6; для качества В – 6,41 10–6; для качества Г – 5,55 10–6; для качества Д – 3,61 10–6; для качества Е – 3,86 10–6

67

Модели качеств А–Е (рис. 2.9) теперь можно объединить в общую ИНС-модель теста Йовайши Л. А. Эта модель показана на рис. 2.10.

Рис. 2.10. Полная ИНС-модель теста Йовайши Л. А.

Проверку адекватности модели проводили с использованием новой случайной выборки ответов на вопросы теста (такая последовательность ответов не использовалась в обучающей выборке). В табл. 2.5 показаны рассчитанные по ИНС-модели оценки качеств А–Е в сравнении со значениями, полученными из теста. Средняя относительная погрешность модели составила около 2,7 %, что может быть интерпретировано как удовлетворительный результат. ИНС-модель, показанная на рис. 2.10 может быть признана адекватной.

68

 

 

 

 

 

 

Таблица 2.5

Проверка адекватности ИНС-модели теста Йовайши Л. А.

Показатель

Качество Качество Качество Качество Качество Качество

А

Б

В

Г

Д

Е

 

Тест

14

15

14

17

16

14

Расчет

13,5

14,7

13,5

15,7

15,8

13,4

Отн. погр., %

3,5

2,1

3,8

7,4

1,3

4,1

Тест

12

11

13

14

18

22

Расчет

11,3

10,1

12,3

14,5

18,2

22,7

Отн. погр., %

5,7

8,5

5,4

3,9

1,2

3,1

Тест

16

12

15

16

10

21

Расчет

15,8

11,2

14,6

15,3

8,7

21,5

Отн.погр., %

1,2

6,6

2,8

4,3

12,6

2,3

Интересно отметить следующий факт. Полное число комбинаций ответов по тесту Йовайши Л. А. есть: 430=1152921504606846976. Здесь 4 – число вариантов ответа на один вопрос; 30 – общее число вопросов. Поскольку матрица обучающей выборки включала всего 109 строк, то аппарат ИНС позволил получить адекватную модель по

109/1152921504606846976=9,454 10–17 части генеральной совокупности данных. Такую способность ИНС к построению адекватной модели в условиях недостатки исходных данных можно считать просто потрясающей!

Таким образом, эксперименты с построением ИНС модели психологического теста показали принципиальную возможность использования аппарата искусственных нейронных сетей в решении задач идентификации внутренней структуры психолого-педагогических объектов.

В данном разделе мы показали, что: 1) аппарат ИНС может быть использован для моделирования в психологических системах; 2) поскольку тест представляет собой в некотором смысле модель личности, то, по всей видимости, по аналогичной технологии возможно многое узнать и о системе связей самой личности; 3) с помощью аппарата ИНС можно получить внутреннюю структуру психологического теста, даже в том случае, если иметь только его исполняемый модуль; это может быть полезно при разработке новых тестов (использование готовых связей без проведения исследования, изучение устройства тестирующей программы в образовательных целях).

69

2.1.2. Методика идентификации трудноформализуемых понятий

Уровень готовности индивида к познавательной деятельности

нами понимается как комплексный показатель, характеризующий предрасположенность этого индивида к получению определенной профессиональной квалификации и включающий в себя такие компоненты, как уровень интеллекта, наличие определенных знаний и умений, мотивацию к обучению, творческие и иные способности, которые могут быть использованы им в рамках выбранной специальности. Структура УГИ – это наличие тех или иных компонентов, степень их важности при расчете УГИ, система возможных взаимосвязей между отдельными компонентами и самим показателем. Под содержанием УГИ мы понимаем наполненность каждого из компонентов конкретными сведениями об индивиде, которые могут быть объективно получены путем его изучения с помощью различных экспериментальных методик, системы тестов, а также наблюдения за ним.

Существующие диагностические процедуры психологического исследования личности позволяют оценивать различные ее качества, такие как уровень интеллекта, знания и умения в рамках определенных предметов, профессиональную ориентацию, мотивацию к познавательной деятельности, свойства памяти и т. д., однако, они не позволяют ответить на вопрос о том, какому из этих важных компонентов отдать предпочтение или как использовать их комплексно.

Также разрабатываемые системы для психологического тестирования должны обладать следующими возможностями: не использовать трудоемкую традиционную процедуру по выявлению корреляции и значимости факторов; использовать результаты тестирования каждого следующего респондента для совершенствования своей структуры и учета данного контингента обучаемых; адаптироваться к определению УГИ различных групп и изменившимся условиям в процессе эксплуатации.

Разработанная нами технология построения адаптивных систем психологического тестирования на базе ИНС позволяет учитывать указанные недостатки, а также с ее помощью, возможно выявить структуру и содержание рассматриваемого показателя.

Технология включает в себя следующие этапы:

1 этап. Построение первичной модели профессиональных качеств индивида на основе аппарата искусственных нейронных сетей и какойлибо известной системы психологического тестирования. После реализации первого этапа мы имеем ядро модели, не адаптированное к заданной предметной области. Для определения УГИ к познавательной деятельности ядро должно быть дополнено возможностью оценки некоторых дополнительных качеств индивида.

70

Вблоке 1 производится формирование первичного пакета заданий для тестируемых. Как правило, такой пакет заданий может быть получен из известной батареи психолого-педагогического тестирования, близкой по существу решаемой задачи к определению УГИ. Поскольку первичный пакет заданий будет существенно изменен в дальнейшем по мере реализации данной технологии, способ его формирования не является определяющим. При определении структуры и содержания уровня готовности студентов к познавательной деятельности в качестве первичного пакета заданий рассмотрены вопросы известной методики Йовайши Л.А. по выявлению склонностей к различным сферам деятельности (см. раздел 2.1.1).

Вблоке 2 осуществляется многократный прогон теста, выбранного в блоке 1 в режиме тестируемого. При этом фиксируются ответы на задания теста и числовые значения профессиональных качеств, полученные в ходе тестирования. В результате выполнения блока 2 формируется матрица, строками которой являются ответы (номера ответов) на вопросы теста, а последним столбцом матрицы являются числовые значения профессиональных качеств студента. Данная матрица используется в последующих операциях в качестве обучающей выборки для ИНС.

Вблоке 3 осуществляется формирование структуры искусственной нейронной сети. Для этой цели использовалась одна из программ-обо- лочек, предназначенных для создания и работы с ИНС. На этом этапе выбираются: количество входных нейронов (как правило, это число должно быть равно числу заданий используемого теста); количество выходных нейронов (это число должно быть равно числу тестируемых профессиональных качеств индивида); количество слоев и количество нейронов в слое (выбираются в соответствии с решаемой задачей); система связей между нейронами (выбирается в соответствии с решаемой задачей, первоначальная конструкция может быть разработана по принципу «каждый с каждым»); активационные функции нейронов (выбираются из известного набора – линейная, параболическая, сигмоид, ступенчатая функция). Реализация этого этапа является одним из самых тонких мест в указанной технологии. От того, насколько удачно выбрана структура ИНС в значительной степени зависит ее способность к обучению, адекватность модели и количество итераций проверки этих свойств, которое предстоит выполнить на пути реализации технологии (см. рис. 2.11). Необходимо отметить, что последующие блоки (блоки 5 и 8) гарантируют адекватность модели на ИНС даже в том случае, если первоначальная структура была выбрана неверно.

Вблоке 4 осуществляется обучение созданной в блоке 3 ИНС на основе обучающей выборки, полученной в блоке 2. При этом используются стандартные процедуры, реализующие методы нелинейного программирования (методы Монте-Карло, покоординатного спуска, градиентные и их комбинации).

71

В блоке 5 осуществляется проверка обучаемости ИНС. Ее возможность обучения может быть легко оценена по степени близости выходных значений векторов (профессиональные качества индивида) для ИНС и исходного теста. Если сеть не обучается или обучается медленно, то это указывает на неправильный выбор ее структуры в блоке 3. Поэтому, в соответствии со схемой (рис. 2.11) необходимо осуществить коррекцию структуры. Если сеть обучается – это указывает на то, что структура в блоке 3 выбрана верно и можно переходить к выполнению следующих операций.

Рис. 2.11. Технология определения структуры и содержания уровня готовности индивидов к познавательной деятельности (формирование первичной ИНС-модели)

72

Рис. 2.12. Технология определения структуры и содержания уровня готовности индивидов к познавательной деятельности (коррекция ИНС-модели)

73

Вблоке 6 осуществляется коррекция представлений о структуре ИНС. На этом этапе полезно связать число слоев ИНС, систему связей и функции нейронов с реально существующими свойствами системы тестирования.

Вблоке 7 осуществляется совместная проверка модели, полученной

врезультате обучения ИНС в блоке 4 и теста. При этом на входы ИНС и в качестве ответов на задания теста выбираются одинаковые комбинации, не включенные в обучающую выборку в блоке 2. По результатам этой проверки делается заключение об адекватности модели.

Вблоке 8 осуществляется проверка адекватности модели, разработанной в предыдущих блоках. Адекватность оценивается на основе близости значений профессиональных качеств индивида, полученных на основе теста и ИНС. В большинстве случаев адекватность модели достигается, так как в блоке 5 уже проверялась возможность обучения ИНС с данной структурой связей.

Рис. 2.13. Технология определения структуры и содержания уровня готовности индивидов к познавательной деятельности (определение структуры и содержания УГИ)

74

Вблоке 9 производится увеличение объема обучающей выборки. Ее полный набор должен состоять из Nm независимых комбинаций в тесте, где требуется выбрать один из предложенных вариантов ответов. Здесь N – количество вариантов ответов на каждое задание, m – количество заданий. Однако для обучения нейронной сети изначально бывает достаточно намного меньшего количества комбинаций.

Вблоке 10 осуществляется удаление несущественных связей ИНС и окончательная настройка модели. Несущественными считаются связи, весовые коэффициенты которых ниже заданного, определяемого пользователем уровня. Такие связи практически не оказывают никакого воздействия на качество работы всей модели в целом. Тем не менее, после их удаления для окончательной настройки модели необходимо еще раз провести обучение сети.

Результатом выполнения операций в блоках 1–10 является формирование первичной модели профессиональных качеств студента на основе аппарата искусственных нейронных сетей. Первичная модель представляет собой, по сути, обобщенную модель профессиональных качеств индивида без конкретизации области его деятельности. Такую модель можно использовать для выявления склонностей к различным сферам деятельности, но она еще не пригодна для определения уровня готовности студентов к познавательной деятельности в определенной сфере. Для определения УГИ ядро должно быть дополнено возможностью оценки некоторых других качеств личности студента. Указанные операции выполняют на этапе коррекции модели (блоки 11–19), в результате чего формируется модифицированная модель на ИНС (рис. 2.12).

2 этап. Коррекция первичной модели за счет введения дополнительных заданий и модификации структуры ИНС. После реализации второго этапа мы имеем ИНС-модель профессиональных качеств индивида. Эту модель можно использовать для определения УГИ к познавательной деятельности в определенной сфере на том основании, что, во-первых, она включает в себя известные данные о профессиональной пригодности индивида (ядро модели), дополнения, позволяющие оперировать в заданной профессиональной области и с учетом заданного контингента обучаемых, а во-вторых, вся модель обучена на выборке из опытных данных (матрице ответов респондентов).

В блоке 11 осуществляется формирование вторичного пакета заданий, направленных на тестирование УГИ. В формировании принимают участие эксперты в заданной предметной области. В нашем случае в качестве экспертов выступали ведущие преподаватели Тамбовского государственного университета им. Г.Р. Державина: профессора и доценты, ведущие лекционные курсы, практические и лабораторные занятия, хорошо знающие студентов, их личностные характеристики, а также сотрудники деканатов, в значительной степени осведомленные о профессиональных качествах обучаемых. В качестве заданий (системы заданий) предлагаются во-

75

просы, характеризующие способность студентов к моделированию предметной области, мотивацию, знание предметной области, умения и навыки работы в ней. Указанные задания выбираются с таким расчетом, что они могут дополнить первичный пакет, сформированный в блоке 1.

Вблоке 12 осуществляется модификация структуры ИНС в соответствии с вторичным пакетом заданий. Структура ИНС дополняется входными, выходными и функциональными нейронами, системой связей между ними. При этом, ядро модели, сформированное ранее в блоках 1–10, остается на этом этапе неизменным, а новые структуры лишь дополняют его.

Врезультате выполнения операций в блоках 11–12 имеем модель УГИ к познавательной деятельности, которая, однако, еще не подверглась идентификации параметров и проверке адекватности.

Проверка адекватности модели и коррекция ее параметров осуществляются в сравнении с реальными эмпирическими данными, представляющими собой оценки УГИ конкретных индивидов в заданной предметной области. Указанные действия выполняются в блоках 13–16.

Вблоке 13 осуществляется опрос респондентов. Опрос проводится на первом курсе среди студентов, которые только что поступили в университет. При этом используется вторичный пакет заданий, сформированный

вблоке 11. По результатам опроса формируется матрица ответов респондентов. Для упрощения работы с респондентами и придания опросу безличностного характера используется специально разработанная тестирующая программа. Данные опроса хранятся в течение периода первичного обучения специальности, по истечению которого возможно делать выводы о развитии профессиональных качеств обучаемого. Обучение студентов в этот период проводится по обычной программе профессионального образования и в соответствии с государственным стандартом профессионального образования по указанной специальности (блок 14). По истечению указанного периода экспертами осуществляется ранжирование респондентов по уровню профессиональной пригодности.

После того, как для каждого респондента произведен подсчет оценок, матрица ответов, полученная при опросе респондентов в блоке 13, дополняется оценками профессиональных качеств, после чего эту матрицу можно использовать для обучения модифицированной модели на ИНС.

Вблоке 16 производится обучение структуры ИНС, созданной ранее

вблоке 12 на основе обучающей выборки, полученной в блоке 15. При этом используются стандартные процедуры, реализующие методы нелинейного программирования.

Вблоке 17 (как это было ранее в блоке 5) осуществляется проверка обучаемости ИНС. Ее возможность обучения может быть легко оценена по степени близости выходных значений векторов (профессиональные качества индивида) для ИНС и матрицы ответов респондентов. Если сеть не обучается или обучается медленно – это указывает на неверное формирование вторичного пакета заданий (блок 11) и неправильный выбор ее структуры (блок 12) . Поэтому, в соответствии с общей схемой необходимо осуще-

76

ствить коррекцию этих компонентов модели. Если сеть обучается – это указывает на то, что можно переходить к выполнению следующих операций.

В блоках 18, 19 проводится проверка обученной ИНС для тестирования независимой группы респондентов. При этом оценивается насколько хорошо ИНС-модель, сформированная на основе ядра, включающего ка- кую-либо систему психологического тестирования и дополнений, а также заданий для конкретного контингента и профессиональной области, позволяет оценивать профессиональные качества респондентов из контрольной группы. В случае, если оценки, получаемые по модели, не противоречат мнению экспертов, то модель считается адекватной и будет использована в дальнейшем для оценки структуры и содержания УГИ к познавательной деятельности. В случае, если сразу не удается получить адекватную модель, необходимо снова перейти к блоку 11 – формирования вторичного пакета заданий.

Результатом выполнения операций в блоках 11–19 является формирование вторичной модели профессиональных качеств индивида на основе аппарата искусственных нейронных сетей. Такая модель представляет собой обобщенную модель профессиональных качеств студента с конкретизацией области его деятельности, общего уровня контингента обучаемых и т. д. Эту модель можно использовать для определения уровня готовности студентов к познавательной деятельности в определенной сфере на том основании, что, во-первых, она включает в себя известные данные об их профессиональной пригодности, дополнения, позволяющие оперировать в заданной профессиональной области и с учетом заданного контингента обучаемых, а во-вторых, вся модель обучена на выборке из эмпирических данных, соответствующих заданной профессиональной области.

3 этап. Анализ модели и определение структуры и содержания трудноформализуемого понятия (например, УГИ) на основе модифицированной модели (рис. 2.13).

Процесс определения структуры и содержания УГИ с помощью модели начинается с анализа и удаления несущественных связей (блок 20). Как и в блоке 10, несущественными считаются связи, весовые коэффициенты которых ниже заданного, определяемого пользователем уровня. Такие связи практически не оказывают никакого воздействия на качество работы всей модели в целом.

Вэтой модели интегрирована информация об уровне готовности индивидов к обучению в заданной профессиональной области, важности отдельных показателей и групп показателей при оценке УГИ, взаимовлиянии различных показателей и т. д. Можно считать, что обученная ИНС является моделью определенных качеств студента в рамках заданной предметной области, поскольку программа работы с ИНС устроена таким образом, что из нее легко может быть извлечена информация о структурных элементах, их взаимосвязи, значимости коэффициентов передачи.

Вблоке 21 из всей совокупности заданий вторичного пакета выделяются задания, которые по мнению экспертов тестируют одинаковые ка-

77

чества студента. Для успешной реализации этой задачи экспертами может быть предложен или ими может быть разработан заранее перечень тестируемых свойств индивида в рамках заданной предметной области. Результатом операций блока 21 является таблица соответствий заданий и соответствующих им тестируемых качеств индивида.

Вблоке 22 осуществляется определение значимости заданий внутри каждой группы. Эта задача решается на основе анализа коэффициентов передачи соответствующих связей нейронной сети. Чем выше абсолютное значение коэффициента передачи, тем большая важность может быть приписана анализируемому свойству индивида. При этом выделяются задания, ответы на которые оказывают наиболее существенное влияние на значения тестируемых качеств, задания, оказывающие значительное влияние и задания, ответы на которые оказывают очень малое влияние на тестируемые качества. Таким образом, при реализации процедур, предусмотренных блоком 22, практикующие психологи и педагогические работники получат ценную информацию о том, какие вопросы пригодны для оценки определенных качеств студента, а какие не вполне подходят для этого.

Вблоке 23 осуществляется определение значимости групп факторов

воценке УГИ. В зависимости от структуры полученной нейронной сети могут быть использованы аддитивные и мультипликативные функциональные зависимости для определения на основе имеющихся коэффициентов передачи каналов типа «ответы на задание – тестируемое качество индивида», обобщенных коэффициентов для групп. В зависимости от обстоятельств могут быть использованы и комбинированные аддитивномультипликативные зависимости.

Поскольку ответы на многие задания могут быть использованы для тестирования различных групп свойств индивидов, в блоке 24 осуществляется оценка таких взаимовлияний и формулируются выводы о структуре перекрестных связей между факторами различных групп.

Так как в блоках 21–24 ранее выявлены: задания, относящиеся к различным группам тестируемых свойств, значимость групп в определении комплексного показателя и оценки взаимовлияния отдельных факторов, будем считать, что задача определения структуры и содержания понятия УГИ решена (блок 25).

Вкачестве примера реализации данной технологии получены структура и содержание УГИ к познавательной деятельности для студентов первого курса, приведенные на рис. 2.14–2.15.

Таким образом, данная технология может быть использована для построения адаптивных систем психологического тестирования на базе ИНС, а также для идентификации внутренней структуры и содержания понятий, используемых в психологических и социологических исследованиях.

78

Рис. 2.14. Структура готовности студентов первого курса к познавательной деятельности в процентах к целому. Цифрами обозначены: 1 – уровень мотивации к обучению; 2 – склонность к умственным видам деятельности; 3 – умение моделировать и принимать решения в данной предметной области; 4 – исходный уровень образования; 5 – способность к запоминанию; 6 – логическое мышление. Неравенство суммы компонентов структуры 100% объясняется их взаимным пересечением

Рис. 2.15. Содержание готовности студентов первого курса к познавательной деятельности. Цифры в скобках показывают относительный вес различных качеств первокурсников

79

2.1.3. Идентификация уровня готовности абитуриентов к обучению в вузе

Для проведения объективной работы по профессиональной ориентации школьников с учетом социального заказа, необходимо своевременно выявлять их профессиональный потенциал. Поэтому было бы желательно разработать компьютерный тест или программу, которая помогает учащимся осуществлять такое профилирование на основе оценки их личностных качеств.

Такой тест может быть реализован на основе ИНС-модели, которая способна обучаться по эмпирическим данным. Принципы реализации такой ИНС-модели (формирование структуры сети, ее обучение и т. д.) были сформулированы в главе 1 и в предыдущих разделах главы 2.

В качестве эмпирических данных использовали выборку, которая была получена в результате анкетирования старшеклассников города Тамбова, в котором приняли участие 1052 школьника1. Специально разработанная анкета имела следующую структуру: статистическая информация, успеваемость, профессиональный выбор, общественная активность, творчество, досуг, здоровье, семья.

Разработка компьютерной нейросетевой модели осуществлялась в соответствие со следующими этапами.

Этап 1. Из всей совокупности факторов, значения которых получены в ходе анкетирования, выделяются те факторы, которые оказывают существенное влияние на профессиональные предпочтения школьников. Главным критерием значимости фактора, на наш взгляд, является консолидированное мнение группы при ответе на какой-либо вопрос анкеты.

Для решения этой проблемы разработана специальная программа, позволяющая для лиц, профессиональные предпочтения которых указывают по данным анкетирования на определенный профиль подсчитать суммы ответов по каждому вопросу анкеты и вывести те из них, где сумма групповых предпочтений больше, чем некоторые фиксированные уровни

50, 60, 65 и 70 процентов.

Этап 2. Проводится ранжирование профилей профессий таким образом, чтобы каждому из них можно было поставить в соответствие определенное число (номер) (рис. 2.16).

Этап 3. Из всего массива данных выделяется выборка для обучения ИНС, такая, чтобы в качестве вектора независимых координат в нее входили значимые факторы, а в качестве моделируемого фактора – тот или иной профессиональный профиль, представленный числом (этап 2).

1 Арзамасцев А. А., Безрученко И. Е., Зенкова Н. А. Личностные качества и профессиональная предрасположенность школьников старших классов города Тамбова. Тамбов: ИМФИ ТГУ имени Г. Р. Державина, 2004. 103 с.

80

Рис. 2.16. Ранжирование профилей по близости выбранных специальностей. Номера профилей соответствуют принципу: по мере возрастания номеров снижается роль интуиции, которая в максимальной степени проявляется в искусстве (профиль «культура и искусство») и повышается роль точного знания, которое в максимальной степени проявляется в физико-математических науках (профиль «физико-математи- ческий»)

81

Рис. 2.17. Совместное использование в модели при 60-процентном уровне групповой активности линейной, параболической (2-й и 3-й степеней) и сигмоидальной активационных функций нейронов

Этап 4. Формирование ИНС-модели. На этом этапе выбирается структура ИНС, производится ее обучение и, при необходимости, осуществляется коррекция структуры сети в соответствии с ранее разработанной технологией. Учитывая предыдущий опыт, в качестве такой оболочки выбрана программа NNC. Для случая 60 % групповой активности наилучшие результаты (наименьшую погрешность) дала ИНС-модель, показанная на рис. 2.17.

Этап 5. Производится проверка адекватности полученной ИНСмодели профессиональной предрасположенности по имеющимся эмпирическим данным и валидности тестирующей компьютерной технологии при определении профессиональных профилей школьников старших классов.

В результате обучения искусственной нейронной сети построена ИНС-модель профессиональных предпочтений учащихся 9–10 классов, которая может быть использована для их профилизации.

Адекватность модели проверили путем сравнения расчетных значений с результатами анкетирования профессиональных предпочтений школьников. В 72 % случаев ИНС-модель показала верные профессиональные профили; в оставшихся 28 % случаев был показан близкий профиль. Полученные результаты, на наш взгляд, следует считать приемлемыми для использования модели в профессиональной ориентации школьников.

Погрешность при обучении составила 0,83 при длине шкалы профилей, равной 8 единицам. Это означает, что при тестировании школьника с помощью ИНС-модели может быть получен как искомый профиль, так и два самых близких к нему.

Полученные результаты позволили говорить о возможности разработки на базе ИНС-модели экспертной системы для определения профессиональной предрасположенности абитуриентов.

Такая экспертная система должна включать в себя симулятор, построенный на основе искусственной нейронной сети с изменяющейся структурой, на основе которого формируется компьютерная модель обработки данных (интеллектуальное ядро) и тестирующей оболочки, позволяющей осуществлять сбор данных у респондента.

Ядром такой системы является нейросетевой симулятор, основные принципы построения которого описаны далее.

Известно, что возможности искусственных нейронных сетей (ИНС) при моделировании объектов различной природы зависят от их структуры, под которой обычно понимают число скрытых слоев, число нейронов в этих слоях, имеющуюся систему связей между нейронами и их активационные функции. Правильный выбор указанных параметров в значительной

82

степени позволяет достигать адекватности ИНС-модели реальному объекту. В настоящее время не существует общего алгоритма определения структуры ИНС, подходящей для каждой рассматриваемой проблемы. Часто такую структуру выбирают методом «проб и ошибок», который зачастую отнимает у исследователя много времени. В некоторых программных ИНСоболочках предусмотрена визуализация построения структуры сети.

Алгоритм самоорганизации структуры сети. Алгоритм базируется на двух эмпирических феноменах ее обучения, которые обычно наблюдаются при изменении числа нейронов в скрытом слое и количества скрытых слоев (см. рис. 2.18a, b).

На рис. 2.18a) показано, как изменяется ошибка обучения сети при изменении числа нейронов в скрытом слое. Видно, что вначале, при добавлении новых нейронов, ошибка убывает. Однако, начиная с некоторого числа нейронов, она стабилизируется так, что дальнейшее увеличение их количества не приводит к снижению ошибки обучения. По всей видимости, речь здесь может идти о непреодолимой погрешности, которую можно связать с несоответствием структуры ИНС-модели и моделируемого объекта. Можно сделать вывод, что увеличивать число нейронов в слое целесообразно лишь до тех пор, пока это приводит к уменьшению ошибки обучения (на рис. 2.18a это число – 4 или 5).

На рис. 2.18b) показано, как изменяется ошибка обучения сети при увеличении числа скрытых слоев, при условии, что выбор количества нейронов в каждом слое производится так, как это показано на рис. 2.18a. Из этого рисунка видно, что ошибка обучения сети быстро убывает до остаточного значения Fост, которое не может быть уменьшено в дальнейшем. По нашему мнению, такое значение Fост связано с погрешностью эмпирических данных, используемых при обучении сети. Из рис. 2.18b также хорошо видно, что информацию об уменьшении Fост можно использовать для выбора числа скрытых слоев. Так, ошибка обучения практически не меняется при использовании 3-х или 4-х скрытых слоев в ИНС (рис. 2.18b).

a)

b)

Рис. 2.18. Методика выбора числа нейронов в скрытом слое – a) и количества

83

скрытых слоев – b)

Рассмотренная феноменология обучения ИНС использована нами для конструирования эффективного алгоритма самоорганизации структуры. Суть алгоритма заключается в постепенном наращивании числа нейронов в каждом слое и числа скрытых слоев до тех пор, пока ошибка обучения сети Fост не перестанет уменьшаться (рис. 2.18a, b). Блок-схема такого алгоритма показана на рис. 2.19.

Вблоке 1 задают число входов ИНС – n (определяется постановкой задачи и зависит от числа факторов, оказывающих влияние на моделируемый объект), число выходов ИНС – k (определяется как число факторов, являющихся результатом моделирования и интересующих пользователя системы); начальное число слоев – S принимается равным нулю.

Вблоках 2 и 3 задаются начальные условия: начальная лучшая невязка для нейрона (BestError) – максимальное число используемого типа; начальная лучшая невязка для слоя (LayerBestError) – максимальное число используемого типа; начальная лучшая невязка для всей сети (NetBestError). В процессе конструирования сети данные невязки будут изменяться и достигать своего минимального значения.

Также пользователем задается величина delta – несущественное изменение невязки. Если разница между двумя невязками (полученной в настоящий момент времени и предыдущей) становится меньше величины delta, то построение слоя (в случае несущественного изменения BestError) или построение всей сети (в случае несущественного изменения

LayerBestError) будет прекращено.

Вблоке 4 задается первоначальное число нейронов в каждом из предполагаемых слоев ИНС равным нулю.

Вблоке 5 при переходе к построению нового слоя нейронов невязка сети получает то значение, которое получилось в конце построения предыдущего нейронного слоя.

Вблоке 6 в начале построения нового нейронного слоя счетчик слоев в сети – S увеличивается на единицу.

Вблоке 7 при подборе нового нейрона в текущем слое счетчик нейронов в этом слое – i увеличивается на единицу.

Вблоке 8 при подборе нового нейрона в текущем слое невязка данного слоя получает то значение, которое получилось в результате подбора предыдущего нейрона в слое.

Вблоке 9 при подборе активационной функции каждого нового нейрона в текущем слое осуществляется перебор всех уже имеющихся в наличии слоев ИНС.

Вблоке 10 осуществляется перебор всех нейронов в каждом из уже построенных слоев ИНС.

Вблоке 11 осуществляется перебор всех имеющихся в распоряжении пользователя активационных функций нейронов. Таким образом, имеется

84

возможность не просто подобрать активационную функцию только для одного (рассматриваемого в данный момент времени) нейрона при закрепленных активационных функциях остальных нейронов в сети, а произвести перебор всех имеющихся нейронов и, если это приведет к уменьшению значения невязки, поменять активационные функции некоторых из них.

Вблоке 12 производится обучение сети по определенному алгоритму (один из методов определения минимума функции многих переменных) и находится значение лучшей текущей невязки – ej.

Блок 13. Если произошло уменьшение лучшей текущей невязки – ej по сравнению с лучшей невязкой для подбираемого в данный момент времени нейрона – BestError, то управление передается к блоку 14, в противном случае осуществляется переход к новой активационной функции нейрона (блок 11).

Вблоке 14 номер активационной функции, при которой произошло уменьшение ej, записывается в массив FBest в строку с номером S (этот номер соответствует номеру слоя) и в столбец с номером i (этот номер соответствует номеру нейрона, активационная функция которого подбирается в данный момент времени).

Вблоке 15 значение невязки ej записывается в переменную BestError – теперь это значение будет лучшим для подбираемого нейрона.

Вблоке 16 осуществляется запись текущих значений коэффициентов синаптических связей.

Блок 17. Если произошло существенное уменьшение (на величину, большую, чем delta) величины лучшей невязки последнего нейрона (BestError) относительно лучшей невязки для последнего построенного слоя (LayerBestError), то можно добавить в текущий слой еще хотя бы один нейрон (см. блоки 18 и 19). В противном случае (если существенного уменьшения невязки не произошло), то добавление нового нейрона в текущий слой, вероятнее всего, не приведет к дальнейшему существенному уменьшению лучшей невязки, т. е. необходимо перейти к блоку 20.

Вблоке 18 осуществляется запись количества нейронов на последнем построенном слое.

Вблоке 19 производится восстановление начальных коэффициентов синаптических связей и осуществляется переход к блоку 7.

Блок 20. Если произошло существенное уменьшение (на величину, большую, чем delta) величины лучшей невязки последнего построенного слоя (LayerBestError) относительно лучшей невязки сети (NetBestError), то можно добавить в сеть еще хотя бы один нейронный слой: перейти к пункту 4. В противном случае (если существенного уменьшения невязки не произошло), то добавление нового слоя в сеть не приведет к дальнейшему уменьшению лучшей невязки сети, т. е. необходимо перейти к блоку 21.

Блок 21. Сеть построена.

85

Рис 2.19. Блок-схема алгоритма самоорганизации структуры искусственной нейронной сети

86

Программное обеспечение. Алгоритм, приведенный на рис. 2.19, реализован Крючиным О. В. в виде программной оболочки, осуществляющей следующие основные функции:

ввод исходных данных для обучения сети (векторы x и y) из отдельных файлов; в программе реализуется концепция «обучение с учителем»;

обучение ИНС по методам сканирования, Монте-Карло и гра-

диентному;

визуализацию ошибки обучения сети по мере увеличения числа нейронов в слое и увеличения числа слоев;

визуализацию структуры сети в виде схемы;

запись в соответствующие файлы результатов обучения сети:

ееструктуры, коэффициентов передачи (синаптических связей), функций нейронов и погрешностей обучения.

При разработке программы были использованы следующие средства: в качестве IDE была выбрана среда CBuilder 6 компании Borland. Интерфейс программы был реализован с помощью библиотек Visual Component Library. Минимальные системные требования: операционная система

Microsoft Windows 98/ME/2000/XP, 64 Mb оперативной памяти. Программа не требует инсталляции и может быть запущена с любого носителя.

Пользовательский интерфейс программы. Для обучения нейронной сети необходимо ввести обучающую выборку входных и выходных элементов. В управляющем наборе «количество нейронов» следует указать число элементов во входном и выходном слоях (обычно эти сведения бывают понятны из структуры моделируемого объекта), а в наборе «пути к файлам» – имена текстовых файлов, в которых заданы обучающие выбор-

ки (рис. 2.20).

Рис. 2.20. Форма задания исходных данных для обучения искусственной нейронной сети

87

После задания исходных данных пользователь может начать обучение ИНС. Для изменения настроек процесса обучения можно использовать окно, показанное на рис. 2.21.

Рис. 2.21. Окно настроек процесса обучения сети с заданной структурой по эмпирическим данным

Вначале пользователь должен задать структуру сети. В случае выбора варианта «статическое» структура сети является жесткой и задается самим пользователем. Такой вариант может быть выбран, когда пользователь знает точную внутреннюю структуру моделируемого объекта. Для выбора заданной структуры следует в меню количества нейронов выбрать «статическое», а затем в меню формирования нейронов указать количество слоев (считая входной и выходной) и максимальное количество нейронов в слое (рис. 2.21). После нажатия кнопки «Создать» откроется окно с разметкой структуры сети, которую нужно заполнить нейронами. При нажатии левой кнопки мыши на пустом поле, в нем появляется нейрон, а при нажатии правой кнопки – меню, позволяющее выбрать активационную функцию нейрона. Нейроны отображаются в виде эллипсов, цвет которых зависит от активационной функции. Каждый нейрон предыдущего слоя оказывается связанным с каждым нейроном последующего слоя.

При выборе пользователем варианта «динамическое» ИНС может модифицировать структуру в процессе обучения. Здесь реализуется алгоритм самоорганизации, приведенный на рис. 2.19. Этот способ более предпочтителен в случае, когда пользователь точно не знает внутреннюю структуру моделируемого объекта. Поскольку в процессе своего обучения сеть сама модифицирует структуру связей, этот способ может быть использован для разработки компьютерных моделей объектов с неизвестной внутренней структурой (типа «черный ящик»), а также для структурной идентификации таких объектов. Учитывая, что критерием остановки про-

88

цесса обучения сети является ошибка обучения, сеть будет изменять свою структуру до тех пор, пока заданная погрешность не будет достигнута. Этот процесс может занимать значительное время.

В случае выбора варианта «динамическое» следует выбрать допустимую погрешность для каждого слоя и для остановки обучения (рис. 2.22). Следует также выбрать критерий остановки обучения (при проведении определенного количества итераций, при достижении определенной погрешности, при достижении погрешности, которая в определенное число раз меньше начальной, при повторении одной и той же погрешности несколько раз). Следует также отметить, что в этом случае активационные функции для каждого нейрона подбираются программой из числа отмеченных пользователем (рис. 2.22).

Для обучения сети можно использовать различные методы математического программирования: метод простого сканирования, Монте-Карло и градиентный. Каждый из перечисленных методов имеет свои особенности, которые влияют на время обучения сети.

Рис. 2.22. Окно настроек процесса обучения сети с самоорганизующейся структурой по эмпирическим данным

В зависимости от используемого метода, а также от способа формирования сети следует ввести еще несколько параметров. При выборе полного перебора следует указать, с каким шагом нужно подбирать числа из отрезка [0; 1]. При выборе метода Монте-Карло следует ввести шаг, определяющий диапазон изменения весов и число, определяющее, во сколько раз будет меняться шаг на каждой итерации. Также следует указать и количество итераций (при выборе остановки по числу итераций), число одинаковых погрешностей или погрешность (при остановке по абсолютной или относительной погрешности).

89

Рис. 2.23. Окно визуализации структуры сети. Для реального объекта таблицы автоматически заполняются значениями весовых коэффициентов и активационными функциями нейронов ИНС-модели

После того, как обучение сети закончено, можно считать, что ИНСмодель рассматриваемого объекта построена.

Пользователь может увидеть ее конфигурацию, выбрав меню Вид Визуализация и открыв окно, в котором будут отображены весовые коэффициенты и активационные функции нейронов (рис. 2.23). После обучения сети можно также сохранить ее конфигурацию, выбрав меню Файл Со-

хранить.

Пользователь также может проводить необходимые ему вычисления (вычислительный эксперимент) по обученной ИНС-модели. Для этого нужно открыть конфигурацию сети, выбрав меню Файл Открыть. Новые данные необходимо ввести в левый столбец таблицы и нажать на кнопку «Считать» (см. рис. 2.20). Нейронная сеть выведет результаты расчета.

Вкладка «Вывод результатов» позволяет сохранять историю обучения (изменения погрешностей или весовых коэффициентов). Могут быть выбраны разные способы сохранения погрешности: «по результату» – сохраняются последние значения; на каждом слое, на каждом нейроне; на каждой итерации или их комбинациях. Для сохранения необходимо отметить соответствующие пункты и задать имена файлов. Аналогичную операцию можно произвести и при сохранении весовых коэффициентов.

Впрограмме также возможна визуализация изменения погрешности.

Вэтом случае откроется окно, в котором будет строиться соответствующий график.

Пример использования программы. Программа была использова-

на для построения компьютерной модели личности школьников старших классов города Тамбова на основе значительного по объему эмпирического материала. Обучающая выборка, являющаяся результатом анкетирования более чем тысячи школьников, представляла собой прямоугольную матрицу размером 1052 строки и 253 столбца. Строки представляли собой записи, соответствующие респонденту, столбцы – варианты ответа респондентов на вопросы анкеты относительно предрасположенности к дальнейшему образованию в университете по различным профилям.

90

Рис. 2.24. Внешний вид вкладки «Вывод результатов»

Рис. 2.25. Структура ИНС-модели. 1–58, 60–65, 69, 71 – входные нейроны с линейной активационной функцией, 59, 66, 67, 68 – нейроны с активационной функцией типа «сигмоид» – (f(s) = 1/(1 + s2)), 70 – нейрон с параболической активационной функцией (f(s) = s2), 78 – выходной нейрон c параболической активационной функцией (f(s) = s3) . Общее число связей (весовых коэффициентов сети) – 444

91

Таблица 2.6

Коэффициентысинаптическихсвязейнейроноввходного ипервогоскрытогослоевИНС-модели

Номера нейронов

59

60

61

62

63

64

65

1

0,010

0,073

0,016

0,077

0,067

0,074

0,093

2

0,047

0,088

0,089

0,016

0,057

0,063

0,098

3

0,024

0,033

0,046

0,059

0,020

0,075

0,081

4

0,026

0,010

0,008

0,052

0,071

0,093

0,024

5

0,025

0,026

0,056

0,022

0,035

0,040

0,086

6

0,017

0,047

0,098

0,096

0,062

0,017

0,030

7

0,092

0,014

0,001

0,007

0,095

0,026

0,058

8

0,066

0,048

0,094

0,010

0,044

0,038

0,051

9

0,023

0,086

0,028

0,053

0,088

0,092

0,078

10

0,010

0,058

0,080

0,018

0,015

0,070

0,080

11

0,087

0,047

0,037

0,005

0,065

0,076

0,038

12

0,029

0,099

0,067

0,080

0,034

0,032

0,027

13

0,064

0,059

0,057

0,056

0,028

0,010

0,070

14

0,086

0,013

0,013

0,058

0,041

0,072

0,094

15

0,050

0,078

0,023

0,062

0,026

0,061

0,052

16

0,070

0,094

0,027

0,049

0,022

0,081

0,019

17

0,001

0,005

0,092

0,013

0,003

0,070

0,010

18

0,046

0,090

0,045

0,070

0,060

0,055

0,014

19

0,004

0,084

0,040

0,046

0,041

0,001

0,014

20

0,047

0,063

0,025

0,035

0,007

0,021

0,013

21

0,060

0,017

0,019

0,060

0,075

0,062

0,037

22

0,098

0,089

0,039

0,058

0,061

0,092

0,028

23

0,024

0,013

0,031

0,022

0,074

0,062

0,088

24

0,080

0,074

0,019

0,078

0,039

0,099

0,058

25

0,068

0,052

0,082

0,008

0,078

0,018

0,087

26

0,021

0,060

0,095

0,086

0,090

0,009

0,083

27

0,077

0,086

0,084

0,013

0,091

0,035

0,037

28

0,086

0,074

0,097

0,067

0,079

0,059

0,037

29

0,047

0,072

0,097

0,099

0,005

0,038

0,086

30

0,073

0,072

0,039

0,079

0,007

0,069

0,051

31

0,092

0,049

0,081

0,084

0,085

0,051

0,072

32

0,031

0,074

0,009

0,083

0,040

0,053

0,037

33

0,015

0,084

0,077

0,060

0,069

0,001

0,084

34

0,038

0,049

0,028

0,099

0,008

0,018

0,086

35

0,061

0,022

0,083

0,045

0,085

0,085

0,060

36

0,005

0,020

0,032

0,008

0,044

0,078

0,029

37

0,052

0,043

0,044

0,090

0,021

0,025

0,016

38

0,062

0,042

0,083

0,025

0,050

0,061

0,008

39

0,059

0,060

0,091

0,013

0,095

0,045

0,058

40

0,040

0,014

0,097

0,055

0,095

0,054

0,054

41

0,050

0,002

0,070

0,004

0,031

0,056

0,071

42

0,022

0,014

0,067

0,094

0,036

0,067

0,032

43

0,090

0,018

0,046

0,058

0,039

0,044

0,094

44

0,042

0,084

0,028

0,078

0,082

0,022

0,030

45

0,041

0,075

0,094

0,033

0,053

0,032

0,032

46

0,093

0,003

0,098

0,034

0,006

0,094

0,072

47

0,074

0,097

0,030

0,060

0,069

0,023

0,056

48

0,055

0,050

0,007

0,046

0,069

0,091

0,042

49

0,002

0,022

0,071

0,046

0,006

0,087

0,079

50

0,056

0,040

0,052

0,019

0,057

0,043

0,005

51

0,024

0,005

0,097

0,082

0,098

0,088

0,006

52

0,002

0,048

0,016

0,011

0,008

0,079

0,069

53

0,001

0,089

0,100

0,043

0,097

0,089

0,093

54

0,026

0,088

0,038

0,087

0,016

0,016

0,061

55

0,064

0,073

0,074

0,032

0,052

0,091

0,008

56

0,038

0,053

0,099

0,043

0,026

0,032

0,028

57

0,043

0,067

0,005

0,007

0,092

0,048

0,022

58

0,037

0,029

0,099

0,009

0,063

0,010

0,076

92

Обучение ИНС проводили таким образом, что она автоматически выбирала структуру модели. Время обучения составило 2 недели непрерывной работы компьютера, при этом, приведенная погрешность составила не более 10 %, что позволило считать ИНС-модель адекватной реальному объекту (в данном случае объектом являлся социум, включающий учащихся старших классов школ г. Тамбова). Общая структура полученной сети показана на рис. 2.25, а ее коэффициенты синаптических связей приведены в табл. 2.6–2.9.

Таким образом, разработан многофункциональный программный комплекс (симулятор) для компьютерного моделирования на основе искусственной нейронной сети с самоорганизацией структуры. Комплекс предназначен для построения компьютерных ИНС-моделей объектов различного типа вне зависимости от их природы.

Таблица 2.7

Коэффициенты синаптических связей нейронов первого и второго скрытых слоев ИНС-модели

Номера нейронов

66

67

68

69

59

0,030

0,012

0,014

0,081

60

0,021

0,041

0,001

0,068

61

0,004

0,035

0,080

0,009

62

0,083

0,008

0,016

0,056

63

0,019

0,013

0,089

0,091

64

0,085

0,032

0,003

0,030

65

0,073

0,079

0,024

0,030

Таблица 2.8

Коэффициенты синаптических связей нейронов второго и третьего скрытых слоев ИНС-модели

Номера нейронов

70

71

66

0,010

0,079

67

0,013

0,007

68

0,004

0,094

69

0,014

0,077

Таблица 2.9

Коэффициентысинаптическихсвязейнейроновтретьегоскрытого ивыходногослоевИНС-модели

Номера нейронов

78

70

0,049

71

0,084

93

Примером использования симулятора является компьютерная модель социального объекта – модель личности школьников старших классов города Тамбова в плане их предпочтений к продолжению образования в университете и выборе специальности. Такая модель может быть использована для тестирования абитуриентов и выявления их профессиональных предпочтений. На ее основе нами разработана специальная тестирующая оболочка, выявляющая профессиональную предрасположенность абитуриентов, которая в настоящее время проходит проверку в старших классах школ города Тамбова.

Важными аспектами данной экспертной системы являются:

система может легко адаптироваться к новому контингенту за счет переобучения нейросетевой модели симулятора по вновь поступившим эмпирическим данным;

экспертная система адаптируется к региональным особенностям тестируемого социума;

структура модельной части системы может изменяться во времени, тем самым, учитывая нестационарность тестируемого социума.

2.1.4. Идентификация уровней готовности студентов к трудовой деятельности

В предыдущем разделе была продемонстрирована технология разработки ИНС-модели, позволяющей осуществлять идентификацию уровня готовности абитуриентов к обучению в вузе. Естественно, что подобным образом, на основе эмпирических данных могут быть разработаны и другие системы тестирования. В частности, нами были разработаны ИНСмодели различных психологических тестов1, а также система, позволяющая тестировать студентов старших курсов ТГУ им. Г. Р. Державина на степень их предрасположенности к трудовой деятельности. Данная система базируется на результатах социологического опроса более чем 1000 студентов старших курсов2 и опубликована в работе3.

1Арзамасцев А. А., Зенкова Н. А. Моделирование в психологии на основе искусственных нейронных сетей. Тамбов. ИМФИ ТГУ им. Г. Р. Державина. 2003. 106 с. Арзамацев А. А., Зенкова Н. А. Система психологического тестирования на основе аппарата искусственных нейронных сетей // Искусственный интеллект. 2004. № 2. С. 237-242. Арзамасцев А. А., Зенкова Н. А., Кожевников Ф. Ю. Использование аппарата искусственных нейронных сетей для построения компьютерных моделей психологических тестов // Вестник ТГУ. 2006. Т. 11. Вып. 2.

С. 185-189.

2Арзамасцев А. А., Зенкова Н. А. Социологическое исследование студентов Тамбовского государственного университета им. Г. Р. Державина. Тамбов: ИМФИ ТГУ имени Г. Р. Дер-

жавина, 2005. 63 с.

3Арзамасцев А. А., Азарова П. А., Зенкова Н. А. Модель профессиональных и личностных качеств студентов университета на основе искусственной нейронной сети с адаптивной структурой // Вестник ТГУ. 2007. Т. 12. Вып. 5. С. 633-639.

94

2.1.5.Другие идеи

Впредыдущих разделах были изложены некоторые наши работы в области использования систем искусственного интеллекта в области психологических и социальных наук.

Приведем здесь некоторые наши идеи в данной области. Большая их часть уже подтверждена нашими исследованиями, некоторые еще нуждаются в проверке, а последние имеют смысл гипотез.

Идея 1. С помощью аппарата искусственных нейронных сетей возможно построить адекватные модели существующих систем психо-

логического тестирования. При этом адекватность модели может быть обеспечена за счет обучения (адаптации) ИНС к матрице данных, полученных в ходе многократного рандомизированного прогона теста, с помощью выбора структуры сети, активационных функций нейронов и коэффициентов синаптических связей. Подтверждение этой идеи на примере ИНС-модели теста Йовайши Л. А. приведено в разделе 2.1.1.

Идея 2. Используя адекватную ИНС-модель психологического теста, возможно полностью восстановить его внутреннюю структуру (связи отдельных вопросов или заданий с результатами тестирования,

значимость ответов и т. д.). Дело в том, что компьютерные тесты или тестирующие программы в основном представляют собой выполняемые (двоичные) файлы, «заглянуть» внутрь которых непосредственно не представляется возможным. Однако часто разработчики новых тестов хотели бы знать, какие корреляционные зависимости, закономерности используют авторы уже существующих программ. Обеспечение «прозрачности» тестов важно также и при оценке их валидности, поскольку в этом случае большое значение имеют не только адекватные результаты, полученные в ходе тестирования контрольной группы, но и устройство или структура самого теста. Поскольку, в отличие от выполняемого файла теста, его ИНСмодель открыта, как в смысле ее структуры, так и в смысле значений коэффициентов синаптических связей, то с ее помощью удобно проводить исследование существующих систем тестирования.

Необходимо отметить, что при использовании указанной процедуры естественным образом решаются и правовые проблемы, связанные с получением информации из существующей системы тестирования. Действительно, если речь идет о системе психологического тестирования, представляющей собой свободно распространяемый программный продукт (типа freeware или shareware), то никто не ограничивает пользователя в плане построения адекватной модели такой системы. Дальнейшие же действия, связанные с извлечением полезной информации о структуре и содержании теста, проводятся уже не на нем самом, а на его модели, что должно быть истолковано, как исследование ее свойств.

95

Подтверждение этой идеи на примере ИНС-модели теста Йовайши Л. А. приведено в разделе 2.1.1.

Идея 3. Поскольку любая система психологического тестирования в определенном смысле представляет собой модель личности, то аналогичным образом, в принципе, возможно восстановить структуру и содержание свойств личности (индивида). Под структурой свойств личности будем понимать наличие отдельных компонентов и их взаимосвязь, определяющие реакции индивида на внешние воздействия. Под содержанием будем понимать наполненность каждого из компонентов конкретными свойствами индивида, которые могут быть объективно получены путем его изучения с помощью различных экспериментальных методик, системы тестов, а также наблюдения за ним.

Наибольшие проблемы в реализации этой идеи могут возникнуть в выборе исходной структуры ИНС-модели и получении достоверной информации при ответе респондента на вопросы.

Однако проблем, связанных с выбором исходной структуры можно избежать, если в качестве начальной выбирать некоторую избыточную структуру ИНС. Можно, например, в качестве исходной выбрать структуру, в которой количество входных нейронов равно количеству заданий теста, количество выходных нейронов – количеству тестируемых свойств индивида, а все нейроны нескольких промежуточных слоев связаны друг с другом. В ходе параметрической идентификации ИНС-модели несущественные связи могут быть удалены, а оставшиеся и определят искомую структуры модели.

Проблему, связанную с возможным получением недостоверной информации в ходе тестирования респондента можно решить, если предлагаемые ему задания в явном виде не содержат информации, так или иначе связанной с определяемыми в ходе этого тестирования качествами. Например, если предлагать тестируемому выбрать из совокупности нескольких цветов или геометрических образов один единственный, то в большинстве случаев выбор будет в значительной степени интуитивным. При этом, если выбор объекта коррелирует с определяемым качеством индивида, то цель указанной процедуры будет достигнута.

Идея 4. На основе аппарата искусственных нейронных сетей можно разработать систему тестирования, являющуюся промежуточным вариантом нескольких существующих тестов, так что в ИНСмодели могут быть объединены необходимые исследователю свойства различных систем тестирования. Можно также создать и несколько промежуточных вариантов, отличающихся как унаследованными от их тестов-предшественников выбранными заданиями, так и их значимостью в общей оценке свойств индивида. Возможно также взять за основу существующую систему тестирования, дополнив ее вновь вве-

денными заданиями. Указанные в этой идее возможности необходимы в

96

тех случаях, когда ни одна из существующих (ранее разработанных) систем тестирования не решает в полной мере поставленной исследователем проблемы. Однако некоторые ее части (компоненты) являются вполне приемлемыми. Исследователь сам может трансформировать существующую систему тестирования (или несколько систем тестирования) в нужном ему направлении путем объединения различных существующих программ или дополнения их своими заданиями.

Идея 5. Развитием идеи 4 является возможность эволюционной трансформации ИНС-теста (системы тестирования) путем его дополнения новыми заданиями и адаптации модели к эмпирическим данным до тех пор, пока она не будет полностью настроена на социум. В этом случае речь идет о построении на основе ИНС адаптивных систем тестирования.

В условиях динамично меняющегося общества имеет место нестационарность социума (социально-психологического объекта), обусловленная значительными изменениями традиционной системы связей, ценностей и взаимоотношений субъектов. По этой причине существующие технологии психологического тестирования, опирающиеся на статистические стационарные связи (корреляционные зависимости), имеют ограниченное время жизни. Адаптивная тестирующая система позволяет преодолеть этот недостаток, так как она имеет возможность адаптации к изменившимся условиям путем обучения ИНС-модели на вновь поступающих в процессе тестирования экспериментальных данных. Для такой постоянно эволюционирующей системы тестирования можно говорить о биологических аналогах.

Идея 6. Для реализации адаптивного теста можно использовать модуль первоначальной настройки, обеспечивающий выбор определенной модели личности, а затем тестирование проводить по выбранной модели личности и соответствующей ей ИНС-модели.

Идея 7. Искусственные нейронные сети можно использовать для медицинской диагностики пациентов. Процедура такой диагностики может быть построена следующим образом. С пациентом проводят обычную процедуру сбора предварительных анализов. Их результаты вводятся в качестве исходных данных в ИНС-модель, полученную на основе ранее накопленной информации. Модель в таком случае может дать осредненный для всех предыдущих пациентов диагноз. После подтверждения (или опровержения) диагноза результаты анализа исследуемого пациента и его диагноз также вводятся в обучающую совокупность и сеть переучивается вновь. При таком подходе точность диагностики должна увеличиваться с увеличением числа пациентов. Необходимо отметить также, что из-за наличия у аппарата ИНС аппроксимационных свойств, точность диагностики

97

будет тем выше, чем свойства пациента (его организма) ближе к среднестатистическим. Данная идея реализована нами в работе1.

Идея 8. На основе искусственных нейронных сетей возможно построение модели индивидуального здоровья человека. Предыдущая идея касается лишь грубой диагностики, справедливой для «среднестатистического пациента». Для построения ИНС-модели индивидуального здоровья человека процедура должна быть несколько иной. В ходе предварительного тестирования определяется принадлежность пациента к определенному классу. Принадлежность к такому классу позволяет осуществить выбор «правильной» ИНС-модели. После этого все действия, описанные в предыдущей идее, повторяются.

Идея 9. Для того, чтобы нейронная сеть, обученная на одних эмпирических данных, могла быть дополнена новой структурой связей и затем дообучена на новых данных, необходимо разработать такую про- грамму-оболочку ИНС, чтобы при обучении она не трогала связи и коэффициенты синаптических связей старого ядра, а дообучалась, изменяя (подбирая) коэффициенты синаптических связей только новой части. В

существующих в настоящее время оболочках такой возможности нет.

Идея 10. Телепортация сознания одного индивида в другого или в компьютер. Если бы можно было узнать структуру нейронной сети человека и коэфициенты передачи нейронов, и можно было бы эту информацию перенести на другого индивида или смоделировать ее на компьютере, то, возможно, что другой человек и компьютер в этом случае оказались бы обладателями памяти, манер действий и сознания первого человека.

Следует отметить, что некоторые из приведенных здесь в качестве идей положений кажутся в значительной степени фантастичными, т. к. не все они нашли свое объективное подтверждение в данной работе или других исследованиях. Однако не следует спешить с выводами. Авторам удалось на своем личном опыте убедиться в необычайно высокой обучаемости ИНС, способности этого аппарата, базируемого на относительно простых элементах, решать весьма сложные задачи распознавания образов в случаях, когда исходные данные сильно зашумлены, избыточны или неполны. По сравнению с классическими методами, ИНС обнаруживают значительное сходство в получаемых результатах с естественным интеллектом, характерным для биологических объектов. По всей видимости, указанные свойства являются следствием массового параллелизма при обработке информации. Приведенные здесь рассуждения, а также быстрый прогресс в области информатики и компьютеростроения позволяют авторам надеяться на реализуемость в дальнейшем указанных положений.

1 Арзамасцев А. А., Зенкова Н. А., Неудахин А. В. Технология построения медицинской экспертной системы на основе аппарата искусственных нейронных сетей // Информационные технологии. 2009. № 8. С. 60-63.

98

2.2. Прогнозирование временных рядов на основе ИНС-моделей и практические применения1

Задачи прогнозирования временных рядов на основе математических моделей возникают в различных областях: естественных и технических науках, экономической сфере, социологических и других исследованиях.

Наиболее часто для решения указанных проблем используются методы математической статистики и различные типы авторегрессионных моделей.

Недостатками таких методов являются:

отсутствие в модели представлений о структуре и системе связей реального объекта, что вносит субъективизм в выбор как самой модели, так и ее структуры;

трудность построения моделей при условии, что данные хранятся в разных временных рядах и (или) имеют временные сдвиги относительно друг друга;

недостаточная точность прогноза;

значительная чувствительность получаемых результатов к недостатку информации и (или) ее зашумленности;

потребность в высокой квалификации математиков-програм-

мистов;

зависимость результата прогноза от квалификации аналитика в конкретной предметной области.

Указанные недостатки приводят к необходимости постановки и решения научной задачи, которая заключается в разработке новых математических моделей на основе систем искусственного интеллекта, алгоритмов

испециализированного программного обеспечения, повышающих надежность и точность прогнозов, способных работать в условиях недостатка информации и (или) ее зашумленности, позволяющих получить результат за короткое время (что особенно важно для задач оперативного управления). Программные реализации данных алгоритмов должны иметь дружественный интерфейс для пользователя, позволять специалисту конкретной предметной области моделировать процесс самостоятельно, без участия специалиста-математика.

Одним из методов решения научной задачи является применение для прогнозирования временных рядов математических моделей, основанных на использовании аппарата искусственных нейронных сетей (ИНС), включающего в себя развитую методологию структурного моделирования и методов обучения, базируемых на хорошо развитой теории нелинейного программирования. Однако использование ИНС для решения задач прогнозирования временных рядов до настоящего времени развито в недостаточной степени.

1 В разработке данного раздела принял участие Козадаев А. С.

99

По этой причине следует считать актуальной тему научного исследования, направленную на разработку специализированных ИНС-моделей, соответствующих алгоритмов и программного комплекса, предназначенных для решения задач анализа и прогнозирования временных рядов.

2.2.1. Теоретические основы

Приведем основные определения, используемые в данном разделе.

Под искусственной нейронной сетью будем понимать адекватную в некотором смысле компьютерную модель биологической нейронной сети, отличающуюся от аналога в количественном отношении, но использующую базовые принципы устройства прототипа. В математическом плане ИНС – это набор определенных процедур, хорошо известных в различных областях математики (теория графов, численные методы, методы аппроксимации, методы нелинейного программирования и др.), объединенных с помощью компьютерной программы; универсальный аппроксиматор для функций многих переменных.

Временным рядом будем называть последовательность упорядоченных во времени числовых показателей, характеризующих развитие изучаемого явления или процесса.

Под обучением ИНС-модели будем понимать целенаправленный процесс изменения значений весовых коэффициентов, повторяемый до тех пор, пока сеть не приобретет необходимые свойства.

Рассмотрим порождающий объект и его временной ряд. Пусть объект, порождающий временной ряд, имеет следующую схему (рис. 2.26). Будем считать, что размерность вектора входных координат такого объекта задана и равна n. Выходной величиной объекта является лишь одна координата – y. Отметим, что таким образом представим широкий класс объектов встречающихся в различных областях знаний.

Рис. 2.26. Схема порождающего объекта. x1, x2,…, xn – входные координаты объекта, y – выходная координата объекта

Будем считать заданными временные изменения x1(t), x2(t),…, xn(t) на отрезке t [t0,tk]. Математическая модель такого объекта в операторной форме обычно имеет вид:

100

y = f (x) = f (x1, x2,...,xn ) .

(2.1)

В простейшем случае свойства каналов такого объекта представляют собой обычные пропорциональные звенья с передаточными функциями1 W1(p)=k1, W2(p)=k2,…, Wn(p)=kn. В других случаях передаточные функции каналов могут быть более сложными. Наиболее часто встречаются апериодические звенья первого и второго порядков с передаточными функциями

 

k

 

 

k

W ( p) =

 

и W ( p) =

 

, а также звено чистого запаздывания с

Tp +1

 

(T p +1)(T p +1)

 

 

 

1

2

 

передаточной функцией W ( p) = epτ . Здесь T, T1, T2, k, τ – некоторые коэф-

фициенты, зависящие от природы объекта.

Поэтому, в более общем случае, уравнение (2.1) может быть записано в виде:

y = f (x,t) = f (x1, x2 ,..., xn ,t) .

(2.2)

Поскольку обычно именно такая система и является порождающей для временного ряда, необходимо учитывать ее свойства при его анализе и прогнозировании. Главными из свойств, усложняющими прогнозирование значений ряда по его предыстории, являются: инерционность, запаздывание и наличие стохастической составляющей, связанной как с недостатком информации, так и с погрешностями измерений.

Временным рядом {y(t)} будем называть множество значений некоторой величины (соответствующей выходу порождающего объекта) в последовательные моменты времени, так что:

{y(t)}{y(t0 ), y(t1 ),Ly(ti1 ), y(ti ), y(ti+1 ),L}

(2.3)

Учитывая, что обычно измерения значений y проводят с постоянным шагом h, т. е. ti = t0 +h i, i =1,2,... , ряд (2.3) может быть записан в виде:

{y}{y0 , y1,Lyi1, yi , yi+1,L}

(2.4)

В практически важных случаях число членов ряда известно – k, т. е.

 

{y}{y0 , y2 ,L, yk }.

(2.5)

При прогнозировании временных рядов, порожденных указанным

выше объектом, возможно возникновение следующих ситуаций:

 

наблюдаемым является только ряд {y}; временные

ряды

{x1},{x2},..,{xn}, характеризующие входы объекта, не являются наблюдаемыми; в этом случае необходимо допустить, что вся информация от векторов {x1},{x2},..,{xn }, преобразованная объектом, содержится в векторе {y};

назовем задачу оптимального выбора структуры и настроек ИНС для моделирования и прогнозов данного временного ряда задачей 1;

1 Определение передаточной функции см., например, в книге Бесекерский В. А., Попов Е. П. Теория систем автоматического регулирования. М.: Наука, 1966.

101

вектор{y} и все векторы {x1},{x2},..,{xn } являются наблюдае-

мыми; назовем задачу оптимального выбора структуры и настроек ИНС для моделирования и прогнозов данного временного ряда задачей 2;

– наблюдаемыми является вектор {y} и часть векторов {x1},{x2},..,{xn}; в этом случае необходимо допустить, что вся информация от

ненаблюдаемых входных векторов также содержится в векторе {y}; назовем задачу оптимального выбора структуры и настроек ИНС для моделирования и прогнозов данного временного ряда задачей 3.

В соответствии с теоремами А.Н. Колмогорова о представимости функций нескольких переменных с помощью суперпозиций и сумм функций одного переменного, можно утверждать, что каждая непрерывная функция n переменных, заданная на единичном кубе n-мерного пространства, представима в виде:

2n+1

n

 

 

f (x1, x2 ,..., xn ) = hq ϕqp (xp ) ,

(2.6)

q=1

p=1

 

 

где функции hq (u) непрерывны, а функции ϕqp (x p ), кроме того, еще и стан-

дартны, т. е. не зависят от выбора функции f. Так, например, функция 2-х переменных x1 и x2 может быть представлена в виде:

5

 

f (x1, x2 ) = hq [ϕq (x1) q (x2 )].

(2.7)

q=1

Сточки зрения схемотехники ИНС уравнение (2.7) может быть представлено с помощью следующей ИНС-модели (рис. 2.27).

Для функции n переменных число синаптических связей, соответствующее формуле (2.6) и общему принципу схемотехники ИНС (рис. 2.27), составит:

P = n (2n +1)+n (2n +1)+2n +1 = 4n2

+4n +1

(2.8)

1

 

Очевидно, что число строк в обучающей выборке должно быть не меньше числа степеней свободы. Учитывая, что число строк в обучающей выборке можно выразить как P2 = k n h +1 (здесь k – общее число членов временного ряда, h – дальность прогноза по ИНС-модели, см. рис. 2.28, получим, что должно удовлетворяться следующее неравенство:

P P , 4n2

+4n +1 k n h +1

,

(2.9)

1 2

 

решением которого будет:

n1 n n2 ,

n1

=

5 25 +16(k h)

, n2 = 5 +

25 +16(k h)

(2.10)

 

 

 

8

 

8

 

102

Рис. 2.27. Представление функции двух переменных (2.7) в виде ИНС-модели. Число степеней свободы такой модели равно количеству синаптических связей сети, т. е. в данном случае составляет 25

Рис. 2.28. Схема, связывающая длину временного ряда, число входов ИНС-мо- дели, дальность прогноза с числом строк в обучающей выборке

Учитывая также, что должно выполняться n 1, окончательно получим область допустимых значений для числа входов ИНС для задачи 1:

1 n

5 + 25 +16(k h)

(2.11)

 

8

 

103

При этом обучающая выборка для произвольного, заданного числа входов ИНС для задачи 1 может быть задана матрицами:

 

y

y

 

 

1

 

2

 

y2

y3

X =

M

M

 

 

 

 

 

 

yk nh+2

yk nh+1

L

y

n

 

 

 

 

 

 

L

yn+1

 

 

M

M

 

,

 

 

 

 

 

L yk h+1

yn+h+1

Y= yn+Mh+2 . (2.12)

yk

При этом начальная структура1 сети ИНС-модели будет следующей: один слой из n входных нейронов, скрытый слой из n (2n +1) нейронов, реализующих преобразование в соответствии с функциями нейронов

ϕqp (x p ) , скрытый слой из (2n +1) нейронов, реализующих преобразование

всоответствии с функциями нейронов h (рис. 2.27) и выходной слой, состоящий из одного нейрона. Эта структура сети в дальнейшем может быть усложнена в соответствии с алгоритмом, описанным в главе 1.

Для определения оптимального числа входов ИНС – n для задачи 1 необходимо определить минимум функционала:

F{w[S(n)]}=

 

 

 

 

 

 

 

=

 

 

 

Ytabl Ynet (w)

 

 

 

= ∑∑p k (Yij tabl Yij net (w))2 min . (2.13)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1 j =1

w

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вектор w определяется структурой сети S, которая, в свою очередь, связана с числом ее входов n так, что имеется однозначное соответствие n и w(S). Поэтому вектор w*, зависящий от структуры сети и минимизирующий функционал (2.13), соответствует оптимальной ИНС-модели данного

временного ряда {y} и может быть определен как:

w* = arg min F (w),

(2.14)

w Ω

 

где область Ω характеризует возможные значения векторов весовых коэффициентов, соответствующих структурам сетей, для которых выполняется условие (2.11). Необходимо отметить, что для минимизации функционала (2.13) и поиска аргументов, соответствующих его минимуму (2.14), в исследовании используются хорошо развитые в настоящее время методы нелинейного программирования. После определения оптимальной ИНС-мо-

дели временного ряда {y} ее структура является также определенной, что позволяет говорить и о нахождении оптимального числа входов такой модели – n*. На рис. 2.28 показано, что количество обучающих векторов всегда будет меньше, чем размер исходного ряда на (n+h).

1 Теорема А. Н. Колмогорова не дает информации о виде нелинейностей ИНС-модели, поэтому ее рекомендации, соответствующие уравнению (6), можно рассматривать лишь как начальную структуру сети, которая в дальнейшем будет усложняться по специальному алгоритму, описанному в следующих разделах.

104

При рассмотрении множественных временных рядов необходимо рассчитать коэффициенты парной корреляции (2.15) для выявления необходимого смещения (2.16) при формировании обучающей выборки.

 

nk

 

nk

nk

 

 

 

 

rk =

X tYt +k X t Yt +k /(n k)

 

(2.15)

t=1

 

t=1

t =1

 

 

 

 

 

 

 

 

 

nk

nk

2

 

n

 

n

2

 

Yt

2 Yt

/(n k )

X t2

X t

/(n k )

t=k

t=k

 

t=k +1

t =k +1

 

 

 

 

 

 

 

 

 

 

 

Определим необходимый сдвиг:

 

 

 

 

 

 

λ = max{τ1, τ2 ,..,τn }

 

 

 

 

 

(2.16)

Тогда обучающая выборка с учетом временных сдвигов для решения задач 2 и 3 может быть задана матрицами:

 

x1,λ−τ

x2,λ−τ

 

L

xn,λ−τ

 

 

 

 

yλ

 

 

 

 

1

x2,λ−τ

2

L xn,λ−τ

n

 

 

 

 

 

 

 

 

x1,λ−τ +1

+1

+1

 

,

yλ+

 

(2.17)

X =

M 1

 

M 2

 

M

 

M n

 

 

Y =

M

1

.

 

x

x

 

 

L

x

 

 

 

 

 

 

 

 

 

 

 

 

2

 

n

 

 

 

y

k

 

 

 

 

1

 

2,k −τ

 

 

n,k −τ

 

 

 

 

 

 

 

1,k −τ

 

 

 

 

 

 

 

 

 

 

 

 

2.2.2. Программный комплекс и вычислительные эксперименты

Программный комплекс для моделирования временных рядов разра-

ботан в среде Borland ® Turbo Delphi ® for Microsoft ® Windows TM Copyright © 2005 Borland ® Software Corporation. Структура данного комплекса продиктована постановкой задачи и включает в себя программные реализации алгоритмов предварительных преобразований (применение методов фильтрации и формирование обучающих выборок) и нейросетевого моделирования.

Программный комплекс состоит из двух подсистем: подсистемы предварительной обработки данных в задачах прогнозирования временных рядов и подсистемы нейросетевого моделирования.

Подсистема предварительной обработки данных состоит из четырех компонент: 1) модуль формирования обучающей выборки для одиночных временных рядов; 2) модуль формирования обучающей выборки для множественных временных рядов; 3) модуль фильтрации; 4) модуль анализа обучающей выборки.

Модуль формирования обучающей выборки позволяет создавать последнюю для одиночных рядов с учетом требований, сформулированных в начале данного раздела.

С помощью модуля фильтрации производится удаление пропусков в исходном временном ряде. В программной реализации в качестве фильтров применены ортогональные вейвлеты (вейвлет Добеши) с использова-

105

нием быстрого вейвлет-преобразования (алгоритм Малла). Поскольку модуль формирования обучающей выборки для одиночного временного ряда и модуль фильтрации объединены в одно программное решение, допустимо формирование выборки из исходного или преобразованного множества (по выбору пользователя). На данное программное решение получено свидетельство о государственной регистрации программы для ЭВМ1.

Модуль формирования обучающей выборки для множественных временных рядов предназначен для формирования выборки сучетом задач 2 и 3.

Модуль анализа обучающей выборки предназначен для оценки качества ранее сформированной (вне данного программного комплекса) выборки. Оценка качества ведется на основании выполнения основных требований к формированию обучающей выборки – принципов повторяемости и непротиворечивости.

Рис 2.29. Корреляция эмпирических данных по плотности популяции креветки в Индийском океане и расчетов по ИНС-модели

1 Свидетельство о государственной регистрации программы для ЭВМ 2008611022 Российская Федерация. Программа вейвлет-анализа и предварительной обработки данных для обучения искусственной нейронной сети / А. С. Козадаев, А. А. Арзамасцев. (RU); правообладатели А. С. Козадаев, А. А. Арзамасцев. № 2008611022; заявл. 28.12.07; зарегистрировано в реестре программ для ЭВМ 26.02.08. – 1 с.

106

Подсистема нейросетевого моделирования представлена эмулятором искусственной нейронной сети, в основу которого положена ИНС – многослойный персептрон, обучаемый по модифицированному алгоритму обратного распространения ошибки. Модификация состоит в дополнении алгоритма автоматической конфигурацией на этапе структурного синтеза, что позволяет получить адекватную ИНС-модель временного ряда с минимальными затратами времени.

Программный комплекс проверяли при прогнозировании реальных временных рядов по: температуре воздуха в г. Тамбове, 2000–2005 гг., численности популяции креветки в Индийском океане, 1996–1998 гг., значениям котировок на рынке Forex, 2003–2004 гг.

Так, на рис. 2.29 показан результат моделирования временного ряда, содержащего данные о популяции креветки в Индийском океане, с заданной дальностью прогноза h = 1, что соответствует реальной продолжительности в 10 суток. За счет выбора оптимальной структуры сети и параметрической идентификации ИНС-модели была достигнута средняя относительная погрешность обучения 0,03 %, что позволило получить прогноз

спогрешностью в 0,08 %.

2.3.Системы распознавания речи

Ученые, инженеры, писатели и другие творческие работники, а также и политические деятели значительную часть своего рабочего времени обычно посвящают написанию различных текстов: статей, книг, описаний, документов и т. д. Подготовка таких материалов требует много сил и энергии. В то же время, подготовка этих же материалов в виде устного доклада, сообщения или рассказа требует значительно меньших ресурсов. Поэтому актуальными являются следующие желания.

Желание 1. Автор диктует компьютеру текст, лёжа на диване, а на выходе принтера появляется красиво отпечатанная книжка, диссертация или дипломная работа!

Желание 2 (более скромное). Автор диктует, а компьютер записывает сказанное в текстовый файл.

Основная идея: найти в образах звуков (слов) некоторые существенные различия и использовать их при идентификации этих образов и записи их текстовых вариантов в файл. Так, мы должны иметь библиотеку образов и их текстовых аналогов. Образы различаем, а аналоги пишем в файл. Позже файл еще можно проверить на наличие ошибок.

Главный вопрос: Что может выступать в качестве таких образов?

107

2.3.1. Существующие подходы

Рассмотрим изображение нашей речи в амплитудно-временной области (рис. 2.30). Именно такой сигнал мы увидим, если проведем визуализацию сигнала со звуковой карты компьютера или микрофона.

Может показаться, что изображения отдельных слов значительно различаются. Поэтому, первые идеи, которые обычно приходят к разработчику системы распознавания речи следующие:

данная задача не такая уж трудная, если отдельные слова различаются их графическими образами весьма существенно (рис. 2.30);

совсем не трудно придумать какой-либо алгоритм, способный различать такие образы, которые представлены на рисунке.

Однако на деле все обстоит куда более сложно, о чем косвенно свидетельствует и тот факт, что до настоящего времени так и не разработано эффективных программ не только для русского, но и для английского языков.

Приведем здесь лишь некоторые причины сложности данной проблемы:

образы слов, фонем, звуков, аналогичные, приведенным на рис. 2.30, существенным образом зависят от диктора, что делает результаты работы системы, основанной на распознавании подобных образов, пригодной лишь для одного диктора, для которого и была получена библиотека образов;

Рис. 2.30. Изображение (амлитудно-временная характеристика) речи – диктор произносит цифры «раз, два, три, четыре, …, десять» – a). По оси абсцисс – время, по оси ординат – амплитуда сигнала. Моно, частота 44100 Hz, битовая глубина 16 bit. Слово «один» – b) и слово «девять» – c) с лучшим разрешением по времени

108

часто графические образы различных слов и фонем очень похожи друг на друга (как для различных, так и для одного диктора), что делает малоэффективными любые алгоритмы их распознавания;

некоторые слова очень похожи в произношении; их можно различить исключительно по контексту;

человеческая речь часто не является правильной;

громкость звука, тембр голоса, наличие звукового фона, эха и задержек усложняет распознавание речи.

Несмотря на указанные сложности, механизм распознавания речи человека и высших животных работает исключительно надежно! Это позволяет надеяться, что подобные алгоритмы, в конце концов, будут созданы!

К наиболее распространенным алгоритмам, которые уже сейчас широко используются, но не принесли пока ожидаемого успеха можно отнести следующие идеи.

Простой коррелятор. В соответствие с этой идеей предполагается построить коррелятор, т. е. программу, которая определяет взаимокорреляционные функции двух объектов: временного ряда, соответствующего некоторому заданному образу (библиотека образов) и идентифицируемому образу; образ считается соответствующим заданному, если его коэффициент корреляции самый высокий среди всех образов библиотеки:

 

 

 

nk

 

nk

nk

 

 

 

 

 

 

 

 

 

 

X tYt+k Yt Xt+k /(n k)

 

 

 

 

rk =

 

 

t=1

 

t=1

t=1

 

 

 

 

 

 

(2.18)

 

nk

2

 

 

 

 

 

 

2

 

nk

 

n

 

n

Yt2

 

Yt /(n k )

Xt2

 

Xt /(n k )

 

t=k

 

t=k

 

t=k +1

 

t=k +1

 

 

 

 

Данный алгоритм тестировался одним из первых. Он оказался вполне приемлемым для распознавания ограниченного (несколько сотен) набора слов, произнесенных одним диктором. При смене диктора алгоритм не обеспечивает должное качество распознавания.

Метод моментов инерции. В соответствие с этой идеей предполагается, что моменты инерции, рассчитанные для различных образов, различаются между собой «сильнее», чем, например, их взаимокорреляционные функции (2.18). Кроме того, предполагается, что в этом случае зависимость от диктора является более «слабой». Моменты инерции для A(t) могут быть рассчитаны по следующим формулам (рис. 2.31):

b

 

 

b

 

 

 

 

I y = δx

2

dl x

2

2

dx .

(2.19)

 

 

1+( y )

 

a

 

 

a

 

 

 

 

 

b

 

 

 

 

 

 

 

 

I y = δx2 ydx .

 

 

 

 

 

(2.20)

a

109

Здесь, уравнение (2.19) представляет собой момент инерции дуги однородной кривой, а уравнение (2.20) момент инерции однородной плоской фигуры (рис. 2.31).

Рис. 2.31. К расчету моментов инерции геометрических фигур. В качестве y(x) может быть выбрана зависимость A(t) – рис. 2.30

При тестировании данного алгоритма оказалось, что он имеет все недостатки, присущие коррелятору.

Методы распознавания, базируемые на спектральном анализе. В

настоящее время наибольшее распространение в системах распознавания речи нашли методы спектрального анализа (Преобразование Фурье).

В задачах распознавания образов бывает необходимо заменить периодическую функцию f(x) с периодом T точно или приближенно следующей тригонометрической суммой:

s

n

(x)=

a0

+ a cosωx + a

2

cos2ωx +... +a

n

cosnωx +

 

 

 

 

2

1

 

 

(2.21)

 

 

 

 

 

 

 

 

 

 

+b1 sin ωx +b2 sin 2ωx +... +bn sin nωx,

 

 

 

 

где, ω = 2π/T. Приближение sn(x) к f(x) является наилучшим, если за коэффициенты ak и bk (k = 0,1,2,…) выбраны коэффициенты Фурье данной функции:

 

2

 

T

x0 +T

ak =

 

f (x)coskωxdx =

2

f (x)coskωxdx =

T

T

 

 

 

 

0

 

x0

 

 

2

 

T / 2

(2.22)

 

 

 

 

 

=

 

[ f (x) + f (x)

]coskωxdx,

T

 

 

 

 

 

0

 

 

110

 

2

 

T

 

 

2

x0 +T

 

bk =

 

f (x)sin kωxdx =

f (x)sin kωxdx =

 

T

 

T

 

 

 

 

0

 

 

 

x

 

 

 

 

 

 

 

 

 

0

 

 

 

2

 

T / 2

 

 

 

 

(2.23)

=

 

 

[

f (x) f (x)

]sin kωxdx

 

T

 

 

 

 

 

0

 

 

 

 

 

Если коэффициенты ak и bk будут определены по этим формулам, то

средняя квадратическая ошибка будет наименьшей, т. е.:

 

 

 

 

δ2 =

1

T [f (x)sn

(x)]2 dx min

(2.24)

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

Если, для некоторой совокупности значений x, sn(x) при n→стремится к определенному пределу s(x), то для этих x мы имеем сходящийся ряд Фурье данной функции f(x):

s(x) = a20 +a1 cosωx +a2 cos2ωx +... +an cosnωx +... + +b1 sin ωx +b2 sin 2ωx +... +bn sin nωx +...

Ряд Фурье может быть также записан в виде:

s(x) = a20 + A1 sin(ωx 1) + A2 sin(2ωx 2 ) +... + An sin(nωx n ) +..., (2.25)

где,

A = a2

+b2

, tgϕ

k

= ak .

k

k

k

 

bk

 

 

 

 

 

 

Нахождение ряда Фурье данной функции f(x) составляет задачу гармонического анализа.

Разложение в ряд Фурье непериодических функций. Всякая функция f(x), удовлетворяющая на промежутке 0 x l условиям Дирихле, может быть разложена на этом промежутке в сходящиеся ряды видов:

f

(x) =

a0

 

+a

 

 

cos

2πx

+a

2

cos 2

2πx

+... +a

n

cos n

2πx

+...

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

1

 

 

 

 

l

 

 

 

 

 

l

 

 

 

 

 

l

 

 

 

 

 

 

 

2πx

 

 

 

 

 

2πx

 

 

2πx

 

 

(2.26)

 

 

+b

 

sin

 

 

+b sin 2

+... +b sin n

+...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

l

2

 

 

 

 

l

 

 

 

n

 

 

l

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f2

(x) =

a0

 

+ a1 cos

 

πx

+ a2 cos2

 

πx

+... + an cosn

πx

+... ,

(2.27)

 

 

 

 

 

 

или

 

2

 

 

 

 

 

 

 

 

 

l

 

 

 

 

 

 

 

l

 

 

 

 

l

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f3(x) = b1 sin

 

πx

+b2 sin2

 

πx

+... +bn sinn

πx

+...

 

 

(2.28)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

l

 

 

 

 

 

 

l

 

 

 

 

 

l

 

 

 

 

 

 

 

 

111

Условия Дирихле: а) интервал, на котором функция определена, может быть разбит на конечное число интервалов, в каждом из которых f(x) непрерывна и монотонна; б) во всякой точке разрыва f(x) существуют f(x+0) и f(x–0).

Действие указанных уравнений показано на рис. 2.32. Несмотря на то, что данное направление в настоящее время исследуется наиболее интенсивно, оно пока не привело к разработке пригодных для использования программ.

Рис. 2.32. Амплитудно-временные диаграммы слов «один» и «девять» и спектры данных сигналов

Наши идеи. Основу наших идей во многих работах составлял бионический принцип, главная аксиома которого состоит в том, что Природа и многие ее объекты «сделаны» в достаточной степени удачно! Поэтому, если нам хочется создать некое техническое устройство, надо посмотреть, как такое (или подобное) устройство реализовано в Природе и попытаться воспроизвести данные технологические приемы и принципы.

112

2.3.2. Подход к построению систем распознавания речи на основе математической модели органа слуха

Вслучае, если говорить о принципах разработки программы для распознавания речи, мы предлагаем следующий подход:

– изучить физиологические и морфологические особенности органа слуха человека;

– понять биофизические принципы устройства данного органа и составляющих его элементов;

– разработать математическую модель (модели) базовых процессов, проходящих в органе слуха и органах последующей обработки информации;

– добиться адекватности такой модели с помощью приемов, хорошо известных в математическом моделировании (параметрической и структурной идентификации, статистических и корреляционных методов).

Вслучае, если такая математическая модель получится адекватной реальному объекту (органу слуха), то от нее можно ожидать и схожих результатов распознавания речи! При этом, конечно, может оказаться, что вычислительные ресурсы должны быть весьма существенными, например, может оказаться, что такая система не сможет работать в реальном времени или потребует ресурсов кластерных систем.

Далее мы опишем общие принципы такой системы. Так, на рис. 2.33 показана общая схема преобразования информации в системе распознавания речи. Наиболее тонкими элементами данной технологии являются блоки 2 и 3, позволяющие выделять некоторые объекты, характерные для речи и проводить их сравнение с образцами, хранимыми в библиотеке образов с целью идентификации текстовых вариантов данных объектов.

Ранее мы убедились, что в качестве таких объектов могут быть выбраны участки A(t) (или их нормированные значения), соответствующие фонемам, моменты инерции таких фонем и их спектры. Однако указанные подходы не дали положительных результатов. Поэтому наша идея состоит

впостроении математической модели органа слуха человека и использовании основных феноменов, показанных на рис. 2.34–2.38.

Так на рис. 2.34 показана общая схема преобразования звукового сигнала от его поступления в ушную раковину, до подведения к улитке1. В наружном, среднем и внутреннем ухе происходят необходимые для слухового восприятия подготовительные процессы, смысл которых состоит в оптимизации параметров передаваемых звуковых колебаний при одновременном сохранении характера сигналов. Во внутреннем ухе происходит преобразование энергии звуковых волн в рецепторные потенциалы волосковых клеток.

1 См., например, http://meduniver.com/Medical/Physiology/311.html

113

Рис. 2.33. Общая схема преобразования информации при распознавании речи

Рис. 2.34. Структура периферической слуховой системы человека

114

Основным элементом, осуществляющим преобразование и начальное распознавание звуковой информации является улитка, конструкция которой приведена на рис. 2.35. Основным чувствительным элементом является волосковая клетка, которая может быть в обычном состоянии (0) и состоянии возбуждения (1). Рецептирующие клетки органа слуха – это волосковые клетки. Эти клетки располагаются на утолщении базилярной мембраны. Волосковые клетки иннервируются чувствительными нейронами. Электрические реакции волосковых клеток и чувствительных нейронов аналогичны таковым в вестибулярной системе. Большинство нейронов возбуждается звуками строго определенной частоты. Расположение частот вдоль базилярной мембраны показано на рис. 2.36. На рис. 2.37–3.38 показаны макроскопические характеристики органа слуха, которые можно использовать для настройки его математической модели.

Рис. 2.35. Улитка внутреннего уха представляет собой замкнутую с одной стороны костную трубку, свернутую в спираль. Просвет этой трубки разделен двумя перепончатыми мембранами – рейснеровой (1) и базилярной (2) – на три продольных канала (т.н. лестницы). Лестницы заполнены жидкостью (перилимфой или эндолимфой). Две лестницы – вестибулярная (3) и барабанная (5) – соединяются друг с другом в дистальной части улитки, которая называется «геликотрема» (12). Вестибулярная лестница открывается в среднее ухо овальным окном (10), которое закрыто плоской частью стремечка. Барабанная лестница открывается в среднее ухо круглым окном (11), которое затянуто эластичной мембраной

115

Рис. 2.36. Тонопическое расположение частот в Герцах вдоль базилярной мембраны уха человека

Рис. 2.37. Линии равной громкости чистых тонов

116

Рис. 2.38. Болевые пороги и кривые равной слышимости

На рис. 2.39 показано схематичное (для моделирования) устройство волосковой клетки, представляющей собой аналог известного в технических системах устройства – резонатора. Он имеет массу m, сосредоточенную в «шарике», коэффициент сопротивления в жидкости – k и коэффициент упругости b.

Таким образом, применив закон Ньютона, легко получить дифференциальное уравнение движения такого «шарика» – верхней части волосковой клетки:

mx +kx +bx = F (t)

(2.29)

&& &

 

Дифференциальное уравнение (2.29) обычно называют дифференциальным уравнением малых вынужденных колебаний. Оно может быть также записано в виде1:

&&

&

2

1

F (t)

(2.30)

 

 

x

+2δx + ω0 x =

b0

 

 

 

 

 

где F(t) – обобщенная внешняя сила, сопряженная, с обобщенной координатой х. Сила F(t), вызывающая вынужденные колебания системы, называется возмущающей или вынуждающей силой.

1 Яворский Б. М., Детлаф А. А. Справочник по физике. М.: Наука, 1971. С. 119-121.

117

Рис. 2.39. Упрощенная модель волосяной клетки

Общее решение уравнения (2.30) равно сумме его частного решения x1 и общего решения х2, соответствующего однородного уравнения (т. е.

при F(t) = 0):

x = x1 + x2

(2.31)

Как известно, свободные затухающие колебания в системе (2.29) (т. е. при F(t)=0) имеют вид:

x2 = A0e−δt sin(ωt 0 )

(2.32)

Поэтому по истечении некоторого промежутка времени после начала вынужденных колебаний, соответствующего переходному режиму, величиной х2 можно пренебречь и считать, что при установившихся вынужденных колебаниях х = х1.

Если возмущающая сила изменяется по гармоническому закону:

F(t)= F0 cosΩt,

(2.33)

то установившиеся вынужденные колебания также являются гармоническими, причем совершаются с той же циклической частотой Ω:

x = Acos(Ωt 1 )

(2.34)

где

F0

 

A =

(2.35)

(ω2 −Ω2 )2

b0

+4δ2Ω2

118

 

 

и

tg ϕ1

= −

2δΩ

 

(2.36)

2

2

 

 

ω −Ω

 

 

 

0

 

 

Кривые зависимости от Ω амплитуды А и угла ϕ1 сдвига фазы вынужденных колебаний приведены на рис. 2.40.

Рис. 2.40. Зависимости амплитуды вынужденных колебаний – a) и сдвига фазы этих колебаний – b) от Ω при различных значениях δ.

Максимальное значение амплитуды Аmax соответствует циклической частоте

Ω0 = ω02 2δ2 ,

(2.37)

которая несколько меньше собственной циклической частоты колебаний системы ω = ω02 2δ 2 ,

Amax =

F0

(2.38)

2δb0ω

 

 

Из этой формулы следует, что при δ→0 Amax→∞. Однако такая экстраполяция неправильна, так как с возрастанием амплитуды колебания перестают быть малыми и к ним неприменима рассмотренная выше теория.

Явление резкого возрастания амплитуды вынужденных колебаний системы при приближении циклической частоты возмущающей силы к значению Ω0 называется резонансом, а величина Ω0 – резонансной циклической частотой.

Увеличение коэффициента затухания δ приводит к сглаживанию резонансных кривых (рис. 2.40) и уменьшению Amax, т. е. к значительному ослаблению явления резонанса.

Таким образом, используя представления:

– о волосковой клетке, как о резонаторе, описываемом уравнениями (2.29)–(2.38); каждая волосковая клетка имеет пороговый уровень,

119

так, что сигнал на выходе клетки считается единицей, если реальная амплитуда превышает величину порогового уровня и равной нулю, если меньше этого уровня;

– о звуковом сигнале, как о совокупности значительного числа гармонических колебаний можно сказать, что наша система распознавания речи должна преобразовывать реальный звуковой сигнал в последовательность примерно 1000 (по числу волосковых клеток) дискретных каналов, каждый из которых принимает значения 0 или 1. Длительность одного такта (одна фонема) такой системы должна быть в пределах 0,01–0,2 секунды. Данная последовательность должна подаваться на ИНС, имеющей такое же (около 1000) число входов, осуществляющей распознавание в соответствии со схемой, показанной на рис. 2.41.

Рис. 2.41. Общая схема преобразования информации в соответствие с нашей

идеей

2.4. Информационная технология построения экспертной системы (ЭС) с интеллектуальным ядром на основе искусственных нейронных сетей1

Необходимость в экспертных системах (ЭС), как в интеллектуальных помощниках, способных решать трудноформализуемые задачи, существует во многих сферах человеческой деятельности: промышленности, научных исследованиях, социальной и экономической областях.

В то же время, создание и эксплуатация таких систем, характеризуется в настоящее время рядом трудностей и ограничений:

1 Совместно с Зенковой Н. А. и Неудахиным А. В.

120

высокой трудоемкостью процессов построения баз знаний ЭС, связанной с формализацией знаний экспертов и их машинным представлением, а в некоторых случаях невозможностью такой формализации вследствие большого количества невербальных данных, влияющих на оценку эксперта;

необходимостью привлечения дополнительного круга специалистов – инженеров по знаниям и разработки специализированного программного обеспечения или адаптации существующих ЭС под конкретные условия рассматриваемой предметной области;

преобладанием локального подхода к организации взаимодействия с ЭС, тогда как в настоящее время все большое распространение и доступность получают сетевые информационные системы, например, вебориентированные.

Таким образом, становится актуальной задача разработки новой информационной технологии, позволяющей устранить вышеуказанные трудности и ограничения, путем автоматизированного формирования базы знаний для конкретной предметной области на основе распределенного сетевого ввода данных.

Решение данной задачи возможно за счет использования в качестве системы представления знаний в ЭС моделей искусственных нейронных сетей (ИНС-моделей). Применение таких моделей позволит обеспечить автоматизированное формирование развивающейся (по мере поступления информации от источников) системы представления знаний, отличающейся высокой степенью адаптируемости к эмпирическим данным и существенной гибкостью за счет алгоритмов выбора начальной структуры ИНС и

еемодификации.

Поскольку формирование развивающейся системы представления знаний ЭС предполагает ее совершенствование на основе постоянно поступающих новых данных от распределенных терминалов, в качестве одного из главных условий реализации данного класса ЭС является разработка системы сетевого доступа, позволяющей обеспечить передачу информации, а также управление ЭС посредством веб-интерфейса.

Преимуществами предлагаемых способов решения задачи разработки информационной технологии являются: отсутствие пространственных ограничений по взаимному расположению источников данных, самой ЭС и ее пользователей; независимость процедуры формирования базы знаний от области использования ЭС; автоматизированная генерация знаний.

Целью данного раздела является повышение эффективности процесса построения ЭС путем разработки информационной технологии, предполагающей использование развивающейся системы представления знаний на базе ИНС-модели и системы распределенного сетевого ввода данных.

Для достижения поставленной цели необходимо решить следующие основные задачи:

121

проанализировать индустрию ЭС: исследовать современные разработки и технологии построения, определить стратегии их совершенствования;

построить концептуальную модель ЭС, позволяющую использовать развивающуюся систему представления знаний, основанную на ИНСмодели, посредством веб-интерфейса;

разработать информационную технологию построения ЭС на основе нейросетевых моделей и с распределенным вводом данных;

создать аналитические модели для планирования процессов формирования развивающейся системы представления знаний ЭС, и соответствующую функциональную модель ее жизненного цикла;

разработать специализированное программное обеспечение (ПО), позволяющее осуществлять построение, совершенствование и эксплуатацию ЭС с распределенным вводом данных и использующей нейросетевую модель знаний;

провести апробацию ПО на примере создания ЭС для медицинских и социологических исследований.

2.4.1.Области применения экспертных систем

иосновные достижения

Внастоящее время общепринятым стало утверждение, что по определению предметом интереса области искусственного интеллекта являются те информационные проблемы, которые не могут быть решены с помощью традиционных технологий. Одним из классов систем искусственного интеллекта являются экспертные системы. Рассмотрению экспертных систем как классу систем искусственного интеллекта посвящены многочисленные работы российских и зарубежных ученых.

Вразличных литературных источниках определение термина «экспертная система» имеет различные формулировки, но схожий смысл. Например, систему искусственного интеллекта, построенную на основе высококачественных специальных знаний о некоторой предметной области (полученных от экспертов – специалистов этой области), называют экспертной системой. ЭС – система искусственного интеллекта, включающая знания об определенной слабо структурированной и трудноформализуемой узкой предметной области и способная предлагать и объяснять пользователю разумные решения. ЭС – это компьютерная система, использующая знания одного или нескольких экспертов, представленные в некотором формальном виде, а также логику принятия решения человекомэкспертом в трудноили неформализуемых задачах.

ЭС – один из немногих видов систем искусственного интеллекта, которые получили широкое распространение и нашли практическое применение. Областью применения ЭС являются такие сферы человеческой дея-

122

тельности, где большая часть знаний является личным опытом специалистов высокого уровня, либо эти знания слабоструктурированы и не поддаются формализации в виде явных зависимостей. С помощью ЭС продуктивно решаются задачи, для которых нет строгой устоявшейся теории, мало специалистов и данные зашумлены (имеются количественные или качественные ошибки). Трудноформализуемые задачи могут возникать в различных сферах деятельности. Существуют экспертные системы по военному делу, геологии, инженерному делу, информатике, космической технике, математике, медицине, метеорологии, промышленности, сельскому хозяйству, управлению, физике, химии, электронике, юриспруденции и т. д. И только то, что ЭС остаются весьма сложными, дорогими, а главное, узкоспециализированными программами, сдерживает их еще более широкое распространение.

Практика показывает, что экспертные системы могут заменить человека в ряде областей, хотя их возможности и ограничены.

Наиболее очевидные преимущества ЭС – это избавление от рутинной работы, экономия времени и анализ всей доступной информации. Но существуют и другие: накопление опыта экспертов (систему можно наращивать знаниями многих специалистов); применение в обучении экспертов (появляется возможность ознакомиться с методами работы эксперта на основе базы знаний). При добавлении в ЭС способности к обучению получается система, которая не просто дает правильные ответы, исходя из отрывочных и противоречивых фактов, но и учится на собственных ошибках, что дает ей возможность «расти над собой», набираться опыта, и, возможно, вылавливать новые закономерности.

Главный недостаток ЭС – это невозможность пользоваться невербальной информацией, которую получает эксперт. Однако вполне реально, например, типировать людей по рассказам о них, по биографии, или литературных героев. В этом случае информация лишена невербальной компоненты, но приводит к ответу.

Область применения ЭС наиболее широко можно классифицировать по типу решаемых задач: диагностика, прогнозирование, планирование, проектирование, интерпретация, контроль и управление, обучение.

Диагностика. ЭС выполняют диагностирование, используя описания ситуаций, характеристики поведения или знания о конструкции компонентов, чтобы установить вероятные причины неправильно функционирующей диагностируемой системы. Примерами служат определение причин заболевания по симптомам, наблюдаемым у пациентов; локализация неисправностей в электронных схемах и определение неисправных компонентов в системе охлаждения ядерных реакторов. Диагностические системы часто являются консультантами, которые не только ставят диагноз, но и помогают в отладке. Они могут взаимодействовать с пользователем, чтобы оказать помощь при поиске неисправностей, а затем предложить порядок

123

действий по их устранению. Медицина представляется вполне естественной областью для диагностирования, и действительно, в медицинской области было разработано больше диагностических систем (MYCIN, DENDRAL, НЕФРЭКС, PUFF и т. д.), чем в любой другой отдельно взятой предметной области. Однако в настоящее время многие диагностические системы разрабатывают для приложений к инженерному делу и компьютерным системам.

Прогнозирование. ЭС, осуществляющие прогноз, определяют вероятные последствия заданных ситуаций. Примерами служат прогноз ущерба урожаю от некоторого вида вредных насекомых, оценивание спроса на нефть на мировом рынке, прогнозирование места возникновения следующего вооруженного конфликта на основании данных разведки. Системы прогнозирования иногда используют имитационное моделирование, т. е. программы, которые отражают причинно-следственные взаимосвязи в реальном мире, чтобы сгенерировать ситуации или сценарии, которые могут возникнуть при тех или иных входных данных. Возможные ситуации вместе со знаниями о процессах, порождающих эти ситуации, образуют предпосылки для прогноза. Специалисты по искусственному интеллекту пока что разработали сравнительно мало прогнозирующих систем, возможно потому, что очень трудно взаимодействовать с имитационными моделями и создавать их.

Планирование. Экспертные системы, занятые планированием, проектируют действия; они определяют полную последовательность действий, прежде чем начнется их выполнение. Примерами могут служить создание плана применения последовательности химических реакций к группам атомов с целью синтеза сложных органических соединений или создание плана воздушного боя с целью нейтрализации определенного фактора боеспособности врага. Например, Дамасская фирма Informat впервые в торговой практике предоставляет в распоряжении покупателей 13 рабочих станций, установленных в холле своего офиса, на которых проводятся бесплатные 15-минутные консультации с целью помочь покупателям выбрать компьютер, в наибольшей степени отвечающий их потребностям и бюджету.

Проектирование. Экспертные системы, выполняющие проектирование, разрабатывают конфигурации объектов с учетом набора ограничений, присущих проблеме. Примерами могут служить генная инженерия, разработка СБИС синтез сложных органических молекул. Например, Boeing применяет ЭС для проектирования космических станций, а также для выявления причин отказов самолетных двигателей и ремонта вертолетов. Экспертная система XCON, созданная фирмой DEC, служит для определения или изменения конфигурации компьютерных систем типа VAX и в соответствии с требованиями покупателя. Фирма DEC разработала более мощную систему XSEL, включающую базу знаний системы XCON, с целью оказания помощи покупателям при выборе вычислительных систем с

124

нужной конфигурацией. В отличие от XCON система XSEL является интерактивной.

Интерпретация. Интерпретирующие экспертные системы могут обработать разнообразные виды данных. Например, система анализа сцен и распознавания речи, используя естественную информацию (в одном случае визуальные образы, в другом – звуковые сигналы), анализирует их характеристики и понимает их смысл. Интерпретация в области химии использует данные дифракции рентгеновских лучей, спектрального анализа или ядерного магнитного резонанса для вывода химической структуры веществ. Интерпретирующая система в геологии использует каротажное зондирование – измерение проводимости горных пород в буровых скважинах и вокруг них, чтобы определить подповерхностные геологические структуры. Медицинские интерпретирующие системы, основываясь на показаниях следящих систем (например, значениях температуры, пульса, кровяного давления), устанавливают диагноз или тяжесть заболевания. В военном деле интерпретирующие системы, получая данные от радаров, радиосвязи и сонарных устройств, оценивают ситуацию и идентифицируют цели. Система PROSPECTOR, одна из наиболее известных систем интерпретирующего типа, объединяет знания девяти экспертов. Используя сочетания девяти методов экспертизы, системе удалось обнаружить залежи руды стоимостью в миллион долларов, причем наличие этих залежей не предполагал ни один из девяти экспертов.

Контроль и управление. ЭС могут применяться в качестве интеллектуальных систем контроля и принимать решения, анализируя данные, поступающие от нескольких источников. Такие системы уже работают на атомных электростанциях, управляют воздушным движением и осуществляют медицинский контроль. Они могут быть также полезны при регулировании финансовой деятельности предприятия и оказывать помощь при выработке решений в критических ситуациях.

Обучение. Экспертные системы, выполняющие обучение, подвергают диагностике, «отладке» и исправлению (коррекции) поведение обучаемого. В качестве примеров приведем обучение студентов отысканию неисправностей в электрических цепях, обучение военных моряков обращению с двигателем на корабле и обучение студентов-медиков выбору антимикробной терапии. Обучающие системы создают модель того, что обучающийся знает и как он эти знания применяет к решению проблемы. Системы диагностируют и указывают обучающемуся его ошибки, анализируя модель и строя планы исправлений указанных ошибок. Они исправляют поведение обучающихся, выполняя эти планы с помощью непосредственных указаний обучающимся. Одной из обучающих ЭС является разработанная Д. Ленатом система EURISCO.

Основными достижениями применения ЭС являются: возможность накапливать знания, сохранять их длительное время, обновлять и опера-

125

тивно использовать при решении трудноформализуемых задач; повышение качества и сохранение времени принятия решений, а также способствование росту эффективности работы и повышению квалификации специалистов; легкость передачи и воспроизведения информации; стабильность результатов работы ЭС.

Также применение ЭС дает довольно значимый экономический эффект, например: фирма DEC (США) ежегодно экономит 70 млн долл. в год благодаря ЭС XCON/XSEL, которая по заказу покупателя составляет конфигурацию вычислительной системы VAX. Использование ЭС сократило количество ошибок от 30 % (допускал человек) до 1 % (допускает ЭС). Фирма Monsanto (США) ежегодно экономит от 250 до 500 тыс. долл. благодаря ЭС выявления и блокирования неисправностей в нефтехимической промышленности. Фирма Aetna Insurance (США) уже сэкономила более 5 млн долл., а общий планируемый эффект составит около 15–20 млн долл. благодаря ЭС, используемой для моделирования страховых исков, обрабатываемых компанией. ЭС, реализованная на базе инструментального средства G2, позволяет находить в деятельности компании неэффективные процессы и рабочие потоки и производить оперативные изменения для увеличения продуктивности работы. Фирма Sira (США) сократила затраты на строительство трубопровода в Австралии на 40 млн долл. за счет ЭС, управляющей трубопроводом.

Таким образом, становится очевидным факт того, что использование ЭС обладает высокой экономической эффективностью в рамках предприятий и организаций различных типов. А задача разработки ЭС является довольно актуальной в наши дни и привлекает большое количество специалистов.

2.4.2. Структура и принципы функционирования традиционных экспертных систем

В настоящее время наиболее широкое распространение получили так называемые традиционные или типичные ЭС. В общем виде типичную ЭС можно представить следующим образом (рис. 2.42).

Типичная ЭС состоит из следующих основных компонентов: решателя (интерпретатора); рабочей памяти (РП), называемой также базой данных (БД); базы знаний (БЗ); компонентов приобретения знаний; объяснительного компонента; диалогового компонента.

Рабочая память (база данных) предназначена для хранения исходных и промежуточных данных решаемой в текущий момент задачи. Этот термин совпадает по названию, но не по смыслу с термином, используемым в информационно-поисковых системах (ИПС) и системах управления базами данных (СУБД) для обозначения всех данных (в первую очередь долгосрочных), хранимых в системе.

126

Рис. 2.42. Структура экспертной типичной системы

База знаний предназначена для хранения экспертных знаний о предметной области, используемых при решении задач экспертной системой. База знаний традиционной ЭС состоит из набора фреймов и правилпродукций. Фреймы используются в базе знаний для описания объектов, событий, ситуаций, прочих понятий и взаимосвязей между ними. Фрейм – это структура данных, состоящая из слотов (полей). Правила используются в базе знаний для описания отношений между объектами, событиями, ситуациями и прочими понятиями. На основе отношений, задаваемых в правилах, выполняется логический вывод. В условиях и заключениях правил присутствуют ссылки на фреймы и их слоты.

Решатель, используя исходные данные из рабочей, памяти и знания из БЗ, формирует такую последовательность правил, которые, будучи примененными к исходным данным, приводят к решению задачи. Компонент приобретения знаний автоматизирует процесс наполнения ЭС знаниями, осуществляемый пользователем-экспертом. Объяснительный компонент объясняет, как система получила решение задачи (или почему она не получила решение) и какие знания она при этом использовала, что облегчает эксперту тестирование системы и повышает доверие пользователя к полученному результату. Диалоговый компонент ориентирован на организацию дружественного общения с пользователем, как в ходе решения задач, так и в процессе приобретения знаний и объяснения результатов работы.

Для построения типичной ЭС требуется привлечение следующего круга специалистов: эксперт в проблемной области, задачи которой будет решать ЭС; инженер по знаниям – специалист по разработке ЭС (используемые им технологию, методы называют технологией (методами) инже-

127

нерии знаний); программист по разработке инструментальных средств (ИС), предназначенных для ускорения разработки ЭС.

Эксперт определяет знания (данные и правила), характеризующие проблемную область, обеспечивает полноту и правильность введенных в

ЭС знаний. Инженер по знаниям помогает эксперту выявить и структурировать знания, необходимые для работы ЭС; осуществляет выбор того ИС, которое наиболее подходит для данной проблемной области, и определяет способ представления знаний в этом ИС; выделяет и программирует (традиционными средствами) стандартные функции (типичные для данной проблемной области), которые будут использоваться в правилах, вводимых экспертом. Программист разрабатывает ИС (если ИС разрабатывается заново), содержащее в пределе все основные компоненты ЭС, и осуществляет его сопряжение с той средой, в которой оно будет использовано.

Экспертная система может работать в двух режимах: режиме приобретения знаний и в режиме решения задачи (называемом также режимом консультации или режимом использования ЭС).

Врежиме приобретения знаний взаимодействие с ЭС осуществляет (через посредничество инженера по знаниям) эксперт. В этом режиме эксперт, используя компонент приобретения знаний, наполняет систему знаниями, которые позволяют ЭС в режиме решения самостоятельно (без эксперта) решать задачи из проблемной области. Эксперт описывает проблемную область в виде совокупности данных и правил. Данные определяют объекты, их характеристики и значения, существующие в области экспертизы. Правила определяют способы манипулирования с данными, характерные для рассматриваемой области. В режиме консультации взаимодействие с ЭС осуществляет конечный пользователь, которого интересует результат и (или) способ его получения. Необходимо отметить, что в зависимости от назначения ЭС пользователь может не быть специалистом в данной проблемной области (в этом случае он обращается к ЭС за результатом, не умея получить его сам), или быть специалистом (в этом случае пользователь может сам получить результат, но он обращается к ЭС

сцелью либо ускорить процесс получения результата, либо возложить на ЭС рутинную работу). Следует подчеркнуть, что термин «пользователь» является многозначным, так как использовать ЭС кроме конечного пользователя может и эксперт, и инженер по знаниям, и программист. Поэтому когда хотят подчеркнуть, что речь идет о том, для кого создавалась ЭС, используют термин «конечный пользователь».

Врежиме консультации данные о задаче пользователя обрабатываются диалоговым компонентом, который выполняет следующие действия: распределяет роли участников (пользователя и ЭС) и организует их взаимодействие в процессе кооперативного решения задачи; преобразует данные пользователя о задаче, представленные на привычном для пользователя языке, на внутренний язык системы; преобразует сообщения системы, представ-

128

ленные на внутреннем языке, в сообщения на языке, привычном для пользователя (обычно это ограниченный естественный язык или язык графики).

После обработки данные поступают в рабочую память. Решатель на основе входных данных из рабочей памяти, общих данных о проблемной области и правил из БЗ формирует решение задачи. Подчеркнем, что в отличие от традиционных программ ЭС при решении задачи не только исполняет предписанную последовательность операции, но и предварительно формирует ее. Если ответ ЭС непонятен пользователю, то он может потребовать объяснения того, как ответ получен.

2.4.3. Технология разработки и условия применения экспертных систем

Разработка ЭС имеет существенные отличия от разработки обычного программного продукта. Опыт создания ЭС показал, что использование при их разработке методологии, принятой в традиционном программировании, либо чрезмерно затягивает процесс создания ЭС, либо вообще приводит к отрицательному результату. Использовать ЭС следует только тогда, когда разработка ЭС возможна, оправдана и методы инженерии знаний соответствуют решаемой задаче.

Чтобы разработка типичной ЭС была возможной для решения конкретной задачи, необходимо одновременное выполнение, по крайней мере, следующих требований1:

1)наличие экспертов в рассматриваемой области, которые решают задачу значительно лучше, чем начинающие специалисты;

2)эксперты сходятся в оценке предлагаемого решения, иначе нельзя будет оценить качество разработанной ЭС;

3)эксперты способны вербализовать (выразить на естественном языке) и объяснить используемые ими методы, в противном случае трудно рассчитывать на то, что знания экспертов будут «извлечены» и вложены в ЭС;

4)решение задачи требует только рассуждений, а не действий;

5)задача, хотя и не должна быть выражена в формальном виде, но все же должна относиться к достаточно «понятной» и структурированной области, т. е. должны быть выделены основные понятия, отношения и известные (хотя бы эксперту) способы получения решения задачи;

6)решение задачи не должно в значительной степени использовать «здравый смысл» (т. е. широкий спектр общих сведений о мире и о способе его функционирования, которые знает и умеет использовать любой нормальный человек), так как подобные знания пока не удается (в достаточном количестве) вложить в системы искусственного интеллекта.

1 Экспертные системы для персональных компьютеров. Методы, средства, реализации: справ. пособие / под ред. В. С. Крисевич, Л. А. Кузьмич, А. М. Шиф и [др.]. Мн.: Высш. шк., 1990. 197 с.

129

Использование ЭС для решения задачи может быть возможно, но не оправдано. Применение типичной ЭС может быть оправдано одним из следующих факторов:

1)решение задачи принесет значительный эффект, например, экономический;

2)использование человека-эксперта невозможно либо из-за недостаточного количества экспертов, либо из-за необходимости выполнять экспертизу одновременно в различных местах;

3)использование ЭС целесообразно в тех случаях, когда при передаче информации эксперту происходит недопустимая потеря времени или информации.

Приложение соответствует методам типичной ЭС, если решаемая задача обладает совокупностью следующих характеристик:

1)задача может быть естественным образом решена посредством манипуляции с символами (т. е. с помощью символических рассуждений),

ане манипуляций с числами, как принято в математических методах и в традиционном программировании;

2)задача должна иметь эвристическую, а не алгоритмическую природу, т. е. ее решение должно требовать применения эвристических правил (задачи, которые могут быть гарантированно решены (с соблюдением заданных ограничений) с помощью некоторых формальных процедур, не подходят для применения ЭС);

3)задача должна быть достаточно узкой, чтобы решаться методами ЭС, и практически значимой.

Согласно работам российских и зарубежных ученых по созданию ЭС, сложилась определенная технология их разработки, включающая шесть этапов (рис. 2.43): идентификацию, концептуализацию, формализацию, выполнение, тестирование, опытную эксплуатацию.

На этапе идентификации определяются задачи, которые подлежат решению, выявляются цели разработки, определяются эксперты и типы пользователей. Обычно в разработке ЭС участвуют не менее трех-четырех человек – один эксперт, один или два инженера по знаниям и один программист, привлекаемый для модификации и согласования инструментальных средств. Также к процессу разработки ЭС могут по мере необходимости привлекаться и другие участники. Например, инженер по знаниям может пригласить других экспертов, чтобы убедиться в правильности своего понимания основного эксперта, представительности тестов, демонстрирующих особенности рассматриваемой задачи, совпадения взглядов различных экспертов на качество предлагаемых решений. Кроме того, для сложных систем считается целесообразным привлекать к основному циклу разработки несколько экспертов. Однако в этом случае, как правило, требуется, чтобы один из экспертов отвечал за непротиворечивость знаний, сообщаемых коллективом экспертов.

130

ЭС

Тестирование

Начало

Идентификация Требования

Переформулирование

Опытная

эксплуатация

Завершение

Концептуализация

 

Усовершен-

Выполнение

 

 

 

 

 

ствование

 

 

 

 

 

 

 

Переконст-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Понятия

 

руирование

Структура знаний

 

 

 

 

 

 

 

 

 

Формализация

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 2.43. Технология разработки типичной ЭС

131

На этапе концептуализации проводится содержательный анализ проблемной области, выявляются используемые понятия и их взаимосвязи, определяются методы решения задач.

На этапе формализации выбираются ИС и определяются способы представления всех видов знаний, формализуются основные понятия, определяются способы интерпретации знаний, моделируется работа системы, оценивается адекватность целям системы зафиксированных понятий, методов решений, средств представления и манипулирования знаниями.

На этапе выполнения осуществляется наполнение экспертом базы знаний. В связи с тем, что основой ЭС являются знания, данный этап является наиболее важным и наиболее трудоемким этапом разработки ЭС. Процесс приобретения знаний разделяют на извлечение знаний из эксперта, организацию знаний, обеспечивающую эффективную работу системы, и представление знаний в виде, понятном ЭС. Процесс приобретения знаний осуществляется инженером по знаниям на основе анализа деятельности эксперта по решению реальных задач.

На этапе тестирования эксперт (и инженер по знаниям) в интерактивном режиме с использованием диалоговых и объяснительных средств системы проверяет компетентность ЭС. Процесс тестирования продолжается до тех пор, пока эксперт не решит, что система достигла требуемого уровня компетентности.

На этапе опытной эксплуатации проверяется пригодность ЭС для конечных пользователей. По результатам этого этапа может потребоваться существенная модификация ЭС.

Процесс создания ЭС не сводится к строгой последовательности перечисленных выше этапов. В ходе разработки приходится неоднократно возвращаться на более ранние этапы и пересматривать принятые там решения.

2.4.4. Инструментальные средства для реализации экспертных систем и их типы

Для реализации ЭС применяются различные типы инструментальных средств (ИС). Используемый тип ИС определяет трудозатраты на разработку ЭС. Ниже приведены типы современных ИС, упорядоченные в соответствии с убыванием трудозатрат при создании.

1.Традиционные (в том числе объектно-ориентированные) языки программирования типа С, С++ (как правило, эти ИС используются не для создания ЭС, а для создания ИС).

2.Символьные языки программирования (например, Lisp, Prolog и их разновидности). Эти ИС в последнее время, как правило, не используются

вреальных приложениях в связи с тем, что они плохо приспособлены к

132

объединению с программами, написанными на языках традиционного программирования.

3.Инструментарий, содержащий многие, но не все компоненты ЭС. Эти средства предназначены для разработчика, от которого требуются знание программирования и умение интегрировать компоненты в программный комплекс. Примерами являются такие средства, как OPS 5, ИЛИС и др.

4.Оболочки ЭС общего назначения, содержащие все программные компоненты, но не имеющие знаний о конкретных предметных средах. Средства этого и последующего типов не требуют от разработчика приложения знания программирования. Примерами являются ЭКО, Leonardo, Nexpert Object, Kappa и др. В последнее время термин «оболочка» (shell) используется реже, его заменяют на более широкий термин «среда разработки» (development environment). Если хотят подчеркнуть, что средство используется не только на стадии разработки приложения, но и на стадиях использования и сопровождения, то употребляют термин «полная среда» (complete environment). Примерами таких средств для создания статиче-

ских ЭС являются: Nexpert Object , ProKappa, ART*Enterprise, Level 5 Object и др.

5.Проблемно/предметно-ориентированные оболочки (среды): про- блемно-ориентированные средства (problem-specific), ориентированные на некоторый класс решаемых задач и имеющие в своем составе соответствующие этому классу альтернативные функциональные модули (примерами таких классов задач являются задачи поиска, управления, планирования, прогнозирования и т. п.); предметно-ориентированные средства (domain-specific), включающие знания о некоторых типах предметных областей, что сокращает время разработки БЗ.

При использовании инструментария первого, второго и третьего типов в задачу разработчика входит программирование всех или части компонентов ЭС на языке довольно низкого уровня. При применении четвертого и пятого типов ИС разработчик приложения полностью освобождается от работ по созданию программ, его основные трудозатраты связаны с наполнением базы знаний общими и (или) специфическими знаниями. При использовании инструментария четвертого типа могут возникнуть следующие трудности:

1)управляющие стратегии, вложенные в механизм вывода инструментария, могут не соответствовать методам решения, которые использует эксперт, взаимодействующий с данной системой, что может привести к неэффективным, а возможно, и неправильным решениям;

2)язык представления знаний, принятый в инструментарии, может не подходить для данного приложения.

Значительная компенсация этих трудностей достигается применением проблемно/предметно-ориентированных средств (ИС пятого типа).

133

Наиболее приемлемыми инструментальными средствами для создания экспертных систем являются генераторы или интегрированные среды разработки, например, G2 (фирма Gensym, дистрибьютор фирма ArgusSoft) [127], ART-Enterprise (фирма Inference, дистрибьютор фирма Метатехнология) [123], GURU (фирма MDBS, дистрибьютор фирма ЦПС Тверь), которые позволяют настраивать программные средства на особенности проблемных областей, при необходимости предоставляют возможность программировать на встроенных языках четвертого поколения и осуществлять эффективный экспорт/импорт данных с другими инструментальными средствами.

Среди отечественных разработок следует отметить экспертную оболочку ЭКО (ArgusSoft) и программный комплекс SIMER – MIRAGE (Исследовательский центр искусственного интеллекта ИПС РАН), который предоставляет инструментальные средства, как автоматизации разработки, так и поддержки экспертных систем.

Инструментальные средства создания и поддержки экспертных систем являются дорогостоящими продуктами и стоят от тысяч до десятков тысяч долларов. Однако, для готовых баз знаний инструментальные средства могут поставляться в исполнительской версии (RUN-TIME) на порядок дешевле.

Цена предметно-ориентированных систем может быть на порядок выше универсальных, преимущество же их заключается в более простой адаптации к конкретной предметной области, а следовательно, и в сокращении затрат на разработку. Например, интеллектуальная система для раз-

работки финансовых приложений Cogensys Judgment Software (Cogensys Corp) стоит около 200 тыс. долл.

Таким образом, можно сделать вывод о том, что построение ЭС в некоторых случаях очень трудоемкий процесс (с использованием типов ИС с 1 по 3), в других случаях трудный (с использованием ИС типа 4) или дорогой (с использованием ИС типа 5). Следовательно, довольно актуальной выглядит задача разработки инструментального средства, являющегося неким оптимумом между трудозатратами, простотой и ценой использования.

2.4.5.Экспертные системы с веб-интерфейсом

Сростом популярности и всеобщим внедрением сетевых коммуникаций становится актуальным создание приложений, поддерживающих удаленный доступ и обладающих сетевым интерфейсом взаимодействия. В области использования и применения ЭС такая тенденция в настоящее время интенсивно развивается. Но лишь немногие из существующих разработок ЭС отвечают этим тенденциям.

Одной из таких отечественных разработок является веб-версия комплекса АТ-ТЕХНОЛОГИЯ, позволяющая осуществлять построение интег-

134

рированных ЭС (ИЭС), обладающих, в отличие от традиционных ЭС масштабируемой архитектурой, позволяющей расширять функциональность системы с помощью дополнительных подсистем. Из зарубежных разработок можно привести пример системы Exsys Corvid, которая позволяет разрабатывать традиционные ЭС (основанные на знаниях, представленных в виде продукционных правил) с использованием современных сетевых технологий, ориентированных на веб-интерфейс.

На основе трудов российских и зарубежных ученых по разработке веб-ориентированных ЭС можно выделить преимущества использования веб-интерфейса: простота доступа к компонентам инструментального комплекса для разработки ЭС, простота доступа к ЭС для пользователей, оперативность доступа к экспертным знаниям для большого числа географически разнесенных пользователей, общедоступность, простота распространения и удобство сопровождения, эффективность и оперативность обновлений базы знаний системы, централизованность процессов сбора и обработки данных для всего контингента пользователей системы, снижение стоимости управления и модернизации ЭС.

Таким образом, поддержка веб-интерфейса в ИС построения ЭС является очень весомым преимуществом перед стандартными способами реализации диалогового компонента ЭС и представляется довольно актуальным ориентиром для развития ЭС.

2.4.6.Сравнение современных способов представления знаний

имеханизмов принятия решений в экспертных системах

В настоящее время существует множество способов представления знаний экспертов (семантические сети, фреймы, продукционные правила, нейронные сети и т. д.) и основанных на них механизмов принятия решений, но в обобщенной форме из них можно выделить три класса (рис. 2.44).

Самым распространенным классом систем являются традиционные ЭС, основанные на базах знаний, состоящих из символо-логических представлений знаний экспертов (рис. 2.44, 1). Такой класс систем обладает рядом достоинств, например, возможность обосновывать выдаваемые решения в доступной для пользователя форме, но и не лишен недостатков. Недостатками такого подхода являются: трудности извлечения знаний из предметных областей и формализация их в надлежащем виде, необходимость в инженере по знаниям, громоздкость базы знаний, невозможность идентифицирования новых данных, не имеющих соответствующих им правил в базе. Также существуют задачи, при решении которых знания эксперта невозможно формализовать в символо-логическом виде, следовательно, данный способ становится неприменимым в рамках такой задачи.

Другим классом являются системы, использующие в качестве решающего компонента математическую модель (рис. 2.44, 2), разрабаты-

135

ваемую конкретно под решаемую экспертной системой задачу. В свою очередь, данный подход обладает определенными достоинствами перед первым. Это сравнительная компактность базы знаний, прогностическая способность, дающая возможность генерировать новые решения. Но данный подход не обладает достаточным универсализмом и предполагает при смене задач привлечение квалифицированных специалистов для разработки новых моделей.

Также существует класс систем, объединяющий в себе достоинства и исключающий недостатки вышеуказанных методов. Системы такого класса используют в качестве системы представления знаний и решающего механизма искусственные нейронные сети (ИНС) (рис. 2.44, 3). Что позволяет при значительной доле универсализма и независимости от предметной области осуществлять построение достаточно интеллектуальных ЭС, сочетающих в себе интеграцию «опыта экспертов», самостоятельную систему представления и формирования знаний, значительные прогностические способности «интеллектуального ядра», бионический принцип построения и распределенность во времени самого процесса построения ЭС.

Таким образом, на основе характеристик вышеописанных подходов можно сделать вывод о том, что третий класс систем является наиболее перспективным, так как при его использовании упрощается процесс построения ЭС и увеличиваются возможности переносимости ЭС в различные предметные области.

Таким образом, на основе данного обзора можно сделать следующие выводы.

1.В результате анализа областей применения ЭС и достижений в них, была установлена значительная эффективность использования ЭС для решения определенного круга задач. Вследствие чего можно сделать вывод о практической ценности ЭС и актуальности их разработки.

2.Наиболее распространенными на сегодняшний день являются традиционные (типичные) ЭС, основанные на символическом представлении знаний эксперта. В результате их детального рассмотрения были выявлены трудности при построении и дальнейшем сопровождении, связанные с жесткой привязанностью к области решаемой задачи, с представлением знаний экспертов в формализованном символическом виде и привлечением для этого дополнительного круга специалистов – инженеров по знаниям.

3.В результате анализа современных средств программной реализации ЭС была выявлена актуальная задача создания специализированного программного комплекса позволяющего осуществлять построение, сопровождение и эксплуатацию ЭС.

4.На основе изучения передовых разработок ЭС выявлена тенденция развития веб-ориентированных ЭС, обладающих следующими преимуществами перед традиционными: отсутствие пространственных огра-

136

ничений по организации взаимодействия с ЭС, общедоступность, простота распространения и удобство сопровождения, эффективность и оперативность обновлений базы знаний системы, централизованность процессов сбора и обработки данных для всего контингента пользователей системы.

5. В ходе анализа способов представления знаний и механизмов принятия решений определено, что нейросетевой подход обладает характеристиками, на основе которых возможно: автоматизировать процесс формирования системы представления знаний экспертов без привлечения инженеров по знаниям, адаптировать разработанную базу знаний под изменяющиеся условия задачи.

Целью нашей разработки, представленной в следующем разделе, является повышение эффективности процесса построения ЭС путем разработки информационной технологии, предполагающей использование развивающейся системы представления знаний на базе ИНС-модели и системы распределенного сетевого ввода данных.

Для достижения поставленной цели необходимо решить следующие основные задачи:

построить концептуальную модель ЭС, позволяющую использовать развивающуюся систему представления знаний, основанную на ИНСмодели, посредством веб-интерфейса;

разработать информационную технологию построения ЭС с распределенным вводом данных на основе нейросетевых моделей;

создать аналитические модели для планирования процессов формирования развивающейся системы представления знаний ЭС и соответствующую функциональную модель ее жизненного цикла;

разработать специализированное программное обеспечение (ПО), позволяющее осуществлять построение, совершенствование и эксплуатацию ЭС с распределенным вводом данных и использующее нейросетевую модель знаний;

провести апробацию ПО на примере создания ЭС для медицинских и социологических исследований.

137

138

1

Рис. 2.44. Способы представления знаний экспертов и основанные на них механизмы принятия решений

2.4.7. Реализация технологии разработки ЭС

Для объединения функциональных преимуществ нейросетевых и веб-ориентированных ЭС разработана концептуальная модель веб-ориен- тированной нейросетевой экспертной системы (рис. 2.45). Основными отличительными компонентами такой модели от традиционной являются: веб-интерфейс, позволяющий осуществлять распределенный ввод данных; база данных, используемая для долговременного хранения технической информации; развивающаяся система представления знаний экспертов, основанная на нейросетевой модели. Согласно разработанной модели, решателем является построенная и обученная ИНС, генерирующая решение задачи на основе эмпирических данных, хранящихся в БД.

Экспертная система

Эксперт

 

 

 

В

Конфигуратор

 

ИНС

 

е

База

 

б

данных

 

и

 

 

н

 

 

т

 

 

е

 

 

р

Система знаний

 

ф

Пользователь

е

 

 

й

 

 

с

 

Рис. 2.45. Концептуальная модель веб-ориентированной нейросетевой ЭС

Для разработки информационной технологии построения ЭС, соответствующих предлагаемой концептуальной модели, выполнена математическая формализации задач накопления информации и построения на ее основе развивающихся систем представления знаний.

Основные принципы формализации. Пусть имеется распределен-

ная система получения исходной информации, включающая N терминалов, каждый из которых предназначен для ввода n независимых параметров, имеющих m уровней каждый. Работа терминалов организована таким образом, что каждый из них работает лишь часть времени, так, что интервалы их простоя являются случайными величинами, заданными плотностями распределений p1(τ), p2(τ), ..., pN(τ). Время ввода информации не зависит от номера терминала, но линейно зависит от n, т. е. τinput = k1n, где k1 – некото-

139

рый коэффициент пропорциональности. Будем считать, что очередная доля информации добавляется к БД в виде одной записи, когда на i-м терминале (i = 1,.., N) каждому независимому параметру xj (j = 1,.., n) присвоен соответствующий уровень lb (b = 1,.., m). Также учитывается, что передача информации с любого терминала в БД осуществляется мгновенно, т. к. это время на несколько порядков меньше времени, затрачиваемого пользователем на ввод информации.

Тогда среднее время одного цикла работы i-го терминала (ввод + ожидание следующего ввода информации), соответствующее добавлению

timax

в базу данных одной записи, может быть вычислено как: τi = k1n + τ pi (τ)dτ .

0

Поэтому за период времени T (например, T = 24 ч) на i-м терминале могут быть осуществлены ri циклов ввода, соответствующие добавлению в

базу данных ri записей: ri =

T

. Необходимо отметить, что ri яв-

timax

 

k1n + τ pi (τ)dτ

 

 

0

 

ляется целым числом, полученным в результате округления в большую сторону полученного из уравнения значения. Соответственно, общее число записей информации в БД, полученное со всех терминалов за период T со-

N

N

1

 

ставит: R = ri =T

.

timax

i =1

i =1 k1n + τ pi (τ)dτ

 

 

 

0

 

Выполним оценку периода первичного накопления данных в БД, предшествующего первому обучению ИНС-модели.

В соответствии с теоремами А.Н. Колмогорова1 о представимости функций нескольких переменных с помощью суперпозиций и сумм функций одного переменного, можно утверждать, что каждая непрерывная функция n переменных (в ЭС n соответствует количеству вводимых независимых параметров), заданная на единичном кубе n-мерного пространст-

2n+1

n

 

 

ва, представима в виде: f (x1, x2 ,..., xn ) = hq ϕqp (x p )

, где функции hq (u)

q=1

 

 

 

p=1

 

 

непрерывны, а функции ϕqp (x p ), кроме того, еще и стандартны, т. е. не зависят от выбора функции f.

1 Колмогоров А. Н. О представлении непрерывных функций нескольких переменных суперпозициями непрерывных функций меньшего числа переменных // Докл. АН СССР. 1956.

Т. 108. № 2. С. 179-182.

Колмогоров А. Н. О представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного // Докл. АН СССР. 1957. Т. 114, № 5. С. 953-956. (Цит. по книге: Горбань А. Н., Россиев Д. А. Нейронные сети на персональном компьютере. Новосибирск: Наука, 1996).

140

Фактически это означает, что «минимальная» структура ИНС-модели, позволяющая аппроксимировать функцию n переменных должна иметь следующий вид: входной слой, состоящий из n (n соответствует переменным функции) нейронов, первый скрытый слой, включающий (2n+1) n функциональных нейронов, второй скрытый слой, состоящий из (2n+1) функциональных нейронов, и выходной, суммирующий нейроны (рис. 2). Указанная нейронная сеть не является полносвязанной и имеет (2n+1) n+(2n+1) n+2n+1=(2n+1)2 связей (степеней свободы при обучении ИНС-модели).

Необходимо заметить, что теоремы А.Н. Колмогорова не несут никакой информации о типе нелинейности функций ϕ и h. Так, в системе знаний экспертной системы, базируемой на ИНС-модели, используется акти-

вационная функция f (x) = 1+ e1−αx и полносвязанная сеть – многослойный

персептрон. Для этого случая число степеней свободы ИНС-модели будет (2n+1) (3n2+n+1). Учитывая, что число записей в БД должно быть не меньше, чем, число степеней свободы, получим оценку для первичного периода накопления данных:

 

 

 

1

 

 

 

 

 

 

 

N

1

 

 

 

 

 

t1 K

 

 

(2.39)

timax

i=1

 

 

 

 

 

k1n + τpi (τ)dτ

 

 

 

0

 

 

где K – параметр, характеризующий число степеней свободы: K = (2n +1)2 для ИНС-модели, построенной в соответствии с теоремой А. Н. Колмогорова и K = (2n +1)(3n2 + n +1) для полносвязанной ИНС-модели.

Процесс обучения модели знаний ЭС заключается в минимизации функционала вида:

E[w(n)]=

 

 

 

 

 

 

 

=

 

 

 

Y tabl Y net (w)

 

 

 

min

(2.40)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

w

 

Вектор w определяется структурой сети, которая, в свою очередь, связана с числом ее входов n (n соответствует числу нейронов входного слоя ИНС-модели) так, что имеется однозначное соответствие n и w. Поэтому вектор w*, зависящий от структуры сети и минимизирующий функционал (2), соответствует оптимальной ИНС-модели и может быть определен как:

w* = argminF(w),

(2.41)

wΩ

где Ω множество векторов весовых коэффициентов нейронов.

141

Минимизацию функционала (2) осуществляем двумя методами: градиентным, так что последующие значения вектора w вычисляются по фор-

муле wt+1 = wt h(t)grad(E(wi )) и методом сканирования. Для указанных методов оценки времени обучения могут быть получены следующим образом: Θgrad = k2nR и Θskan = k3RαN . Здесь k2 и k3 – коэффициенты, зависящие от технических характеристик используемого оборудования, α – число разбиений диапазона изменения переменной.

Целью обучения ИНС-модели на основе эмпирических данных является нахождение подходящей структуры и коэффициентов ИНС, минимизирующих невязку (2.40). Указанная структура обобщает в себе знания, полученные на основе данных, поступивших с терминалов в БД.

Данные, используемые для обучения ИНС-модели, могут различаться как в количественном отношении (число записей в БД на момент начала обучения) так и в качественном (дисперсия, наличие ошибок и т. д.). Поэтому разработка аналитической модели обучения для различных объектов не позволяет использовать теоретические подходы. В качестве эмпирической модели обучения предлагается использовать следующее дифференци-

альное уравнение:

 

 

dE(t)

= k4 [E* E(t)], с начальным условием: E(0)=E0 (2.42)

 

dt

 

 

где E(t), E0 и E* – значения приведенной среднеквадратичной погрешности, ее начального значения и уровня, на котором она будет зафиксирована в конце цикла обучения ИНС-модели; k4 – параметр удельной скорости обучения, зависящий от n, объема обучающей выборки и используемого метода минимизации невязки (2.40); t – безразмерное время процесса обучения, полученное отнесением реального времени к времени первого цикла обучения t [t1,t2] (рис. 2.47, 2.48). Уравнение (2.42) отражает феноменологию процесса обучения: в начальный момент времени невязка равна E0, и стремится к E* в конце цикла обучения.

Разделяя переменные в уравнении (2.42) и интегрируя, получим:

 

dE(t)

4 ln[k4

(E* E(t))]= t +c

k4 (E* E(t))

= dt или

1

k

Определив постоянную интегрирования из начальных условий

(2.42), получим решение в виде:

 

 

 

E(t) = E* (1ek4t )+ E0ek4t .

(2.43)

Предложенные аналитические модели на практике позволяют решить следующие задачи: оценить первичный период накопления информации, необходимой для построения ИНС-модели исследуемого объекта; определить начальную структуру ИНС-модели на основе входных характеристик объекта исследования; сделать оценку количества циклов обучения

142

ИНС-модели в присутствии эксперта. Эти результаты позволили разработать функциональную модель жизненного цикла ЭС на основе ИНС и поддерживающей распределенный сетевой ввод данных (рис. 2.49). Входом ЭС является запись из совокупности эмпирических данных предметной области, а выходом – номер(а) классов к которым она принадлежит.

Информационная технология построения ЭС на основе нейросетевой модели и с распределенным вводом данных, соответствующая функциональной модели ЭС (рис. 2.49), заключается в последовательном выполнении следующих шагов:

изучение объекта, для которого разрабатывается ЭС; выделение векторов входных характеристик и возможных выходных состояний данного объекта;

накопление первичной информации об объекте в БД посредством распределенной сетевой системы сбора данных в течение периода, определяемого аналитической моделью (2.39);

формирование первичной структуры ИНС-модели в соответствии

стеоремой А.Н. Колмогорова;

планирование поэтапного процесса обучения развивающейся ИНС-модели по предложенному уравнению (2.42); обучение ИНС-модели согласно предложенным аналитическим моделям;

Рис. 2.46. Представление функции n переменных в виде ИНС-модели

t

Рис. 2.47. Корреляция эмпирических данных по среднеквадратичной погрешности обучения сети – E (треугольники) от времени обучения с результатами расчета по уравнению (5). На графике показаны приведенные безразмерные значения

143

t

Рис. 2.48. Зависимость накопления первичной информации от безразмерного времени (верхняя часть рисунка): R – число записей в БД, полученных с терминалов; процесс обучения ИНС-модели (нижняя часть рисунка): Е – приведенная среднеквадратическая ошибка ИНС-модели, L – уровни ее обученности

совершенствование ИНС-модели на основе вновь поступающих эмпирических данных под контролем эксперта, который определяет законченность формирования системы представления знаний;

эксплуатация ЭС (без эксперта).

На основе сравнения разработанной технологии с существующими аналогами выделены ее функциональные преимущества, заключающиеся в следующем: универсальность – применительно к различным предметным областям (без внесения конструктивных изменений в программное обеспечение); многопользовательский доступ к одному объекту исследования; автоматизация процесса проектирования базы знаний за счет конструктивных алгоритмов построения ИНС-модели; поддержка сетевых технологий взаимодействия.

144

Рис. 2.49. Функциональная модель жизненного цикла ЭС на основе нейросетевой модели и с распределенным вводом данных

145

Выявлены условия, при которых может быть осуществлено применение разработанной технологии, такие как: возможность формализовать начальную структуру объекта и закодировать примеры его диагностики в числовом виде; наличие эксперта, обладающего высоким профессиональным уровнем (выше уровня рядового специалиста), способного адекватно оценивать параметрические данные объекта; достаточная квалифицированность пользователей, имеющих опыт использования сервисов, предоставляемых консорциумом WWW.

Теперь покажем компьютерную реализацию информационной технологии на основе разработки специализированного программного комплекса.

Здесь представлено описание программного комплекса, который представляет собой веб-ориентированную интерактивную систему, состоящую из двух подсистем: информационной и интеллектуальной. Структурная схема организации программного комплекса представлена на рис. 2.50.

Основным назначением информационной подсистемы являются накопление, хранение, визуализация технической информации, а также обеспечение веб-ориентированного интерфейса. Компонентами подсистемы являются программно-логическое ядро, реализованное с помощью РНРскриптов и серверная система управления базами данных MySQL, с помощью которой была разработана структура связанных между собой таблиц, каждая из которых хранит определенную техническую информацию.

Рис. 2.50. Структурная схема организации программного комплекса

146

Интеллектуальная подсистема предназначена для реализации процессов построения, обучения, модификации, эксплуатации ИНС-моделей, являющихся самостоятельными системами представления знаний в ЭС. Подсистема включает 4 основных компонента: блок мониторинга данных, который обеспечивает передачу входных и выходных данных, отслеживает поступление новой информации в базу данных; преобразователь, осуществляющий подготовку обучающей выборки для сети; конструктор, обеспечивающий автоматизированное построение и обучение интеллектуальной модели (ИНС) исследуемого объекта.

Для апробации разработанного программного комплекса были построены три экспертные системы в двух предметных областях: медицинской и социологической.

Медицинская ЭС решала проблему общеклинического анализа крови по десяти показателям (уровень гемоглобина (г/л); скорость оседания эритроцитов (мм/ч); лейкоциты (109/л); эритроциты (1012/л); цветовой показатель; лейкоцитарная формула (5 составляющих)). Для построения модели знаний ЭС потребовалась обучающая выборка объемом в 350 примеров, при которой уровень погрешности ИНС модели достиг допустимого значения и стабилизировался, следовательно, при этом ЭС стала пригодна для использования в режиме эксплуатации. Входными данными для ЭС были значения показателей крови, по рассчитанному ИНС-моделью выходному значению определялось состояние здоровья пациента (выходы: 1 – здоров, 2 – стационарное лечение, 3 – амбулаторное лечение, 4 – экстренная госпитализация (табл. 2.10)).

Таким образом, получена структура ИНС-модели (рис. 2.51), включающая 10 входных нейронов, 210 нейронов первого скрытого слоя, 21 нейрон второго скрытого слоя, один выходной суммирующий нейрон (в табл. 2.11 представлен фрагмент массива значений весовых коэффициентов синаптических связей нейронов, полученного в результате обучения ИНС-модели).

 

1

 

1

...

 

21

 

 

 

 

1

1

2

...

...

...

21

21

 

1

10...

21

Рис. 2.51. Структурная схема ИНС-модели медицинской ЭС

147

 

 

Результаты тестирования медицинской ЭС

 

Таблица 2.10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

 

x2

x3

x4

x5

x6

x7

x8

x9

x10

 

y

 

1

134

 

5

5,4

4,19

0,96

0

3

60

30

8

 

3

 

2

111

 

5

5,9

3,82

0,87

0

5

53

36

6

 

2

 

 

50

137

 

6

3,2

4,28

0,96

1

1

53

30

9

 

1

 

Таблица 2.11

Коэффициенты синаптических связей нейронов входного и первого скрытого слоев ИНС-модели медицинской ЭС

Номера нейронов

1

2

3

4

5

6

7

8

9

10

11

12

13

14

210

1

0,074

0,052

0,099

0,063

0,076

0,080

0,090

0,034

0,033

0,064

0,071

0,050

0,089

0,078

0,040

2

0,047

0,009

0,039

0,053

0,079

0,036

0,070

0,099

0,068

0,019

0,096

0,090

0,011

0,011

0,038

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

0,013

0,001

0,057

0,006

0,018

0,027

0,076

0,087

0,008

0,017

0,086

0,054

0,074

0,079

0,012

При тестировании ЭС на данных, являющихся результатами общеклинического анализа крови и не участвовавших в процессе построения ИНС-модели, правильно было распознано 70 % введенных данных, для 25 % была дана близкая классификация, в 5 % случаев система ошиблась. Указанные показатели позволяют сделать вывод о применимости разработанной ЭС в медицинских учреждениях в качестве интеллектуального помощника при проведении общеклинического анализа крови начинающими специалистами.

Результаты этого примера применения и других (для социологических исследований), позволяют сделать вывод о работоспособности программного комплекса, являющегося практической реализацией разработанной автоматизированной технологии.

Таким образом, в разделе 2.4 получены следующие важные результаты. В ходе анализа индустрии ЭС исследованы существующие разработки и технологии построения ЭС, выделены их слабые и сильные стороны, выбраны способы модификации существующих разработок за счет использования развивающейся системы представления знаний на основе ИНСмодели и распределенного ввода данных.

На основе характерных свойств аппарата ИНС и систем распределенного ввода данных построена концептуальная модель ЭС, позволяющая использовать развивающуюся систему представления знаний, основанную на ИНС-модели, посредством веб-интерфейса.

Разработана информационная технология построения ЭС на основе нейросетевой модели и с распределенным вводом данных, позволяющая повысить эффективность разработки ЭС за счет автоматизированного

148

формирования базы знаний, основанной на ИНС-модели, и использования распределенной сетевой системы сбора данных.

Предложены аналитические модели, позволяющие: оценить первичный период накопления информации, необходимой для построения ИНСмодели исследуемого объекта; определить начальную структуру ИНСмодели на основе входных характеристик объекта исследования; сделать оценку количества циклов обучения ИНС-модели в присутствии эксперта, что позволяет эффективно расходовать временные и трудовые ресурсы при разработке ЭС. На основе аналитических моделей разработана функциональная модель жизненного цикла ЭС, предполагающая развитие модели знаний ЭС на основе поступающих данных.

Разработано специализированное программное обеспечение, позволяющее осуществить построение, совершенствование и эксплуатацию ЭС, использующей нейросетевую модель знаний. Программное обеспечение представляет собой инструментальное средство создания экспертных систем посредством веб-интерфейса.

Осуществлена апробация программного комплекса на примере создания ЭС в медицинской и социологической областях, что позволило определить следующие показатели эффективности: для медицинской ЭС – 70 % правильно распознанных данных; для первой социологической ЭС – 72 % правильно распознанных данных; для второй социологической ЭС – 69 % правильно распознанных данных. Указанные показатели позволяют сделать вывод о возможности эффективного практического использования результатов проведенной работы.

2.5. Использование методов математического моделирования и искусственного интеллекта для оценки деятельности научных работников1,2

Введение. Оценка деятельности научных работников представляет собой сложную проблему. Это связано с тем, что такая оценка является сложным индексом, который включает большое число различных компонент. Определение таких факторов и индексов часто трудно формализовать. Кроме того, указанные понятия могут иметь не только содержание (под которым следует понимать общее число индивидуальных компонент),

1Совместный научный проект «Разработка компьютерных методов оценки активности научных работников на базе математических моделей, использующих аппарат искусственных нейронных сетей (ИНС)» поддержан грантом DAAD, R325, A/08/08610, 2008. Авторы: Арзамасцев А. А., Троич К. Г., Зенкова Н. А., Неудахин А. В.

2This joint scientific project «Development of computer methods to evaluate the activity of researchers on the basis of mathematical models which use the apparatus of artificial neural networks (ANN)» was supported by DAAD, grant, R325, A/08/08610, 2008. Authors: Arzamastsev А. А., Troitzsch К. G., Zenkova N. А., Neudahin А. V.

149

но также и некоторую структуру (под которой можно понимать систему взаимосвязи таких компонент).

Необходимость использования математических методов моделирования в этой сфере связана не только со сложностью данного объекта, но также и из-за необходимости получения беспристрастных оценок, т. к. именно на их основе часто принимаются различные управленческие решения (например, распределение грантов, выдвижение на различные должности и т. д.).

Внастоящее время данная проблема становится особенно актуальной в связи с переходом российских вузов на международную систему вузовского обучения, предполагающую ее вхождение в Болонское соглашение, одной из самых трудных задач организации которого является разработка системы оценок студентов и преподавателей.

Вмире данная проблема частично решается путем вычисления различных индексов цитирования и импакт-индексов. Количество ссылок на конкретную статью или иную публикацию конкретного автора, с одной стороны, свидетельствует об общественном признании ее автора, и с другой стороны, необходимо признать, что такая оценка является достаточно грубым критерием интеллектуальной ценности научных идей.

Институциональное и организационное оформление междисциплинарных индексов цитирования связано, в первую очередь, с созданием Института Научной Информации США (The Institute for Scientific Information – ISI), основанного Ю. Гарфилдом (Eugene Garfield) и занимающегося систематизацией и оценкой научной информации, опубликованной в научных изданиях. В настоящее время эта организация называется Thomson Scientific. Здесь формируются базы данных индекса цитирования по научным дисциплинам. В настоящее время наиболее разработанными индексами цитирования являются SCI, SSCI, A&HCI.

Однако использование индексов цитирования для оценки деятельности научных работников затрудненно в связи со следующими обстоятельствами: зависимость от конъюнктуры – «мейнстримные» работы цитируются лучше, легче, чем пионерские или выходящие за рамки парадигмы; правда, последние могут «отыграться» со временем, но таких довольно мало; индекс цитируемости зависит не только от научного уровня, но и от PR-активности ученого (конференции, контакты); проблема соавторов; самоцитирование; проблема публикаций с большим числом авторов и т. д.

Имеются и другие проблемы, связанные, например с тем, что оценка деятельности научного работника может вообще не быть напрямую связана с индексом цитирования или, напротив, в значительной степени детерминируется важностью самой предметной области, в которой ведется исследование.

Немалые проблемы связаны и с тем, что результирующий оценочный показатель обычно представляет собой нелинейную функцию многих

150

переменных, идентификация структуры связей и коэффициентов в которой на основе эмпирического материала (баз данных) представляет собой сложную математическую проблему.

Внастоящее время на кафедре компьютерного и математического моделирования Тамбовского государственного университета им. Г. Р. Державина накоплен значительный опыт в идентификации структуры и содержа-

ния трудноформализуемых понятий с помощью аппарата искусственных нейронных сетей1.

Вто же время, в Институте информатики университета г. Кобленц (Германия) под руководством профессора Клауса Троича ведутся работы в области компьютерного моделирования в социальных системах. Он явля-

ется автором нескольких книг и большого числа статей в этой области, хорошо известных в мире2.

Указанные обстоятельства явились определяющими при выполнении данной совместной работы.

Целью данного раздела является разработка методологии оценки деятельности научных работников с помощью математических моделей, построенных на основе аппарата искусственных нейронных сетей.

Материалы и методы. Первоначально для выполнения данной работы предполагалось использовать следующие эмпирические материалы:

информацию о рейтингах ученых ТГУ им. Г.Р. Державина за период с 2004 по 2006 г.г.;

информацию о различных индексах цитирования и рейтингах российских ученых (http://www.scientific.ru/);

информацию о публикационной и других видах научной активности лауреатов нобелевских премий по различным номинациям, которую предполагали получить от известного нобелиста – профессора В. М. Тютюнника;

данные Института Научной Информации (ISI), который в на-

стоящее время называется «Thomson Scientific» (http://scientific.thomson reuters.com/).

Вдальнейшем оказалось, что базы данных «Thomson Scientific» полностью закрыты, а информация, полученная от профессора В.М. Тютюнника неполна и, таким образом, не могла быть использована для наших целей непосредственно. Поэтому мы ограничились лишь тем, что приняли информацию из этих источников к сведению. Информация, содержащаяся

1Арзамасцев А. А., Зенкова Н. А. Система психологического тестирования на основе аппарата искусственных нейронных сетей // Искусственный интеллект. 2004. № 2. С. 237-242. Арзамасцев А. А., Зенкова Н. А. Моделирование в психологии на основе искусственных нейронных сетей. Тамбов. ТГУ им. Г. Р. Державина. 2003. 106 с.

2Gilbert N., Troizsch K. Simulation for the Social Scientist. New York. Open University Press. 2006.

Representing Social Reality. Third Conference of European Social Simulation Association / Edited by K. Troitzsch. Koblenz, September 5-9, 2005.

151

в первых двух источниках, оказалась хорошо структурированной и использовалась в дальнейшей работе.

Для реализации проекта использовали специальное программное обеспечение, которое разработано нами в ходе предыдущей деятельности1. Эти программы представляют собой универсальные нейросетевые симуляторы, использующие оригинальные алгоритмы самоорганизации структуры нейронной сети, что позволяет достигать хорошей гибкости и адаптируемости модели к эмпирическим данным. Алгоритм описан ранее в2. Программы для последовательного и параллельного вариантов обучения искусственной нейронной сети разработаны на кафедре КММ ТГУ им. Г. Р. Державина и имеют государственные сертификаты Российской Федерации3.

По рекомендации профессора К. Ван Метера для определения рейтингов научных работников был опробован метод «ключевых слов», реализация которого в настоящее время сильно упрощена в связи с использованием специальных поисковых машин в сети Internet. При этом, с целью получения лишь релевантных, по отношению к исследуемым респондентам, ссылок, запрос для поисковых машин составлялся таким образом, что это исключало нахождение информации, например, для однофамильцев. Использовались популярные для РУНЕТа поисковые машины yandex.ru и rambler.ru.

1Арзамасцев А. А. и др. Реализация проекта TEMPUS TACIS “System modernization of University Management” в Тамбовском государственном университете им. Г. Р. Державина // Information Technologies in University Management. Int. Conf. Tambov, October 17-20, 2006. Изда-

тельство ТГУ, 2006. С. 9-44. Арзамасцев А. А., Крючин О. В., Королев А. Н., Зенкова Н. А. Многофункциональный программный комплекс для компьютерного моделирования на основе искусственной нейронной сети с самоорганизацией структуры.- Свидетельство об официальной регистрации программы для ЭВМ. № 2007610622. Заявка № 2006614383. Дата поступления 15 декабря 2006. Зарегистрировано в Реестре программ для ЭВМ 8 февраля 2007. Арзамасцев А. А., Крючин О. В., Королев А. Н., Суспицына М. А., Вязовова Е. В., Семенов Н. О. Универсальный симулятор, базирующийся на технологии нейронных сетей, способный работать на параллельных машинах-. Свидетельство об официальной регистрации программы для ЭВМ.

2008610860. Заявка № 2007615431. Дата поступления 28 декабря 2007. Зарегистрировано в Реестре программ для ЭВМ 20 февраля 2008.

2Арзамасцев А. А. и др. Реализация проекта TEMPUS TACIS “System modernization of University Management” в Тамбовском государственном университете им. Г. Р. Державина // Information Technologies in University Management. Int. Conf. Tambov, October 17-20, 2006. Изда-

тельство ТГУ, 2006. С. 9-44.

3Арзамасцев А. А., Крючин О. В., Королев А. Н., Зенкова Н. А. Многофункциональный программный комплекс для компьютерного моделирования на основе искусственной нейронной сети с самоорганизацией структуры. Свидетельство об официальной регистрации программы для ЭВМ. № 2007610622. Заявка № 2006614383. Дата поступления 15 декабря 2006. Зарегистрировано в Реестре программ для ЭВМ 8 февраля 2007. Арзамасцев А. А., Крючин О. В., Королев А. Н., Суспицына М. А., Вязовова Е. В., Семенов Н. О. Универсальный симулятор, базирующийся на технологии нейронных сетей, способный работать на параллельных машинах-. Свидетельство об официальной регистрации программы для ЭВМ. № 2008610860. Заявка

2007615431. Дата поступления 28 декабря 2007. Зарегистрировано в Реестре программ для ЭВМ 20 февраля 2008.

152

При анализе и моделировании информации, полученной с сайта scientific.ru, использовали следующие частные критерии: CI86 – полное число цитирований научных работ ученого с 1986 года (включительно); CImax – число ссылок на самую цитируемую публикацию ученого; FA – только для тех публикаций, где автор первый или единственный в списке –

CI, CImax.

Полученные результаты и их обсуждение. Как это уже было ука-

зано ранее, по рекомендации профессора К. Ван Метера из Ecole Superior de Paris (Париж), являющегося признанным экспертом по оценки важности различных социальных явлений и событий, в первой части работы была предпринята попытка использовать известную технологию «ключевых слов» для получения рейтинга научных работников. Необходимо отметить, что указанная технология является в определенном смысле «стандартом» для оценки значимости различных социальных событий, описана в литературе.

В этой части работы использовали рейтинги 23 профессоров ТГУ им. Г. Р. Державина, представленные в первой колонке в табл. 2.12. Фамилии участников рейтингов в этой таблице не указаны по этическим соображениям. Для этих же лиц были определены и другие оценки рейтингов, составленные в соответствии с технологией «ключевых слов», которые также показаны в табл. 2.12.

Считая внутренний рейтинг ТГУ им. Г.Р. Державина объективным на том основании, что, во-первых, он отражал позицию ректората университета, а во-вторых, был составлен на основе значительного числа частных критериев по четырем основным разделам (1 – формальные показатели, такие как ученая степень, ученое звание, почетные академические звания

ит. д.; 2 – показатели научной работы, такие как число публикаций в различных изданиях, число защищенных диссертаций, количество грантов

ит. д.; 3 – показатели педагогической работы, включая число изданных учебников и учебных пособий, курсов лекций и т. д.; 4 – показатели социальной активности преподавателя), были предприняты попытки нахождения корреляций внутреннего рейтинга и числа ссылок, полученного с применением «ключевых слов».

На рис. 2.52–2.54 показаны различные парные корреляции указанных критериев. Можно сделать вывод о том, что полученные значения коэффициентов корреляции являются довольно низкими, что не дает оснований для непосредственного использования технологии «ключевых слов».

Необходимо отметить, что, в это же время коэффициенты корреляции, числа релевантных ссылок, полученных с помощью различных поисковых машин, достаточно высоки (рис. 2.55–2.56). Это может указывать на тот факт, что, число ссылок указывает на некоторые черты исследуемого респондента, однако, эти черты не имеют безусловного влияния на его профессиональный рейтинг.

153

 

 

 

Таблица 2.12

Различные способы оценок профессоров ТГУ им. Г. Р. Державина

 

 

 

Количество ссылок

Рейтинг

Количество ссылок

Количество ссылок

профессора ТГУ

по запросу на

по запросу

по запросу

им. Г.Р. Державина

на rambler.ru

yandex.ru (документы)

на rambler.ru (сайты)

за 2005 год

 

 

(документы)

x1

x2

x3

x4

6,97

34

11

27

23,22

118

30

197

10,14

70

9

27

12,75

158

20

71

9,03

137

29

122

15,53

79

18

52

5,71

18

7

19

7,37

8

5

16

10,54

256

46

182

9,76

24

11

28

18,69

85

20

117

13,08

68

16

35

10,26

71

18

63

11,64

16

5

11

15,52

93

21

114

14,18

20

9

24

24,62

155

14

32

10,49

183

29

106

12,56

152

28

74

12,62

13

4

7

16,37

367

78

177

5,65

37

8

19

11,46

166

40

105

Необходимо отметить, что при более тщательном изучении данных рис. 2.52 (с применением кластерного анализа), заметна их неоднородность, что первоначально было связано нами с присутствием в рейтинге ТГУ им. Г. Р. Державина представителей естественных (точных) и гуманитарных наук. На рис. 2.57 показаны результаты такого кластерного анализа. Так, рис. 2.57a дает представление обо всей группе данных, а также о характере зависимостей между показателями для представителей естественных и гуманитарных наук. Рис. 2.57b–e показывают существование четырех видов кластеров, каждый из которых характеризует существование определенного вида зависимости. Видно, что основная группа данных в одинаковой степени соответствует представителям обоих направлений (рис. 2.57b и c). Что касается верхнего кластера, показанного на частных зависимостях (рис. 2.57d и e) и их обобщения, показанного на рис. 2.57f, то, как следует из проведенного нами анализа, в него входят ученые, активно использующие различные виды PR-активности в сети Internet.

154

Рис. 2.52. Корреляция между рейтингом научного работника ТГУ за 2005 г. (x1) – по оси абсцисс (безразмерный) и числом найденных поисковой машиной yandex.ru релевантных документов (x2) – по оси ординат. Коэффициент корреляции r = 0,33

Рис. 2.53. Корреляция между рейтингом научного работника ТГУ за 2005 г. (x1) – по оси абсцисс (безразмерный) и числом найденных поисковой машиной rambler.ru релевантных сайтов (x3) – по оси ординат. Коэффициент корреляции r = 0,263

155

Рис. 2.54. Корреляция между рейтингом научного работника ТГУ за 2005 г. (x1) – по оси абсцисс (безразмерный) и числом найденных поисковой машиной rambler.ru релевантных документов (x4) – по оси ординат. Коэффициент корреляции r = 0,4

Рис. 2.55. Корреляция между числом релевантных документов найденных поисковой машиной yandex.ru (x2) – по оси абсцисс и числом релевантных сайтов, найденных поисковой машиной rambler.ru (x3) – по оси ординат. Коэффициент корреляции r = 0,94

156

Рис. 2.56. Корреляция между числом релевантных документов найденных поисковой машиной yandex.ru (x2) – по оси абсцисс и числом релевантных документов, найденных поисковой машиной rambler.ru (x4) – по оси ординат. Коэффициент корреляции r = 0,77

Исключение этих данных из общей совокупности позволило получить лучшую корреляцию между показателями x1 и x2, показанную на рис. 2.58. Однако, по нашему мнению, такой уровень корреляции также не является достаточным для использования технологии «ключевых слов» для подсчета рейтингов научных работников.

Вторая часть работы посвящена выяснению возможности использования аппарата искусственных нейронных сетей (ИНС) для построения математических моделей рейтингов научных работников.

Отметим, что аппарат ИНС, а также технология его использования описаны в главе 1.

В этом разделе работы использовали данные о рейтингах для 566 преподавателей ТГУ им. Г. Р. Державина за 2004 год. Использовали простую структуру ИНС, показанную на рис. 2.59. Обучение ИНС проводили по методу Монте-Карло, что позволяло надеяться на «проскок» локальных минимумов и нахождение глобального минимума при обучении сети. Для обучения ИНС использовали соответственно 10, 20 и 40 % от всей генеральной совокупности данных о рейтингах. Обученную модель использовали для вычислений рейтингов на основе частных критериев: x1 – формальные показатели, такие как ученая степень, ученое звание, почетные

157

Рис. 2.57. Кластерный анализ данных рис. 2.52. Красные точки и линии соответствуют представителям точных наук, синие – представителям гуманитарных наук, а также экономики и права

158

Рис. 2.58. Корреляция между рейтингом научного работника ТГУ за 2005 г. (x1) – по оси абсцисс (безразмерный) и числом найденных поисковой машиной yandex.ru релевантных документов (x2) – по оси ординат без учета лиц, использующих различные виды PR-активности в сети Internet. Коэффициент корреляции r = 0,72

академические звания и т. д.; x2 – показатели научной работы, такие как число публикаций в различных изданиях, число защищенных диссертаций, количество грантов и т. д.; x3 – показатели педагогической работы, включая число изданных учебников и учебных пособий, курсов лекций и т. д.; x4 – показатели социальной активности преподавателя).

Рис. 2.60 и 2.61 суммируют результаты обучения ИНС с линейной и нелинейной внутренними структурами. Видно, что как в первом, так и во втором случаях сеть прекрасно обучается на выборке, включающей от 10 до 40 % всех данных. При этом, приведенная погрешность обучения практически не зависит от выбора ИНС-модели и составляет от 0,02 до 0,03 %. Однако, прогностические способности моделей различаются очень существенно: если линейная модель показывает среднюю погрешность прогноза около 1 %, что является вполне приемлемым, то погрешность нелинейной модели может достигать 71 % при средних значениях порядка 10 %. Полученные результаты означают:

ИНС-модели хорошо обучаются на эмпирических данных, представляющих собой рейтинги ученых в совокупности с частными критериями;

значительные погрешности, возникающие на определенном этапе при усложнении структуры сети (и/или введении в нее новых нелинейных элементов), сопряжены с переобучением сети; этого можно легко

159

избежать, если внимательно следить за погрешностями прогноза; в частном случае (см. рис. 2.60 и 2.61) такие результаты свидетельствуют, что при расчете рейтинга ТГУ им. Г. Р. Державина была использована линейная комбинация частных критериев.

Рис. 2.59. Линейная – a) и нелинейная – b) версии ИНС-моделей для расчета рейтингов ученых ТГУ им. Г. Р. Державина. Линейная модель: общее число нейронов – 7; функциональных нейронов – 1; средняя квадратическая ошибка при обучении модели – 0,29 (0,03 %). Нелинейная модель: общее число нейронов – 8; функциональных нейронов – 2; средняя квадратическая ошибка при обучении модели – 0,2 (0,02 %).

Рис. 2.60. Сравнительные характеристики линейных ИНС-моделей, полученных при моделировании рейтингов ТГУ им. Г. Р. Державина за 2004 год

160

Рис. 2.61. Сравнительные характеристики нелинейных ИНС-моделей, полученных при моделировании рейтингов ТГУ им. Г. Р. Державина за 2004 год

В следующем разделе работы также проверяли возможности использования ИНС-моделей для расчета активности научных работников на примере данных, полученных с сайта www.scientific.ru. Так, на рис. 2.62, 2.63, и 2.64 показаны частные корреляции показателей CI86, CImax и FA. Из их анализа можно сделать вывод, что значения коэффициентов корреляции между этими показателями не велики.

Так на рис. 2.62 показана зависимость CImax – числа ссылок на самую цитируемую публикацию ученого от CI86 – полного числа цитирований научных работ ученого с 1986 года для 860 российских ученых, специализирующихся в области естественных наук. Большинство точек на этом графике локализовано в малой области 0 CImax 900, 1000 CI86 5000. По мере удаления от начала координат, их плотность падает. Поскольку рейтинг ученого зависит одновременно и от CImax и от CI86, на этом рисунке тонкими линиями показаны линии одинаковых рейтингов.

На рис. 2.63 показана зависимость FA – числа ссылок только для тех публикаций, где автор первый или единственный в списке – CI, CImax от CI86 – полного числа цитирований научных работ ученого с 1986 года.

В этом случае коэффициент корреляции

значительно

выше, т. к.

0 FA CI86. Тонкая пунктирная линия

на графике

соответствует

FA= CI86.

Наконец, на рис. 2.64 показана зависимость FA от CImax. В этом случае картина похожа на рис. 2.62.

161

Рис. 2.62. Корреляция между индексами цитирования CI86 и CImax; коэффициент корреляции r = 0,59. Тонкие линии – линии равных рейтингов

Рис. 2.63. Корреляция между индексами цитирования CI86 и FA; коэффициент корреляции r = 0,86

162

Рис. 2.64. Корреляция между индексами цитирования CImax и FA; коэффициент корреляции r = 0,42

Таким образом, из анализа рис. 2.62, 2.63, и 2.64 можно сделать вывод о несущественности корреляций между некоторыми частными показателями, используемыми в рейтинге научных работников.

Следующий раздел данной работы посвящен возможности построения ИНС-модели рейтинга ученого. В качестве рейтинга использовали специальный показатель, который вычисляли следующим образом. Сначала данные по всем научным работники были ранжированы в порядке убывания общего числа ссылок. При этом, на первое место попал ученый, на работы которого с 1986 года было сделано 21879 ссылок. Число, соответствующее рейтингу, вычисляли по формуле: R = 1000 – n (номер места ученого в ранжированном списке). Таким образом, все 860 ученых расположились в порядке по мере убывания рейтинга от 999 (у первого) до 142 (у последнего).

Матрица для обучения ИНС-модели была составлена следующим образом. В качестве входных параметров были взяты: CI86 x1, CImax x2, FA – x3. В качестве единственного выходного параметра использовали рассчитанный рейтинг ученого Y = R.

Для обучения ИНС-модели использовали свободнораспространяемую программу NNC и наши разработки. В процессе обучения ИНСмодели структуру сети изменяли в соответствии с конструктивным алгоритмом, описанным в главе 1.

163

Рис. 2.65. Параметры нелинейной ИНС-модели для расчета рейтингов ученых за 2008 г. на базе индексов цитирования. Номера нейронов показаны на схеме их соединений; коэффициенты связи между нейронами, соответствующие их номерам, показаны в таблице в нижней части рисунка

Рис. 2.66. Корреляция между экспериментальными (эмпирическими) данными и модельными расчетами рейтингов ученых России за 2008 г. Коэффициент корреляции r = 0,98.

164

Окончательная структура ИНС-модели показана на рис. 2.65 вместе с коэффициентами связей между нейронами. На рис. 2.66 показано, что корреляция между модельными и эмпирическими данными высокая, что означает хорошую прогностическую способность модели.

Таким образом, показано, что ИНС-модели можно использовать для формирования рейтинга ученых. Поскольку процесс накопления данных в хранилище информации, оценки деятельности ученых, обучения ИНС-модели могут происходить не единовременно, приведем здесь схематично одну из возможных технологий оценки рейтинга ученых на основе ИНС-моделей.

Общая методология определения рейтингов с помощью ИНС-моде- лей может быть представлена последовательностью следующих шагов:

Шаг 1. Определяем целевую группу научных работников, для которых будет производится оценка их деятельности. В качестве такой группы могут выступать научные работники, для которых известны основные показатели их деятельности, такие как количество научных работ за различные периоды, число публикаций, выступлений на конференциях, количество и суммы грантов, защиты диссертаций и т. д., а также независимые оценки респондентов этой группы.

Шаг 2. Определяем входные и выходные показатели (поля базы данных) на основании которых в дальнейшем будет производиться обучение искусственной нейронной сети. Поскольку на данном этапе нет возможности принимать какие-либо решения по поводу того, насколько значим или незначим данный показатель и как (каким образом) он может влиять на общий рейтинг научного работника, то в дальнейшим будем использовать максимально возможное число входных показателей, которые удастся извлечь из базы данных. Незначимые и малозначимые входные показатели будут удалены после завершения этапа первичной идентификации ИНСмодели. Необходимо отметить также, что в качестве выходного показателя могут быть использованы различные формальные достижения уже полученные ученым и показывающие его признание научным сообществом – награды, гранты, членство в академиях и т. д.

Шаг 3. Готовим данные для обучения искусственной нейронной сети. Данный этап является формальным, т. к. он включает лишь конверсию таблиц с эмпирическими показателями в формат DBF или Microsoft Excel, т. к. используемое программное обеспечение работает именно с такими форматами данных (см. пункт 6).

Шаг 4. Задаем первичную структуру ИНС и проводим ее обучение эмпирическим данным. На этом этапе выбираются: количество входных нейронов (как правило, это число должно быть равно числу различных показателей, имеющихся в базе данных); количество выходных нейронов (это число должно быть равно числу независимых оценок); количество слоев и количество нейронов в слое (выбираются в соответствии с решае-

165

мой задачей); система связей между нейронами (выбирается в соответствии с решаемой задачей, первоначальная конструкция может быть разработана по принципу «каждый с каждым»); активационные функции нейронов (выбираются из известного набора – линейная, параболическая, сигмоид, ступенчатая функция и т. д.). Реализация этого этапа является одним из самых тонких мест в указанной технологии. От того, насколько удачно выбрана структура ИНС в значительной степени зависит ее способность к обучению, адекватность модели и количество итераций, которое предстоит выполнить на пути реализации технологии. Необходимо отметить, что последующие шаги гарантируют адекватность ИНС-модели даже в том случае, если первоначальная структура была выбрана неверно. На этом шаге получаем первичную ИНС-модель оценки труда ученого, которая должна быть уточнена в дальнейшем.

Шаг 5. Осуществляем удаление несущественных связей ИНС и проводим окончательную настройку модели. Несущественными считаются связи, весовые коэффициенты которых ниже заданного, определяемого пользователем уровня. Такие связи практически не оказывают никакого воздействия на качество работы всей модели в целом. Тем не менее, после их удаления для окончательной настройки модели необходимо еще раз провести обучение сети. Изменение структуры сети осуществляем на основе созданного нами алгоритма (глава 1). В результате получаем вторичную модель оценки труда ученого, по которой возможно проводить анализ структуры и содержания этого понятия.

Шаг 6. Проверка адекватности модели и коррекция ее параметров осуществляются в сравнении с реальными эмпирическими данными. После проверки адекватности ИНС-модели, должен быть выполнен ее анализ: определены структуры и содержание самого понятия «оценка деятельности научного работника» или «рейтинг научного работника». Алгоритмы такого анализа, базируются на оценках чувствительности определяемого фактора, в данном случае – это «оценка деятельности научного работника» к составляющим факторам, представляющим собой отдельные компоненты.

Шаг 7. После анализа модели может быть выполнено ее упрощение и, возможно, получено выражение для расчета рейтинга научного работника.

Заключение. Таким образом, в данном разделе показано, что аппарат искусственных нейронных сетей может быть использован в задачах определения рейтингов научных работников. Приведена возможная технология использования ИНС-моделей для решения данных задач. Указанная технология может быть использована в качестве ядра информационной системы для оценки деятельности научных работников.

166

Литература к части 2

1.Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2004. (имеется на сервере кафедры КММ).

2.Арзамасцев А.А., Зенкова Н.А. Моделирование в психологии на основе искусственных нейронных сетей. – Тамбов: ИМФИ ТГУ им. Г.Р. Державина, 2003. (имеется на сервере кафедры КММ).

3.Арзамасцев А.А., Зубаков А.П. Системы распознавания образов на основе аппарата искусственных нейронных сетей (ИНС): Учебное пособие. – Тамбов: ИМФИ ТГУ им. Г.Р.Державина, 2003.

167

Часть 3. Лабораторные работы

3.1. Лабораторная работа 1.

Знакомство с программой моделирования искусственных нейронных сетей NNC1 (Neural Network Constructor)

Цель работы: ознакомиться с пользовательским интерфейсом, функциональными возможностями, командами программы NNC. Научиться создавать искусственные нейронные сети (ИНС) различной конфигурации, изменять функции нейронов, создавать обучающие последовательности и производить обучение ИНС различными методами.

Отчет о работе, оформленный в виде файла в Microsoft Word, должен содержать результаты изучения студентом программы NNC: файлы с тестируемой искусственной нейронной сетью (объект с известным числом входов и выходов, выбранной структурой), обучающую выборку, апробированные варианты структуры сети и результаты ее обучения (средняя абсолютная погрешность).

Далее следует описание NNC – интерактивной программы, с помощью которой можно выполнять компьютерное моделирование нейронных сетей прямого распространения. Она написана на языке высокого уровня DELPHI и работает под управлением операционной системы Microsoft Windows на IBM-совместимых компьютерах.

Используя NNC, пользователь может легко создавать, обучать и использовать нейронные сети. Так как нейронные сети могут аппроксимировать любую непрерывную функцию, отображающую одно конечномерное пространство в другое с любой желаемой степенью точности, это позволяет пользователю создавать прогностические модели в различных предметных областях. NNC v. 3.01 – свободное программное обеспечение и оно доступно в сети Интернет (адрес http://vkrepets.chat.ru/NNC.exe). Данная

1 Автор программы Крепец В. В. (Вычислительный центр РАН, г. Москва). Программа доступна в Internet по адресу http://vkrepets.chat.ru/ для свободного использования (freeware). Описание программы также получено с этого сайта.

168

программа позволяет использовать до 60 входных нейронов, варьировать функцией нейрона, количеством слоев и связей сети. Она содержит в себе готовые алгоритмы обучения по следующим методам: покоординатный спуск, случайный поиск, метод Ньютона, статистический градиентный метод, комбинации этих методов.

Интерфейс NNC – однооконный. В единственном окне программа может отображать графическое представление нейронной сети, представление нейронной сети в виде матрицы инцидентности и таблицу с данными, на основании которых обучается нейронная сеть. NNC предусматривает стандартный Microsoft Windows интерфейс пользователя для стандартных команд, как, например, открытие и сохранение файлов. NNC имеет строку меню, инструментальную панель и строку состояния. Пользователь может спрятать инструментальную панель и строку состояния. Достаточно полно все возможности программы представлены в сети Интернет по адре-

су http://lmgdd.ibmh.msk.su/NNC.

Пользователь может создавать новые нейроны, выбирать типы нейронов и удалять существующие нейроны. Также пользователь может перемещать нейроны, создавать новые связи и удалять существующие связи между двумя нейронами.

Здесь (см. рис. 3.1) и далее представлено описание программы построения, настройки и эксплуатации нейронных сетей NNC.

Рис. 3.1. Главное меню программы

Управление построением, настройкой и эксплуатацией нейронных сетей настолько просто, что позволяет даже легко работать с программой. Создание нейронной сети может осуществляться с помощью манипулятора «мышь». Можно создавать и удалять нейроны и связи между ними, передвигать нейроны по полю и задавать типы нейронов, от которых зависит функция активации нейрона (см. рис. 3.2).

На этом этапе никакого контроля не проводится, то есть можно создавать произвольные нейронные сети. Также предусмотрена возможность сохранения и загрузки ранее созданных нейронных сетей.

169

Рис. 3.2. Допустимые манипуляции мыши

После создания или загрузки существующей нейронной сети на экране монитора появляется ее изображение в виде графа, аналогичное изображению, показанному на рис. 3.3.

После создания макета нейронной сети необходимо дополнить ее матрицей наблюдений и (по желанию) текстовым описанием нейронов. Для наполнения файла текстовым описанием нейронов и для исследования весов связей нейронной сети программой предусмотрено представление графа нейронной сети в виде матрицы инцидентности (см. рис. 3.4).

Рис. 3.3. Граф нейронной сети

170

Рис. 3.4. Матрица инцидентности графа нейронной сети

Для наполнения нейронной сети информацией о матрице наблюдений предусмотрено следующее окно (см. рис. 3.5.).

Рис. 3.5. Матрица наблюдений

Вводить информацию можно с клавиатуры, но наиболее удобно делать это с помощью буфера обмена среды Windows. Экспорт и импорт данных программой не предусмотрен, поэтому, если существует потребность ввести в программу уже существующую матрицу наблюдений, имеет смысл воспользоваться электронными таблицами (типа Microsoft Excel) для импорта данных, а затем перенести их в программу построения нейронных сетей через буфер обмена (Clipboard).

171

Созданную и наполненную информацией нейронную сеть необходимо сохранить на жестком диске, так как при настройке и при эксплуатации сети необходимо ее присутствие на диске. Для удобства пользователя предусмотрено окно, содержащее информацию о нейронной сети. Оно вызывается в пункте меню View|Info... и выглядит, как показано на рис. 3.6.

Рис. 3.6. Окно информации о нейронной сети

Команды меню

File|New – Создает новый файл. Доступно с помощью сочетания Ctrl+N. Вынесено в виде кнопки на панель инструментов (Toolbar).

File|Open – Вызывает оно диалога открытия существующего файла. Доступно с помощью сочетания Ctrl+O. Вынесено в виде кнопки на панель инструментов.

File|Save – Сохраняет изменения, внесенные в текущий файл. Выполняется только при условии, что изменения имели место, то есть в том случае, если во втором поле строки состояния (Statusbar) имеется сообщение “modified”. В случае отсутствия пути и имени файла на жестком диске (“Untitled” в заголовке программы) вызывает опцию “Save As...”. Доступно с помощью сочетания Ctrl+S. Вынесено в виде кнопки на панель инструментов.

File|Save As... – Вызывает окно диалога сохранения файла.

File|Exit – Завершает работу программы. Доступно с помощью сочетания

Ctrl+F4.

Edit|Copy – Копирует выделенную часть таблицы в буфер обмена (Clipboard). Работает в окне со списком нейронов и в окне с матрицей наблюдений. Доступно с помощью сочетания Ctrl+Ins. Вынесено в виде кнопки на панель инструментов.

Edit|Paste – Вставляет в таблицу информацию из буфера обмена. Работает в окне со списком нейронов и в окне с матрицей наблюдений. Доступно с помощью сочетания Shift+Ins. Вынесено в виде кнопки на панель инструментов.

Edit|Delete – Удаляет выделенную часть матрицы наблюдений. Работает только в окне с матрицей наблюдений. Доступно с помощью клавиши Del.

172

Edit|Select All – Выделяет таблицу целиком. Работает в окне со списком нейронов и в окне с матрицей наблюдений. Доступно с помощью сочета-

ния Ctrl+A.

View|Graph – Активизирует окно с представлением нейронной сети в виде графа. Доступно с помощью сочетания Ctrl+G. Вынесено в виде фиксируемой кнопки на панель инструментов.

View|Labels – Активизирует окно со списком нейронов и представлением нейронной сети в виде матрицы инцидентности. Доступно с помощью сочетания Ctrl+L. Вынесено в виде фиксируемой кнопки на панель инструментов.

View|Data – Активизирует окно с матрицей наблюдений. Доступно с помощью сочетания Ctrl+D. Вынесено в виде фиксируемой кнопки на панель инструментов.

View|Grid – Фиксируемый переключатель. Удаляет/проявляет сетку в окне с представлением нейронной сети в виде графа.

View|Toolbar – Фиксируемый переключатель. Удаляет/проявляет панель инструментов (Toolbar).

View|Statusbar – Фиксируемый переключатель. Удаляет/проявляет строку состояния (Statusbar).

View|Scale|50% – Устанавливает масштаб отображения любого окна равным половине исходного размера.

View|Scale|100% – Устанавливает масштаб отображения любого окна равным исходному размеру.

View|Scale|200% – Устанавливает масштаб отображения любого окна равным 200% от исходного размера. На панель инструментов вынесены две кнопки "Zoom In" и "Zoom Out", позволяющие увеличивать и уменьшать масштаб отображения в два раза.

View|Info... – Вызывает окно с информацией о нейронной сети (см. рисунок). Доступно с помощью сочетания Ctrl+I.

Run|Reset links – Устанавливает веса существующих связей нейронной сети равными случайным числам из диапазона (–1.0,–0.1) или диапазона (0.1,1.0). Run|Check ejections – Проверяет корректность матрицы наблюдений на наличие больших отклонений.

Run|Parameters|Epsilon – Устанавливает параметр точности, до которой будут проводиться вычисления при настройке нейронной сети. Возможные значения параметра – 1.0e-3, 1.0e-4, 1.0e-5, 1.0e-6, 1.0e-7, 1.0e-8.

Run|Parameters|Metrics – Устанавливает параметр показателя степени метрического пространства, в котором будут проводиться вычисления при настройке нейронной сети. Возможные значения параметра – 1, 2, 4, 8 и 64. Параметр равный 1 соответствует метрическому пространству с метрикой l1, в котором расстояние вычисляется как сумма модулей. Параметр равный 2 соответствует евклидовому пространству с квадратичной метрикой. Параметр равный 4 соответствует метрическому пространству с метрикой

173

l4, в котором расстояние вычисляется как сумма четвертых степеней. Параметр равный 8 соответствует метрическому пространству с метрикой l8, в котором расстояние вычисляется как сумма восьмых степеней. Параметр равный 64 соответствует метрическому пространству с метрикой l64, в котором расстояние вычисляется как сумма шестьдесят четвертых степеней. Пространство с такой метрикой уже является близким по своим свойствам к метрическому пространству с равномерной метрикой.

Run|Parameters|Algorithm – Выбирает алгоритм минимизации, используемый при настройке нейронных сетей. В описываемой версии доступны пять различных алгоритмов минимизации. Это метод покоординатного спуска (Coordinate-wise descent), метод случайного поиска (Random search),

метод наискорейшего спуска (Steepest descent), метод статистического гра-

диента (Statistical gradient method) и метод Ньютона (Newton method). Так-

же доступны две схемы минимизации. Это случайный поиск плюс метод Ньютона (Random + Newton) и метод наискорейшего спуска плюс метод Ньютона (Steepest descent + Newton).

Run|Options|Reset links before full training – Фиксируемый переключа-

тель. По умолчанию не включен. Включенный переключатель устанавливает веса существующих связей нейронной сети равными случайным числам из диапазона (–1.0,–0.1) или диапазона (0.1,1.0) перед началом полного обучения нейронной сети.

Run|Options|Check ejections before tuning – Фиксируемый переключатель.

По умолчанию не включен. Включенный переключатель проверяет корректность матрицы наблюдений на наличие больших отклонений перед началом обучения нейронной сети или перед коррекцией существующих связей.

Run|Options|Check ejections before run – Фиксируемый переключатель.

По умолчанию включен. Включенный переключатель проверяет корректность матрицы наблюдений и вновь введенных данных на наличие больших отклонений перед эксплуатацией настроенной нейронной сети.

Run|Options|Create robust model – Фиксируемый переключатель. По умолчанию включен. Включенный переключатель мультипликативно добавляет функцию влияния в минимизируемый функционал, что позволяет робастно

оценивать параметры нейронной сети и строить робастные модели.

Run|Tuning|Correcting weights of existing links – Корректирует параметры нейронной сети с целью минимизации в метрическом пространстве с метрикой, выбранной в пункте меню "Run|Parameters|Metrics". Численная минимизация ведется методом, обозначенным в пункте меню "Run|Parameters|Algorithm". Перед коррекцией параметров нейронной сети проводится анализ ее связей. Автоматически удаляются входящие связи в нейроны типа "Constant" и типа "Input". Также автоматически удаляются исходящие связи из нейронов типа "Output". В случае обнаружения циклов или обратных связей в нейронной сети пользователю выдается сообщение об обнаружении и процесс настройки не запускается. В процессе минимизации на мониторе появляется окно, показанное на рис. 3.7.

174

Рис. 3.7. Окно информации о выполнении расчета

В этом режиме пользователь может переключиться в основное окно, но все функции, связанные с модификацией, открытием и сохранением файлов являются недоступными.

Run|Tuning|Find global minimum – Корректирует параметры нейронной сети, стартуя из случайной точки метрического пространства. Делает 100 итераций или работает до прерывания пользователем. Остальные свойства аналогичны свойствам, описанным в разделе "Run|Tuning|Correcting weights of existing links". По окончании поиска или после прерывания пользователем выбирается решение, соответствующее более глубокому минимуму функционала.

Run|Tuning|Full training with regularization – Корректирует параметры нейронной сети, реализует процедуру скользящего контроля и отбрасывает малозначимые связи в соответствии с критерием Фишера. В этом режиме пользователь может переключиться в основное окно, но все функции, связанные с модификацией, открытием и сохранением файлов являются недоступными. В случае прерывания процесса пользователем выбирается набор значений весов связей нейронной сети, соответствующий лучшему показателю качества на контроле.

Run|Run|Run mode – Переходит в режим / выходит из режима "Run mode". В этом режиме также все функции, связанные с модификацией, открытием и сохранением файлов являются недоступными. Также отключаются функции, связанные с настройкой и коррекцией параметров нейронной сети. При входе в "Run mode" программа автоматически переходит в окно с матрицей наблюдений и устанавливается в первый свободный ряд ниже матрицы наблюдений. В этом режиме можно вводить новую информацию в строки матрицы наблюдений ниже тех строк, на основании которых проводилось обучение нейронной сети. Остальные клетки становятся недоступными для модификации. Вносить новую информацию наиболее удобно через буфер обмена (Clipboard). В этом режиме во втором поле строки состояния (Statusbar) сообщение "Modified" не появляется. При выходе из режима "Run mode" вся вновь введенная информация исчезает.

175