
Александров Ю.И., Анохин К.В. - Нейрон. Обработка сигналов. Пластичность. Моделирование_ Фундаментальное руководство (2008)
.pdfПопытка создания модели нейрона, способного к самообучению, привела к созданию нейрона Хебба, который является, в определенной степени, «переходной формой» к биологически правдоподобным моделям обработки сигналов в нейроне.
В основе модели нейрона Хэбба лежит выдвинутое этим ученым предположение о том, что чем больше сигналов проходит через синаптическую связь между нейронами, которые приводят к активации ней- рона-мишени, тем более эффективной (потенцированной) становится эта связь. По своей структуре нейрон Хэбба соответствует простой формальной модели нейрона. А вот математическая модель нейрона Хэбба дополнена правилом, согласно которому вес wi связи изменяется пропорционально произведению ее входного сигнала и выходного сигнала нейрона в целом:
∆ wi = α wi y ,
где α есть коэффициент обучения, принимающий значения от 0 до 1, а y — выход нейрона в целом. Такая модель нейрона может обучаться без учителя — в зависимости от первоначально установленных параметров и текущих параметров входного сигнала. В случае, если требуется обучение с учителем, в данной модели вместо выходного сигнала y используется ожидаемая от этого нейрона реакция d. В этом случае правило Хебба записывается в виде:
∆ wi = α wi d
На каждом такте работы нейрона Хэбба (в каждом цикле обуче- ния) происходит суммирование текущего значения веса и его приращения ∆ wi :
Из формулы видно, что в модели нейрона Хебба веса нейрона могут принимать произвольные значения. Для того чтобы предотвратить появление чрезмерных значений, в модели Хэбба может быть использован коэффициент забывания γ, который обычно определяется как некоторый процент от значения коэффициента обучения α (например, в интервале от 0 до 1) и на значение которого уменьшается текущий вес связи:
wi (t+1) = wi (t)(1-γ) + ∆ wi (см.: Дополнительная литература, 4).
Модель нейрона Хэбба является несколько более биологически реалистичной, чем рассмотренные выше модели. К ее главным особенностям можно отнести появление в модели сохраняемых динами-
500
ческих изменений весов связей под влиянием статистики прохождения активности — памяти и способности к обучению и самообучению. При- чем каждая связь может обучаться индивидуально, что дает дополнительную степень свободы при проектировании нейронных сетей, основанных на нейроне Хэбба. Кроме того, можно заметить, что внесение небольших модификаций в модель может позволить не только увели- чивать веса связей, если входной сигнал сопровождался активацией нейрона-мишени, но и уменьшать эти веса, если потенциала действия нейрона-мишени не последовало после поступления входного сигнала по данной связи. Естественно, что, как и в других простых формальных моделях, в нейроне Хэбба может моделироваться влияние как положительных, так и отрицательных (тормозящих) медиаторов.
Хотя с появлением модели нейрона Хэбба у проектировщиков искусственных нейросетей появились новые возможности, как представляется, они еще многократно увеличиваются при дальнейшем приближении модели обработки сигналов нейроном к биологическому прототипу путем более детального математического моделирования процессов, происходящих в живом нейроне.
16.4. Ограничения простой формальной модели нейрона
Моделирование обработки сигналов в нейроне направлено на достижение двух основных целей:
1)моделирование с целью лучшего понимания процессов, происходящих в нейроне-прототипе;
2)моделирование с целью использования воспроизведенных процессов обработки сигналов в нейроне для создания искусственных интеллектуальных систем.
Критерием качества моделей, направленных на достижение первой цели, является максимально точное приближение к отображению процессов, протекающих в живом нейроне. Эта задача решается созданием «портретных» моделей нервной клетки.
Критерием совершенства и оценки ограничений моделей нейронов, предназначенных для достижения второй цели, является возможность построения на их основе искусственных нейросетей, способных успешно решать поставленные перед ними прикладные задачи с учетом ресурсоемкости и реализуемости на базе программно-аппаратных комплексов. Таким образом, данный критерий привязан к содержанию задач, поставленных перед нейросетями. Это показывает, что уже созданные
501
модели нейронов, в том числе простые формальные модели, смогут всегда с успехом применяться для решения того ряда задач, с которыми такие модели справляются (распознавание, некоторые виды прогнозирования, системы технического управления и т.д.). В то же время постановка задач более высокого уровня повышает требования к базовой модели нейрона, выявляет ограничения и неоптимальность простых формальных моделей нейрона.
Укажем здесь на некоторые ограничения простых формальных моделей нейрона, имея в виду, в качестве примера, задачу обработки
высказываний на естественном языке.
Отсутствие в простых формальных моделях нейрона моделирования цикла явлений, связанных с постепенным формиро-
ванием следа памяти (каскада фаз формирования памяти).
Наиболее серьезным ограничением всех простых формальных моделей нейрона представляется отсутствие в них моделирования развивающегося во времени биохимического каскада событий, связанных с формированием памяти. Как известно, в реальном нейроне формирование следа памяти включает в себя целую совокупность последовательно развивающихся и обусловливающих друг друга явлений, включающих в себя как формирование потенциалов в аксонных окончаниях и дендритах клетки (с определенным временем жизни), так и структурные изменения клетки в результате синтеза новых белков под управлением генети- ческого аппарата нейрона, запускаемого паттернами входных сигналов. К таким структурным изменениям в первую очередь следует отнести синтез новых рецепторов медиаторов и их встраивание в постсинапти- ческие мембраны, а равно и структурные изменения бутона аксонной терминали нейрона, с которого приходит сигнал. По всей видимости, с каждой из фаз формирования памяти в нейроне связаны важные когнитивные способности сети в целом. Для иллюстрации этих положений приведем пример с обработкой контекстуального значения слова.
Пример 1. Предположим, что искусственная нейросеть должна определить значение слова «мишка» в прочитанном тексте. В сети есть соответствующий нейрон-маркер (вершина), активирующийся при вводе сочетания звуков или букв, составляющих данное слово (т.е. афферентно инвариантный нейрон; в нейробиологии введено полушутливое название для таких нейронов — «нейроны моей бабушки»). Под «определением значения» будем иметь в виду активацию нейроном-мар- кером данного семантического значения («мишка») других нейронов, связанных с ним в результате обучения и являющихся маркерами слов,
502

несущих дополнительную информацию об определяемом слове. Ясно, что у слова «мишка» могут быть разные значения: это может быть зверь, конфета, игрушка, имя друга, имя другого человека и т.д. Значе- ние словоупотребления может быть понято из контекста. А контекст поступает в сеть до или после употребления слова «мишка». Соответственно, в нейроне и межнейронных связях должен присутствовать не только аппарат долговременной памяти, ассоциирующий вершины слова и его значения, но и аппарат среднесрочных форм памяти, обеспе- чивающий понимание контекстуального значения слова. Статистика предъявлений в данном случае не самый совершенный помощник: простой формальный нейрон Хэбба мог бы активировать то значение слова «мишка», которое наиболее часто предъявлялось сети. Разумеется, нет никаких гарантий правильности такого определения значения.
Пример 2. Системе многократно предъявлялось некоторое многозначное слово и одна из его дефиниций. Затем системе однократно предъявляется это же слово с его второй дефиницией, после чего это же слово во втором значении используется в диалоге с сетью. Система должна правильно активировать второй вариант дефиниции слова.
Пример 3. Предположим, что полносвязной сети семантических вершин, построенной на базе простых нейронов, предъявлено несколько математических примеров типа «1+2=3», «1+3=4» и т.д. При вводе запроса «1+2=» такая сеть может выдать и «3» и «4», так как вершина «=» имеет теперь обученные связи с обеими этими вершинами. Ясно, что сеть должна принять во внимание всю полную длину введенного основания, чтобы дать правильный ответ (рис 16.7.).
Ðèñ. 16.7. Пример сочетания ассоциативной трансляции и ассоциативной конвергенции по типу «семантического многоугольника», обеспечивающего активацию нейрона-мишени (нахождение целевой ассоциации) по полному введенному семантическому основанию с переменной длиной. При последовательном перемещении активности с нейрона на нейрон при такой архитектуре требуется сохранение потенциалов в межнейронных связях на протяжении нескольких тактов работы системы — в терминологии Мак-Каллока и Питтса — «временной суммации». Здесь показана последовательность нейронов с увеличивающимся порогом. На практике различие порогов может быть заменено внешней управляющей нейронной разверткой с возрастающим торможением.
503
Как мы видим, все эти три примера по сути являются одним и тем же, описывая необходимую способность системы к определению контекстуального значения слова.
Разумеется, эти примеры сами по себе еще не указывают на принципиальную непригодность формальной модели нейрона для реализации сетей, умеющих различать контекст. Для того чтобы решить эту задачу, можно вспомнить положение Мак-Каллока и Питтса о том, что временную суммацию потенциалов можно заменить пространственной суммацией, реализуемой с помощью соответствующей структуры сети.
Мы можем получить успешное решение задачи определения контекстуального значения слова и вышеприведенных математических примеров на основе простой формальной модели нейрона в том случае, если обеспечим перевод активности с ранее активированных вершин в сетевые локусы с аналогичной внутренней структурой, выполняющие роль буфера памяти (в компьютерной терминологии) (рис 16.8). Тогда на соответствующем такте работы сети они внесут свой вклад в активацию «правильной» целевой ассоциации, соответствующей введенной последовательности вершины-мишени в основном ассоциативном локусе. Подобная архитектура может обеспечить и позиционную чувствительность, и понимание значения по контексту, хотя и включит в себя число сетевых локусов, кратно увеличенное пропорционально числу объектов, которые надо принять во внимание для вывода (здесь мы пока считаем, что система ветвления ассоциаций отсутствует, а также опустим вопрос о критериях определения этого числа). Соответственно при вводе запросов типа «1+2=» и «1+3=» такая сеть из нескольких связанных между собой полносвязных модулей правильно выведет «3» в первом случае, «4» во втором и т.п. Также понятно, что при вводе запроса «1+» после вышеописанного обучения система выведет нечто типа высказывания «23=34» (не будем здесь рассматривать проблему циклов в полносвязной сети — она вполне решаема в рамках сетевой архитектуры). Другое дело, что сеть по результатам своего «размышления» запомнит этот вывод, и теперь и после ввода запроса «1+2=», и после ввода запроса «1+3=» в обоих случаях выведет и «3» и «4», что отразит результаты ее самообучения при самостоятельном продолжении ассоциирования. Эту ситуацию можно определить как проблему корректного продолжения ассоциативной трансляции с учетом полной переменной длины введенного семантического основания при наличии ветвей внутри введенного основания (или ошибку в результате логического вывода на основе комбинации из связей, обу- ченных при их предъявлении в составе разных высказываний).
504

Ðèñ. 16.8. Мак-Каллок и Питтс исходили из того, что временная суммация может быть заменена пространственной суммацией. На рисунке показано, как будет выглядеть сеть, представленная на предыдущем рисунке, если она будет построена на основе простой формальной модели нейрона. Из-за появления сетевых локусов-буферов кратно увеличивается размер сети. Предполагается, что нейроны, изображенные правее, работают на такт позднее.
На первый взгляд, для сети, построенной на простых формальных нейронах, есть выходы и из этой ситуации. Причем несколько.
Во-первых, проблему неправильно запомненного вывода при самостоятельном ассоциировании системы после ввода общего фрагмента нескольких запомненных семантических оснований можно решить путем ввода обучающего отрицания, то есть торможения, когда неправильный вывод ассоциируется с тормозящим центром указанием внешнего учителя или при самостоятельном чтении сетью текстов, прямо указывающих на ошибку одного из выводов. В принципе не приходится отрицать необходимость подобного аппарата: ведь вполне понятна полезность указания на ошибку в процессе обучения. Но система, построенная только при таком решении, утрачивает способность к правильному собственному ассоциативному выводу без дополнительного обучения, а в случае обучения с учителем диалог с такой системой требует постоянного указания на ошибки.
Во-вторых, можно добавить в сетевую архитектуру аппарат ветвления ассоциаций. Он может быть построен различными способами. Для нашего рассуждения особенности сетевых архитектур не представляют большого интереса. Суть аппарата ветвления заклю- чается в том, что при появлении ассоциативной дивергенции, ветвей
505
ассоциации, основание вновь образованных ветвей вместе с предшествующим началу ветвей ассоциативным основанием перемещается в отдельные сетевые локусы, гомологичные первоначальному, где и продолжается дальнейшее ассоциирование по полному введенному основанию (также при участии аппарата буферов для сохранения активности ранее введенного основания, теперь уже в локусе для каждой ветви, что еще на соответствующий порядок увеличивает объем сети). Но, помимо резкого роста объема сети, более серьезной проблемой теперь становится то, что ассоциирование системы продолжается в различных, расщепленных локусах, так как если мы их объединим, то вновь получим все те проблемы, которые пытались решить. Локусы ветвления можно применить при организации вывода системы, но при организации самостоятельного ассоциирования системы они малоприемлемы: ведь семантика оказывается зависимой от места ее обработки, когда новые ассоциативные связи появляются в различных, не связанных между собой локусах. Конечно, можно ввести специальные процедурные нейроны, связи с которыми введенного основания также потенцируются и которые после такой потенциации начинают выполнять роль управляющей развертки, направляя ветви введенного основания в тот локус, в котором они уже обрабатывались. Это даст системе возможность завершать зау- ченные ассоциации по введенному основанию даже при ветвлении. Но использовать фрагменты ассоциативных последовательностей, полученных в одном локусе, для выводов, совершаемых в другом локусе (например, для аналогий), такая система уже не сможет: основной ассоциативный континуум знаний системы оказывается расщепленным (рис 16.9). А это уже серьезный недостаток сетевой архитектуры, построенной на простой формальной модели нейрона без временной динамики потенциалов.
Таким образом, отсутствие в модели нейрона модели каскада памяти приводит к росту размерности создаваемых искусственных нейросетей при снижении их когнитивных способностей. Избежать кратного увеличения размера сети, расщепления континуума знаний системы и обеспечить ее корректное самообучение мы можем, пойдя совершенно другим путем — путем биологически более реалистич- ного моделирования нейрона, который имеет значительно более развитый аппарат обработки сигналов, нежели простая формальная модель нейрона.
506

Ðèñ. 16.9. Основываясь на простой формальной модели нейрона, мы вынуждены заменять временную динамику потенциации нейронов и межнейронных связей пространственной структурой сети. При ветвлении ассоциаций в континууме знаний системы мы в этом случае вынуждены помещать каждую ветвь в отдельный локус, причем в каждом локусе иметь еще процедурные гомологич- ные локусы для учета активности ранее или позднее активированных нейронов, что также увеличивает размерность сети. Жирными пунктирными стрелками показаны ассоциативные связи, которые не могут быть образованы в такой сети.
Отсутствие в простых формальных моделях нейрона различных типов активирующих и различных типов тормозящих медиаторов. Как известно, в реальном мозге используются
десятки, если не сотни видов нейромедиаторов, воздействующих на
507
комплементарные им рецепторы. Более того, за счет различных конструкций рецепторов в реальном нейроне действие одного медиатора может модулировать действие другого. Как известно, на основе подобной организации мозг строит свои различные управляющие контуры. Кроме того, различные типы медиаторов и рецепторов могут вносить существенный вклад в логику. В качестве примера можно привести поступающие в последние годы данные о том, что допамин, с помощью Д1 и Д2 классов своих рецепторов, обладающих разной чувствительностью к допамину и по-разному, во многом противоположно, модулирующих НМДА, АМПА и ГАМКr рецепторы (Tseng Kuei Y. et al., 2004), способствует дифференцировке ассоциаций при их ветвлении и корректному определению целевой ассоциативной проекции (возможно, этот аппарат напоминает процесс получения «выигравшего» нейрона в когнитроне Фукушимы).
Введение в модель нейрона различных типов медиаторов и их рецепторов дает дополнительную степень свободы при конструировании
нейросетевых архитектур.
Отсутствие в простых формальных моделях нейрона раз-
нообразия видов межклеточных соединений и межклеточно-
го взаимодействия. Еще одна степень свободы у разработчика нейросетей появляется, если мы даем ему возможность устанавливать самые разнообразные соединения между отсеками нейронов, которые присутствуют в живых нейросетях: аксон-дендритные, ак- сон-соматические, аксон-аксональные, сома-дендритные, сома-сома- тические, сома-аксональные, дендрит-дендритные, дендрит-сомати- ческие и дендрит-аксональные. Кроме того, весьма полезным будет включение в модель нейрона регулирования посредством экстрасинаптического диффузного распространения медиатора. Это, в частности, позволит значительно уменьшить количество связей в тех частях плотносвязных сетей, которые не требуют индивидуального обучения связей. Помимо прочего, это означает, что наравне с моделью нейрона в сети должна присутствовать модель внешней среды
функционирования клетки.
Отсутствие в простых формальных моделях нейрона модели генетического регулирования развития клетки. Многие ней-
ронные сети, в том числе и многие сети, предназначенные для обработки естественного языка, строятся на основе технологии нейронов, устойчиво кодирующих некоторую семантику. Подобные нейроны всегда активируются в ответ на предъявление системе некоторого объекта.
508
Подобная реакция таких нейронов формируется соответствующей структурой рецептивного поля данных нейронов, то есть структурой входного сигнала от систем распознавания или нижележащих слоев сети, а сами такие нейроны можно назвать афферентно инвариантными вершинами.
В то же время анализируемые нейросетями некоторые сферы внешней предметной реальности имеют, как правило, весьма большую размерность. К примеру, в русском языке существует порядка 10 тыс. общеупотребимых и более 190 тыс. других слов современного литературного языка, около 15 тыс. имен и фамилий, около 4 млн. научных и технических терминов и названий, порядка 1 млн. топонимов и примерно столько же диалектных слов. С учетом словоизменения (12 форм склонения существительных, 24 формы склонения прилагательных и более 70 форм спряжения глаголов) общее количество слов в компендиуме русского языка достигает цифры порядка 150 млн. словоформ и более. Конечно, в реальных и искусственных нейросетях вовсе не обязательно выделение для маркировки слова отдельного нейрона: вполне может быть использовано комбинационное кодирование (хотя с учетом количества нейроцитов в реальном мозге эти цифры не представляются большими). Но в любом случае количество нейронов, необходимых для кодирования языкового компендиума или его фрагментов, весьма велико.
С точки зрения экономии машинных ресурсов вполне обоснованным выглядит соображение о постепенном формировании таких афферетно инвариантных нейронов по мере необходимости. По всей видимости, нечто подобное происходит и в зонах реального мозга, когда при интенсивном обучении формируется новые пулы «резервных» нейронов, которые могут быть использованы для маркировки новых семантических значений. Следует заметить, что формирование новых вершин при этом должно происходить в нескольких локусах, имеющих некоторую упорядоченную архитектуру связей между собой, а вновь образованные нейроны должны «уметь» устанавливать необходимые связи с другими нейронами.
Практическая реализация в модели подобной технологии требует включения в модель нейрона модели генетического кода (экспрессии генов), ответственного за образование и спраутинг вновь образуемых нейронов семантических вершин.
Одним из результатов моделирования генетического регулирования может быть введение моделей апоптоза клеток. Например, он мо-
509