
- •Дайте определение понятию «информационные процессы»
- •Дайте определение понятию «информационное обеспечение»
- •Дайте определение понятию «информация»
- •Дайте определение понятию «дискретизация информации»
- •Дайте определение понятию «данные»
- •Дайте определение понятию «система управления базами данных (субд)»
- •Дайте определение понятию «банк данных (БнД), автоматизированный банк данных (абд)»
- •На какие типы разделяются аис по характеру представления и логической организации хранимой информации (указать наиболее полный ответ)
- •На какие типы разделяются субд
- •Что из себя представляет иерархическая модель организации данных
- •Что из себя представляет сетевая модель организации данных
- •Что из себя представляет реляционная модель организации данных
- •Назовите стек 3 нижних уровней эталонной модели взаимодействия открытых систем (osi) в вычислительных сетях
- •На каком уровне (уровнях) эталонной модели взаимодействия открытых систем (osi) выполняется маршрутизация блоков данных в вычислительных сетях
- •Какие уровни эталонной модели взаимодействия открытых систем (osi) входят в верхний трехуровневый стек в вычислительных сетях
- •К каким уровням эталонной модели взаимодействия открытых систем (osi) принадлежат протоколы ip и tcp в вычислительных сетях
- •Какие параметры нейронной сети подвергаются изменению в процессе обучения
- •Какие существуют процедуры обучения искусственных нейронных сетей
- •1. Единичный скачок или жесткая пороговая функция
- •2. Линейный порог или гистерезис
- •3. Сигмоидальная функция или сигмоид
- •Что из себя представляет алгоритм обратного распространения ошибки в технологиях искусственных нейронных сетей
1. Единичный скачок или жесткая пороговая функция
Простая кусочно-линейная функция. Если входное значение меньше порогового, то значение функции активации равно минимальному допустимому, иначе – максимально допустимому.
2. Линейный порог или гистерезис
Несложная кусочно-линейная функция. Имеет два линейных участка, где функция активации тождественно равна минимально допустимому и максимально допустимому значению и есть участок, на котором функция строго монотонно возрастает.
3. Сигмоидальная функция или сигмоид
Монотонно возрастающая
всюду дифференцируемая
-образная
нелинейная функция с насыщением. Сигмоид
позволяет усиливать слабые сигналы и
не насыщаться от сильных сигналов.
Гроссберг (1973 год) обнаружил, что подобная
нелинейная функция активации решает
поставленную им дилемму шумового
насыщения.
Слабые сигналы нуждаются в большом сетевом усилении, чтобы дать пригодный к использованию выходной сигнал. Однако усилительные каскады с большими коэффициентами усиления могут привести к насыщению выхода шумами усилителей, которые присутствуют в любой физически реализованной сети. Сильные входные сигналы в свою очередь также будут приводить к насыщению усилительных каскадов, исключая возможность полезного использования выхода. Каким образом одна и та же сеть может обрабатывать как слабые, так и сильные сигналы?
Примером сигмоидальной функции активации может служить логистическая функция, задаваемая следующим выражением:
где
–
параметр наклона сигмоидальной функции
активации. Изменяя этот параметр, можно
построить функции с различной крутизной.
Еще одним примером сигмоидальной функции активации является гиперболический тангенс, задаваемая следующим выражением:
где – это также параметр, влияющий на наклон сигмоидальной функции.
В заключение отметим, что функции активации типа единичного скачка и линейного порога встречаются очень редко и, как правило, используются на учебных примерах. В практических задач почти всегда применяется сигмоидальная функция активации.
В искусственных нейронах могут быть различные функции активации, но и в используемых программах, и в известной литературе указаны только следующие виды функций: * Линейная: выходной сигнал нейрона равен его потенциалу, * Пороговая: нейрон выбирает решение из двух вариантов: активен / неактивен, * Многопороговая: выходной сигнал может принимать одно из q значений, определяемых (q-1) порогом внутри предельных значений. * Сигмоидная: рассматриваются два вида сигмоидных функций:
с выходными значениями в промежутке [0,1] и
с выходными значениями в промежутке [-1,1]. Коэффициент b определяет крутизну сигмоида. Поскольку сигмоидная функция является гладким отображением (-?,?) на (-1,1), то крутизну можно учесть через величины весов и порогов, и без ограничения общности можно полагать ее равной единице. Графические изображения простейшего нейрона и виды функций с их графиками приведены на рис. 2.
Что из себя представляет алгоритм обратного распространения ошибки в технологиях искусственных нейронных сетей
Вышеуказанный алгоритм обратной передачи ошибки обучения работает на однонаправленных нейронных сетях с аналоговым выходом. Обучение начинается с установки всех весов в сеть малых случайных чисел. Теперь, для каждого входного примера сеть дает выход, который начинается случайно. Мы измеряем квадрат разности между этими двумя выходами и желаемыми результатами для соответствующего класса или значения. Сумма всех этих чисел за все учебные примеры называется общей ошибкой сети. Если число равно нулю, то сеть является идеальной, следовательно, чем меньше погрешность, тем лучше сеть. При выборе весов, которые сведут суммарную погрешность к минимуму, мы получим нейронную сеть, решающую проблему лучшим способом. Это то же самое, что и линейная регрессия, где два параметра характеризуют выбранные линии так, чтобы сумма квадратов разностей между линией и информационными точками была минимальной. Такую задачу можно решить аналитически в линейной регрессии, но нет никакого решения в однонаправленных нейронных сетях со скрытыми элементами. В алгоритме обратной передачи ошибки, веса и пороги меняются каждый раз, когда предоставляется новый пример, таким образом, возможность ошибки постепенно становится меньше. Процесс повторяется сотни раз, пока ошибка не остается неизменной. Наглядное представление этого процесса можно найти на сайте Neural Java, который указан выше, перейдя по ссылке «Multi-layer Perceptron» (с выходом нейрона {0, 1}). В алгоритме обратной передачи ошибки, численный метод оптимизации называется алгоритмом градиентного спуска, который особенно упрощает математические вычисления. Название этот алгоритм получил из-за формы уравнений, которые он помогает решить. Есть несколько параметров обучения (так называемый коэффициент обучения и импульса), которые нуждаются в настройке при использовании обратной передачи ошибки. Также существуют и другие проблемы, которые стоит рассмотреть. Например, алгоритм градиентного спуска не гарантирует нахождение глобального минимума ошибки, поэтому результат обучения зависит от начальных значений весов. Тем не менее, одна проблема затмевает все остальные: проблема переобучения. Переобучение происходит, когда нейронная сеть имеет слишком много параметров, которые можно извлечь из числа имеющихся параметров, то есть, когда несколько пунктов соответствуют функции со слишком большим количеством свободных параметров (рис. 1d). Несмотря на то, что все эти методы подходят и для классификации, и для регрессии, нейронные сети обычно склонны к перепараметризации. Например, сеть с 10 скрытыми элементами для решения нашей проблемы будет иметь 221 параметр: 20 скрытых весов и пороговых величин, а также 10 весов и пороговых величин на выходе. Это слишком большое количество параметров, которые можно извлечь из 100 примеров. Сеть, которая слишком подходит для обучающих данных, вряд ли обобщит выходные данные, не являющиеся обучающими. Существует множество способов для ограничения переобучения сети (исключая создание маленькой сети), но наиболее распространенные включают усреднение по нескольким сетям, регуляризацию и использование метода Байесовской статистики. Для оценки производительности нейронных сетей, необходимо тестировать их на независимых данных, которые не использовались во время обучения сети. Обычно производится перекрестная проверка, где набор данных делится, например, на несколько комплектов одинакового размера. Тогда, сеть обучается по 9 комплектам и тестируется на десятом, и эта операция повторяется десять раз, так что все наборы используются для тестирования. Это дает оценку способности сети к обобщению, то есть, ее способности классифицировать входные данные, которым сеть не была обучена. Чтобы получить объективную оценку, что является очень важным, отдельные наборы не должны содержать похожие примеры..
Метод обратного распространения ошибки (англ. backpropagation)— метод обучения многослойного перцептрона. Впервые метод был описан в 1974 г. А.И. Галушкиным[1], а также независимо и одновременно Полом Дж. Вербосом[2]. Далее существенно развит в 1986 г. Дэвидом И. Румельхартом, Дж. Е. Хинтоном и Рональдом Дж. Вильямсом[3] и независимо и одновременно С.И. Барцевым и В.А. Охониным (Красноярская группа)[4].. Это итеративный градиентный алгоритм, который используется с целью минимизации ошибки работы многослойного перцептрона и получения желаемого выхода.
Основная идея этого метода состоит в распространении сигналов ошибки от выходов сети к её входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы. Барцев и Охонин предложили сразу общий метод («принцип двойственности»), приложимый к более широкому классу систем, включая системы с запаздыванием, распределённые системы, и т. п.[5]
Для возможности применения метода обратного распространения ошибки передаточная функция нейронов должна быть дифференцируема. Метод является модификацией классического метода градиентного спуска.