Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3865

.pdf
Скачиваний:
1
Добавлен:
15.11.2022
Размер:
44.99 Mб
Скачать

Вкладка «Обучение» реализует структурную настройку ИНС (рис. 3.24).

Рис. 3.24. Экранная форма ПК НПВР с открытой вкладкой «Обучение»

Она позволяет задать параметры обучения, в том числе: размер обучающей выборки, уровень погрешности, параметр сигмоиды, скорость обучения. В левой верхней части данной экранной формы расположена панель«Параметры сети», внутри которой можно задавать необходимую конфигурацию ИНС. Панель «Параметры графика», которая размещена в нижней правой части экранной фомы, предоставляет возможность просмотра графика обучающей выборки и распределения ошибки после обучения. Кнопка «Обучить» запускает модуль «Алгоритм обратного распространения ошибок» внутри которого инициируется введённая конфигурация сети и параметры обучения. После этого происходит обучение сети. Результаты обучения ИНС(количество итераций и достигнутая погрешность) отображаются в окне информации - «Information» (рис. 3.25).

Рис. 3.25. Внешний вид окна «Information»

Чтобы сохранить обученную сеть необходимо нажать кнопку«Сохранить». При этом появится типизированное окно сохранения файла Windows, где следует указать место сохранения файла и нажать кнопку«Сохранить». Нейронная сеть будет сохранена в текстовый файл с расширением .txt.

141

Для дальнейшей работы с ПК НПРВ– прогнозирования, наобходимо перейти на вкладку «Прогнозирование» (см. рис. 3.26).

Рис. 3.26. Экранная форма ПК НПВР с открытой вкладкой «Прогнозирование»

На панели «Параметры прогнозирования» данной вкладки необходимо выбрать вид прогноза. Одношаговый прогноз является результатом единичного прогнозирования. При многошаговом прогнозе многократно реализуется -по следовательное применение прогноза и обучения. После этого задаётся количество предсказаний и нажимается кнопка «Прогноз». Пример экранной формы с результатами прогноза приведен на рис. 3.27.

Рис. 3.27. Экранная форма ПК НПВР с результатами прогноза

142

Нажатие кнопки «Сохранить» позволяет записать полученные результаты прогноза в текстовый файл. Нажатие кнопки «Загрузить сеть» позволяет загрузить ранее обученную ИНС из файла и использовать ее для прогнозирования.

Для апробации работоспособности ПК НПВР была проведена серия экспериментов по прогнозированию курса акций Сбербанка РФ.

Обучение сети проводилось на10 – минутном, часовом и суточном интервале представления данных. Для каждого из вариантов формировалась выборка изменения курса акций за один и тот же период– с 15.04.14 по 01.05.14.

Каждый эксперимент разбивался на этапы.

Первым этапом было формирование обучающей выборки. На данном этапе определялся вид представления исторических и прогнозируемых данных и формировался набор входных и выходных сигналов. На втором этапе выбиралась архитектура сети и проводилась настройка параметров обучения. Третьим этапом являлось обучение нейронной сети на основе сформированной на первом этапе обучающей выборки. Обучение останавливалось в случае если ошибка обучения не превышала значения0,01. На завершающем этапе осуществлялось тестирование ИНС и определялось качество прогноза котировок и других экономических показателей, позволяющих судить о состоятельности и применимости нейронной сети в данной конфигурации.

Всего было проведено23 эксперимента. Рассматривались 10 -минутный, часовой и суточный графики котировок. В результате выяснилось, что качество прогноза зависит от протяженности интервала представления входных данных. Чем больше интервал, тем выше качество прогноза. Это объясняется тем, что на большем интервале меньше так называемого «шума», т.е. случайных колебаний, мешающих качественному обучению сети.

В 11 из проведенных экспериментов получен положительный результат прогнозирования. Первые 12 экспериментов показали результат со значительными погрешностями. Начиная с 13 эксперимента, ошибка сети уменьшилась до приемлемых значений(в среднем до 1,8%). Это было достигнуто за счет оптимизации структуры нейросети.

На рисунках 3.28 - 3.30 представлены результаты прогнозов трех показательных экспериментов.

Рис. 3.28. Экранная форма с результатами прогноза для эксперимента №1

143

Рис. 3.29. Экранная форма с результатами прогноза для эксперимента №2

Рис. 3.30. Экранная форма с результатами прогноза для эксперимента №3

Параметры экспериментов приведены в таблице 3.5.

Таблица 3.5

Параметры экспериментов исследования ИНС

№ экспери-

Временной

Число слоев

Число нейронов в слоях

мента

интервал

ИНС

1

2

3

4

1

10 минут

4

4

5

7

1

2

1 час

4

6

7

10

1

3

Сутки

3

5

10

1

-

144

Во всех экспериментах, в качестве критерия отбора входных данных используется поле «Объем» и линейная нормализация.

Визуальный анализ полученных результатов показывает, что точность прогнозных значений котировок зависит от структуры сети, в частности от числа используемых скрытых нейронных слоев. Наибольшая ошибка прогноза наблюдается в эксперименте №3, где используется один скрытый нейронный слой. Большей точностью обладает ИНС с двумя скрытыми нейронными слоями и увеличенным числом нейронов в них в эксперименте №2.

145

РАЗДЕЛ 4 ИНФОРМАЦИОННАЯ ПОДСИСТЕМА ТЕРМИНОЛОГИЧЕСКОГО ПОИСКА

4.1. Формализации текстовой информации

Реализация терминологического поиска в СППИР предполагает формализацию текстов. Формализация обеспечивает представление текстовой информации в виде формальной системы[25, 66], базирующейся на определённых взаимосвязанных абстракциях – элементах (понятиях, аксиомах, теоремах, свойствах и др.), идеализации и искусственных символических языках(предикатах, моноидах и др.). Иерархическая схема уровней формализации текстовых данных представлена рис. 4.1 [37].

 

 

Уровни

Страты

Дискурс

 

 

 

1

 

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Предложение

 

 

2

 

 

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Словосочетание

 

 

3

 

 

6

 

 

 

 

 

 

 

 

 

 

Слово

 

 

 

4

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Морфема

 

 

 

5

 

 

4

 

 

 

 

 

 

 

 

 

 

Слог

 

 

 

6

 

 

3

 

 

 

 

 

 

 

 

 

 

Фонема

 

 

 

 

7

 

 

2

 

 

 

 

 

 

 

 

 

 

Дифференциальный

 

 

 

 

 

 

 

 

 

 

 

 

 

8

 

 

1

признак

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 4.1. Иерархическая схема представления текстовых данных

Формализация позволяет систематизировать, уточнить и методологически прояснить содержание представления текстов, выяснить характер взаимосвязи между собой различных положений их обработки, выявить и сформулировать ещё не решённые проблемы[45]. Важное значение для формализации текста имеет модель, лежащая в ее основе [159]. В различные исторические периоды разрабатывались разнообразные модели формализации текстовой - ин формации. Результаты сравнительного анализа основных моделей формализации текстовой информации представлены в таблице 4.1 [79].

146

147

Таблица 4.1 Результаты сравнительного анализа основных моделей формализации текстовой информации

Название

Краткое содержание

 

 

Достоинства

 

 

Недостатки

 

 

Модель И. Ньютона

Общность языков обусловлена их предназначени-

1.

Впервые пред-

1.

Малое

число

глу-

 

[170]

ем для обозначения субстанций(духов или тел),

ложена

 

оценоч-

бинных падежей

и их

 

 

которые у всех народов одинаковы. Носитель слов

ная

шкала

-

испримеров.

 

 

 

 

 

– предикат, обозначающий

отношения. Корень

пользования

 

2.

Временная

шкала

 

 

универсального языка относится к какой-то одной

грамматических

не походит в качестве

 

 

субстанции (например, необходима

специальная

префиксов

и

аф-

формальной

 

модели

 

 

буква для обозначения видов людей, ангелов, до-

фиксов

(плохой-

времени в силу значи-

 

 

мов и т.д.). Предпринята попытка первичной лек-

хороший,

боль-

тельной идеализации.

 

 

сической категоризации.

 

 

шой-маленький и

 

 

 

 

 

 

 

 

 

 

др.).

 

 

 

 

 

 

 

 

 

 

 

 

 

2.

Проработаны

 

 

 

 

 

 

 

 

 

 

глубинные

паде-

 

 

 

 

 

 

 

 

 

 

жи.

 

 

 

 

 

 

 

 

 

 

 

 

 

3.

Разработана

 

 

 

 

 

 

 

 

 

 

шкала времени.

 

 

 

 

 

 

 

Модель Г.Лейбница

Все имена собственные произошли от нарица- 1.

Категоризация

Недостаточная

 

кате-

 

[214]

тельных (общих). Суть механизма

метонимиче-

лексики.

 

 

горизация

и

 

прими-

 

 

ского переноса локативных предлогов заключает-

2.

Введение пер-

тивный

 

семантиче-

 

 

ся в их переходе от"чувствительного" простран-

вого шага

семан-

ский анализ.

 

 

 

 

ственного значения к "нечувственному" менталь-

тического

анали-

 

 

 

 

 

 

 

ному осмыслению. Реальное

определение – это

за на основе но-

 

 

 

 

 

 

 

определение, которое задает объект, существова-

минальных

и

ре-

 

 

 

 

 

 

 

ние которого подтверждено нашим опытом илиальных

 

опреде-

 

 

 

 

 

 

 

конструктивным доказательством.

 

лений.

 

 

 

 

 

 

 

 

 

147

148

Продолжение таблицы 4.1

Название

Краткое содержание

 

 

Достоинства

 

 

Недостатки

 

 

Лямбда-исчисление

Разработка формальной семантики на основе -

исПрименение

l-

1.

Сложность

полу-

 

 

пользования l-оператора и двух (a и b) операций

 

исчисления

для

чаемых формул.

 

 

 

конверсии. l-оператор является синтаксическим

 

представления

 

2.

Низкая

эффектив-

 

 

аналогом кванторов всеобщности и существова-

 

смысла

высказы-

ность при работе с на-

 

 

ния. Он ставится перед переменной, после чего

 

ваний и

построе-

сыщенными

фрагмен-

 

 

эта переменная a считается связанной и ждет за-

 

ния

теоретико-

тами языка.

 

 

 

 

полнения формулой. Операция b-конверсия реа-

 

множественных

 

 

 

 

 

 

лизует подобные заполнения.

 

интерпретаций.

 

 

 

 

 

Семантическая сеть

Представляет собой множество взаимосвязанных

 

1.

Приемлемая

1.Высокие требования

 

 

элементов - слов и словосочетаний. Они несут ос-

 

точность

темати-

к вычислительным ре-

 

 

новную смысловую нагрузку и наиболее часточеского

поиска,

сурсам.

 

 

 

 

встречаются в тексте. Статистическая обработка

реферирования

и

2.

Низкое быстродей-

 

 

элементов (оценка частоты встречаемости) позво-

др.

 

 

ствие.

 

 

 

 

ляет выявить их вклад в общее содержание доку-

2. Простота и на-

3.Необходимость

при-

 

 

мента, а последующая весовая обработка позволя-

глядность.

 

влечения

экспертов

 

 

ет определить плотность их распределения в до-

 

 

 

 

для настройки сети.

 

 

кументе.

 

 

 

 

 

 

 

 

 

Искусственная

Для смысловой обработки текста используется1.

Высокая опе-

1. Сложность.

 

 

нейронная сеть

нейронная функциональная алгебра. Нейроны вы-

ративность.

 

2.

Проблемы

обуче-

 

 

полняют операции дизъюнкции, конъюнкции и

2.

Приемлемое

ния.

 

 

 

 

отрицания. Структура ИНС определяет порядок качество

 

обра-

 

 

 

 

 

применения базовых операций к тексту Отдельботки тектов.

 

 

 

 

 

 

 

ный нейрон из состава сети, извлекающей смысл

 

 

 

 

 

 

 

 

 

 

из текста на естественном языке, соответствует

 

 

 

 

 

 

 

 

 

 

элементарному понятию (слово, термин, абзац и

 

 

 

 

 

 

 

 

 

 

др.) анализируемого языка.

 

 

 

 

 

 

 

 

 

 

148

 

 

 

 

 

 

 

 

 

 

Проведенный анализ моделей формализации текстовой информации показывает, что в интересах реализации терминологического поиска необходимо использовать категоризацию лексики, обеспечивающую построение более простых и адекватных моделей представления текстовой информации. Она впервые возникла в моделях Ньютона и Лейбница, а дальнейшее развитие получила в лямбда-исчислении и семантической сети. В ее состав могут быть включены такие важные для терминологического поиска категории, как тезаурус и терминологический портрет. Это позволяет дополнить иерархическую схему представления текстовых данных (см. рис. 4.1) данными категориями и, на начальном этапе, сформировать математическую модель весовой распределенной информационной системы на терминологическом портрете.

4.2. Весовая распределенная информационная система на терминологическом портрете

Терминологический портрет отличается от тезауруса, весовой взаимоувязкой терминов в нем и более высоким уровнем детализации рассматриваемой предметной области. Рассмотрим основные определения [112].

Определение 1. Терминологическим портретом будем называть конечное непустое множество {Z} терминов z, отвечающих следующим условиям:

1) имеется непустое подмножество {Z0 }Ì {Z} - множество терминов;

2) имеется

симметричное, транзитивное

рефлексивное

отношение

R Ì Z ´Z , такое, что:

 

 

 

а) z1 ¹ z2 Ù z1 Rz2 Þ (z1 Î Z \ Z0 ) Ú (z2 Î Z \ Z0 ) ;

(4.1)

 

б) z1 Î Z \ Z0 Þ ($z Î Z0 )(zRz1 ) ;

 

(4.2)

при этом отношение R называется синонимическим отношением, а термины z1 и z2 , отвечающие этому отношению, называются синонимическими терминами;

3) имеется транзитивное и несимметричное отношение K Ì Z0 ´ Z0 , называемое обобщающим отношением;

4) термины в терминологическом портрете имеют веса в зависимости от их

степени значимости. Вес gi определяет степень значимости термина zi

, т. е:

Z ( p) = { z1 , g1 , z2 , g2 ,K, zk , gk } .

(4.3)

При этом сумма всех весов(i: 1,…,N) терминологического портрета равна

1, т.е:

 

N

 

å gi =1.

(4.4)

i=1

На рис. 4.2 приведен пример графической интерпретации фрагмента терминологического портрета «Экономический кризис».

Данный пример показывает, что в рамках рассматриваемого терминологического портрета, термины «Финансовый кризис», «Производственный кризис» и «Внешний долг» по степени значимости – равнозначны и имеют веса равные

149

 

Экономический кризис (0,1)

 

 

 

 

 

 

 

Финансовый

 

Производственный

Внешний

кризис (0,3)

 

 

кризис (0,3)

 

долг (0,3)

Рис. 4.2. Фрагмент терминологического портрета «Экономический кризис»

0,3. Однако, каждый из них, по степени значимости, выше обобщающего термина «Экономический кризис», который имеет вес равный 0,1. Формальная запись данного терминологического портрета представляется следующим образом: Экономический кризис (0.1): финансовый кризис (0.3) Ù производственный кризис (0.3) Ù внешний долг (0.3).

Определение 2. Подсистемой весовой обработки информации на заданном

терминологическом портрете будем называть четверку:

 

(Z, D, M, d ),

(4.5)

где Z – терминологический портрет Z0

Ì T ; D – коллекция документов; М

множество запросов; d - отображение,

d :M ´[0, 1] ® 2D´[0,1] сопоставляет

каж-

дой паре (запрос, точность подобия) множество пар (документ, мера корреляции).

Остальные определения 3-6 и рассуждения, приведенные в [33] приемлемы для данного случая. Отличие заключается в механизме распределения запросов по подсистемам поиска. Применительно к тезаурусу [33], нагрузка на информационные подсистемы поиска равномерная. Применительно к терминологическому портрету, нагрузка на информационные подсистемы поиска избирательная, зависящая от весов терминов. В данном случае, ответ подсистемы обработ-

ки информацииQ на запрос m = zi × gi с точностью r = c, будет определяться в

соответствии с выражением (4.6):

 

 

 

 

n

 

 

 

Q = å di (zi × gi , c) =

 

 

 

 

i=1

 

 

 

ån

({(d ,a) : d Î D Ù zi × gi Ñc t(d) Ùa = m( zi × gi , t(d))}) Í D ´[0, 1] , (4.6)

i=1

 

 

 

 

где Ñc - отношение правдоподобия. При определении

ответа N = d (

 

, c) , от-

m

ношение подобия Ñc осуществляет выбор документов,

точность подобия кото-

рых не менее с. Мера корреляции m(m,t(d )) показывает, какая часть информации в документе соответствует ответу на вопрос. Если документ d ÎD с мерой корреляции a включен в ответ, т.е. (d ,a ) Îd (m, c) , то верно неравенство a ³ c.

Один из возможных алгоритмов реализации механизма обработки терминологического портрета заключается в следующем. На начальном этапе информационные подсистемы отыскивают и обобщают информацию до определенного порогового значения a ³ c, для термина с максимальным весом. Затем для более меньшего веса, и т. д, вплоть до термина с наименьшим весом.

Разработанная математическая модель подсистемы весовой обработки

150

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]