Скачиваний:
21
Добавлен:
08.04.2015
Размер:
523.26 Кб
Скачать

3.6. Нейросетевые нелинейные модели в эмпирической социологии

В разделе 3.1 нами были представлены модели дисперсионного анализа, отражающие влияние двух факторов – возраста и уровня дохода – на здоровье мужского и женского населения орловского региона. Их определенным недостатком является «жесткая» завязка на уровни данных факторов, рассматриваемых в дисперсионном анализе измеренными в номинальной шкале. В то же время, можно рассматривать эти факторы и как количественные, «приписав» уровням факторов центральные значения интервалов возраста и дохода. Тогда появляется реальная возможность построения моделей, связывающих результативную переменную – вероятность хорошего здоровья – уже не с уровнями факторов, а непосредственно со значениями отвечающих им предикторов. В частности, представляет интерес такой эффективный метод моделирования и прогнозирования, как нейронные сети.

Особенность нейросетевых технологий в том, что при достаточном объеме исходных данных (так называемых «примеров» с известными результатами) с помощью нейросетевых моделей могут быть описаны нелинейные зависимости практически любой сложности [100]. В настоящее время на рынке информационных технологий имеются различные нейросетевые программы, реализующие процедуры моделирования с помощью нейронных сетей. Из этого многообразия выгодно выделяется система Neural Connection [227, 228], отличающийся сочетанием прозрачности интерфейса с развитыми функциональными характеристиками.

Система Neural Connection v.2.1 позволяет применять в исследованиях четыре типа нейросети и три статистических метода, из которых для решения задач моделирования и прогнозирования чаще всего применяются две нейросети – многослойный персептрон (MLP от Multi-Layer Perceptron) и радиальная базисная функция (RBF от Radial Basis Function). Сеть первой структуры (MLP) может моделировать нелинейную функцию практически любой сложности, причем эта сложность определяется числом слоев и числом элементов в каждом слое. Сети RBF, в свою очередь, имеют ряд преимуществ перед сетями MLP, в частности, они гораздо быстрее обучаются, но их недостаток – чувствительность к «проклятию размерности», т.е. при большом числе факторов входа сети возникают определенные трудности в создании достаточно точной модели.

Независимо от структуры нейронной сети при построении модели программе нужно предъявить так называемые факты (обучающие примеры), которые представляют собой набор входных факторов и известного результата (выходной величины). Факты представляются в виде электронной таблицы, где столбцы – это наборы входных и выходных переменных, а строки – это примеры, т.е. в одном столбце содержится одна переменная, а в одной строке один обучающий пример. При формировании набора обучающих примеров необходимо соблюдать следующее правило: размер таблицы должен составлять не менее 10(m+n) строк, где m – число входных факторов, n – число выходных факторов. Результатом работы нейросети является не формула, а настроенная (обученная) нейронная сеть, которая является программой, где записана топология искусственных нейронов, а также веса связей.

В соответствии с обычно принятой при нейросетевом моделировании практикой, сети предоставляется для обучения 80% от всего множества фактов, 10% резервируется для проверки правильности настройки модели и 10% – для тестирования. В этом случае можно рассчитывать на достаточно высокие прогностические характеристики нейросетевой модели.

Особый интерес в системе Neural Connection представляют два выходных модуля, один из которых позволяет строить графики зависимости прогнозных значений выходной переменной от уровней входных факторов в виде так называемых «сеточных поверхностей», в которых каждому сочетанию уровней входных факторов сопоставлены соответствующие значения выходной переменной, а другой – строить «сечения» получаемых при этом трехмерных графиков с целью анализа изменения выходной переменной при изменении входных факторов. Для решения этой задачи служит специальный инструмент – модуль «What If…» – «Что если?». Наличие текстового вывода в этом инструменте позволяет также производить оценивать эластичность выходной переменной по любому входному фактору, что крайне важно в экономических исследованиях.

В данном разделе рассматриваются нейросетевые модели, отражающие связь вероятности хорошего здоровья мужского и женского населения со значениями статусных признаков – возраста и уровня доходов. В качестве эмпирической базы использовали приведенные в разделе 3.1 табл. 3.3 и 3.6, трансформированные с учетом сказанного выше. Например, средним значением возрастного интервала «31-40 лет» принимали 35 лет, а средним значением уровня доходов «2001-3000 руб. в месяц» принимали 2500 руб. В соответствии с принятым в статистической практике правилом, интервал «до 2000 руб. в месяц» был оцифрован как 1500 руб., а интервал «более 5000 руб. в месяц» – как 5500 руб. Аналогичным образом были оцифрованы и уровни фактора «возраст».

В итоге получены табл. 3.23 и 3.24, отдельно для мужского и женского населения орловского региона.

Таблица 3.23

Таблица частости категории «здоровье хорошее» для предикторов «Возраст» * «Уровень доходов» – мужское население орловского региона (проценты «по строкам»)

Средние значения дохода, руб. в месяц

Средние значения возраста, лет

25

35

45

55

65

1500

32,8

28,6

20,0

14,3

7,7

2500

42,7

37,5

37,5

26,7

27,3

3500

53,8

45,5

46,2

38,5

28,6

4500

70,0

75,0

55,0

44,4

40,0

5500

76,5

68,2

43,8

55,6

63,1

Таблица 3.24

Таблица частости категории «здоровье хорошее» для предикторов «Возраст» * «Уровень доходов» – женское население орловского региона (проценты «по строкам»)

Средние значения дохода, руб. в месяц

Средние значения возраста, лет

25

35

45

55

65

1500

61,1

27,3

11,5

20,0

9,1

2500

70,6

34,6

15,4

20,8

5,0

3500

61,9

52,6

31,6

37,5

7,7

4500

75,0

36,4

37,5

23,1

46,0

5500

80,0

43,5

42,4

25,0

42,4

В качестве программы, реализующей нейросетевые алгоритмы, использовали систему Neural Connection 2.1 – улучшенную версию системы Neural Connection 2.0 [227]. Исходными данными для моделирования зависимости вероятности хорошего здоровья мужского и женского населения от средних значений возраста и дохода служили «примеры», соответствующие табл. 3.23 и 3.24.

Прежде всего, необходимо ответить на вопрос: какую из возможных топологий нейросетей необходимо использовать для получения модели, адекватно отражающей нелинейную зависимость вероятности хорошего здоровья мужского и женского населения орловского региона от средних значений возраста и дохода. Как отмечалось выше, система Neural Connection v.2.1 позволяет применять в исследованиях четыре типа нейросети и три статистических метода. Из предоставляемых системой средств нами использовались две нейросети – многослойный персептрон (MLP от Multi-Layer Perceptron) и радиальная базисная функция (RBF от Radial Basis Function), которые обычно применяются для решения задач классификации и предсказания.

При числе «примеров» 25 и трех переменных (двух входных переменных и одной выходной переменной) имеющийся массив данных вполне достаточен для разделения исходной выборки на обучающую, тестовую и контрольную. В соответствии с обычно принятой при нейросетевом моделировании практикой, сети предоставлялось для обучения 80% от всего множества фактов, т.е. 20 фактов, 10% резервировалось для проверки правильности настройки модели и 10% для тестирования – суммарно пять фактов. Таким образом, в нашем случае можно рассчитывать на достаточно высокие прогностические характеристики нейросетевой модели.

Выполненные нами исследования показали, что лучшие результаты достигаются моделированием данных по выборке мужского населения орловского региона MLP-сетью (Multi-Layer Perceptron – многослойный персептрон) с автоматической настройкой параметров, а по выборке женского населения орловского региона – RBF-сетью (Radial Basis Function – радиальная базисная функция) с десятью центрами. Топология нейросетей в обоих случаях идентична, отличие лишь в центральном модуле (рис. 3.33).

На рис. 3.34 и 3.35 представлены диаграммы фактических и предсказанных нейросетевой моделью значений выходной переменной для данных настройки сетей и тестовых данных, на которых проверялась правильность настройки сетей. Из этих рисунков следует, что обе нейросети обеспечивают удовлетворительное совпадение эмпирических и предсказанных моделями значений вероятности хорошего здоровья мужского и женского населения орловского региона.

Рис. 3.33. Топология нейросетей для моделирования зависимости хорошего здоровья населения орловского региона от статусных факторов

Рис. 3.34. Фактические и предсказанные значения вероятности хорошего здоровья мужского населения орловского региона MLP-сетью

Рис. 3.35. Фактические и предсказанные значения вероятности хорошего здоровья женского населения орловского региона RBF-сетью

Нейросетевая модель – это программа, и модель не может быть представлена в аналитическом виде, однако имеется возможность графического представления результатов моделирования. В системе Neural Connection v.2.1 можно генерировать графики двух типов: 1) трехмерные графики и 2) сечения этих графиков.

На рис. 3.36 приведены примеры трехмерных графиков. Видно, что если предсказанная нейросетевой моделью зависимость вероятности хорошего здоровья мужского населения орловского региона от средних значений дохода и возраста достаточно «гладкая», то на трехмерном графике, представляющем зависимость вероятности хорошего здоровья женского населения от средних значений дохода и возраста, наблюдается локальный минимум, который проходится на возраст около 45 лет – факт, который не был выявлен моделями дисперсионного анализа.

а

б

Рис. 3.36. Предсказанная нейросетевыми моделями зависимость вероятности хорошего здоровья мужского и женского населения орловского региона от средних значений дохода (переменная var_0001) и возраста (переменная var_0002)

Задача построения «сечений» полученных трехмерных графиков с целью анализа изменения вероятности хорошего здоровья при изменении статусных факторов может быть решена с помощью специального инструмента пакета Neural Connection – модуля «What If…» – «Что если?».

Работу модуля «What If…» иллюстрирует рис. 3.37, на контурной диаграмме которого (левая часть) представлен пример моделирования вероятности хорошего здоровья мужского населения от возраста при среднем уровне доходов 4720 руб. в месяц.

Рис. 3.37. Прогнозирование зависимости вероятности хорошего здоровья мужского населения орловского региона от возраста при заданном уровне дохода

График в правой части рис. 3.37 показывает результаты предсказания: при увеличении возраста с 36 до 45 лет вероятность хорошего здоровья мужского населения орловского региона уменьшается на 11,7% (с 63,7% до 56,4%), что отражено в окне текстового вывода.

Аналогично, на контурной диаграмме рис. 3.38 (левая часть) представлен пример моделирования вероятности хорошего здоровья мужского населения от уровня доходов при возрасте 38,4 года. График в правой части рис. 3.38 показывает результаты предсказания: при снижении доходов на 16,3% (с 4180 до 3500 руб. в месяц) вероятность хорошего здоровья мужского населения уменьшается на 16,8% (с 64,4% до 53,5%), что отражено в окне текстового вывода.

Рис. 3.38. Прогнозирование зависимости вероятности хорошего здоровья мужского населения орловского региона от уровня доходов при заданном возрасте

Результаты, полученные по нейросетевой модели для женского населения орловского региона (рис. 3.39 и 3.40), позволяют выполнить аналогичный анализ.

Рис. 3.39. Прогнозирование зависимости вероятности хорошего здоровья женского населения от возраста при заданном уровне дохода

Рис. 3.40. Прогнозирование зависимости вероятности хорошего здоровья женского населения от уровня доходов при заданном возрасте

Как видно из графиков на рис. 3.39 и 3.40, модель здоровья женского населения существенно отличается от модели здоровья мужского населения: наблюдаются локальные экстремумы, природу которых следует выявить постановкой специального социологического исследования.

Полученные в данном разделе результаты положительно отвечают на вопрос о возможности применения нейросетевых моделей в исследованиях зависимости вероятности хорошего здоровья мужского и женского населения от статусных факторов по данным социологических опросов.

210

Соседние файлы в папке Добавление