Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
УЗР чебник Варламов.doc
Скачиваний:
884
Добавлен:
30.05.2015
Размер:
6.07 Mб
Скачать

14.2. Применение нейросетевого и статистического анализа для моделирования системы управления

Одним из методов определения путей повышения эффективности управления земельными ресурсами является создание математической модели на основе социально-экономических факторов, влияющих на конечный результат повышения эффективности управления - снижение финансовых затрат на процесс управления и самое важное, повышение собираемости земельных платежей.

Для группы методов, общей целью которых является выявление сложных зависимостей, обработка больших массивов информации с целью нахождения новых, скрытых ранее закономерностей, сложился термин Data Mining (добыча данных), который определяется как процесс аналитического исследования больших массивов информации (обычно экономического характера) с целью выявления определенных закономерностей и систематических взаимосвязей между переменными в условиях неопределенности.

Этот процесс включает в себя три основных этапа:

  1. исследование;

  2. построение модели или структуры;

  3. проверку модели.

Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса (например, деревья классификации), в целом системы добычи данных по-прежнему основываются на классических принципах разведывательного анализа данных (РАД) и построения моделей, используя аналогичные подходы и методы.

Имеется важное отличие процедуры добычи данных от классического разведывательного анализа данных (РАД), так как системы добычи данных в большей степени ориентированы на практическое приложение полученных результатов, чем на выяснение природы явления. Выяснение природы участвующих функций или конкретной формы интерактивных многомерных зависимостей между переменными не является главной целью этой процедуры, а основное внимание уделяется поиску решений, на основе которых можно было бы строить достоверные прогнозы.

Таким образом, при методе добычи данных используется подход к анализу данных и извлечению знаний, который иногда называется “черный ящик”. При этом используются не только классические приемы разведочного анализа данных, но и такие методы, как нейронные сети, которые позволяют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой прогноз основан.

Разведывательный анализ данных (РАД) применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведывательном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы.

Вычислительные методы разведывательного анализа данных включают основные статистические методы, а также более сложные, специально разработанные методы, многомерного анализа, предназначенные для отыскания закономерностей в многомерных данных.

К основным методам разведывательного статистического анализа относятся:

  • процедура анализа распределений переменных (например, чтобы выявить переменные с несимметричным или негауссовым распределением, в том числе и бимодальные);

  • просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения;

  • анализ многовходовых таблиц частот (например, "послойный" последовательный просмотр комбинаций уровней управляющих переменных).

Методы многомерного разведочного анализа специально разработаны для поиска закономерностей в многомерных данных (или последовательностях одномерных данных).

К ним относятся:

  • кластерный анализ;

  • факторный анализ;

  • анализ дискриминантных функций;

  • многомерное шкалирование;

  • логлинейный анализ;

  • канонические корреляции;

  • пошаговая линейная и нелинейная регрессия;

  • анализ соответствий;

  • анализ временных рядов.

Нейронные сети - это класс аналитических методов, построенных на (гипотетических) принципах обучения мыслящих существ и функционирования мозга и позволяющих прогнозировать значения некоторых переменных в новых наблюдениях по данным других наблюдений (для этих же или других переменных) после прохождения этапа так называемого обучения на имеющихся данных. Нейронные сети являются одним из методов добычи данных.

При применении этих методов, прежде всего, встает вопрос выбора конкретной архитектуры сети (числа “слоев” и количества “нейронов” в каждом из них). Размер и структура сети должны соответствовать (например, в смысле формальной вычислительной сложности) существу исследуемого явления. Поскольку на начальном этапе анализа природа явления обычно не бывает хорошо известна, выбор архитектуры является непростой задачей и часто связан с длительным процессом “проб и ошибок” (однако, в последнее время стали появляться нейронно-сетевые программы, в которых для решения этой трудоемкой задачи поиска “наилучшей” архитектуры сети применяются методы искусственного интеллекта).

Затем построенная сеть подвергается процессу так называемого “обучения”. На этом этапе нейроны сети итеративно обрабатывают входные данных и корректируют свои веса таким образом, чтобы сеть наилучшим образом прогнозировала (в традиционных терминах следовало бы сказать “осуществляла подгонку”) данные, на которых выполняется “обучение”. После обучения на имеющихся данных сеть готова к работе и может использоваться для построения прогнозов.

“Сеть”, полученная в результате “обучения”, выражает закономерности, присутствующие в данных. При таком подходе она оказывается функциональным эквивалентом некоторой модели зависимостей между переменными, подобной тем, которые строятся в традиционном моделировании. Однако, в отличие от традиционных моделей, в случае “сетей” эти зависимости не могут быть записаны в явном виде, подобно тому, как это делается в статистике (например, “A положительно коррелировано с B для наблюдений, у которых величина C мала, а D – велика”).

Методы нейронных сетей могут применяться и в таких исследованиях, где целью является построение объясняющей модели явления, поскольку с помощью нейронных сетей определяются значимые переменные или группы таких переменных, и полученные результаты могут облегчить процесс последующего построения модели.

В настоящее время имеются нейросетевые программы, которые с помощью сложных алгоритмов могут находить наиболее важные входные переменные, что уже непосредственно помогает строить модель.

Одно из главных преимуществ нейронных сетей состоит в том, что они теоретически могут аппроксимировать любую непрерывную функцию, и поэтому исследователю нет необходимости заранее принимать какие-либо гипотезы относительно модели, и даже - в ряде случаев - о том, какие переменные действительно важны.

Однако существенным недостатком нейронных сетей является то обстоятельство, что окончательное решение зависит от начальных установок сети и, как уже говорилось выше, его практически невозможно “интерпретировать” в традиционных аналитических терминах, которые обычно применяются при построении теории явления.

Для демонстрации возможности использования нейросети при моделировании была создана небольшая нейросеть из 16 нейронов в одном скрытом слое, в качестве примеров для обучения была взят фрагмент цифровой модели рельефа (ЦМР) из 130 нерегулярно расположенных точек с координатами XYZ (14.2).

После обучения (10000 эпох) была достигнута приемлемая погрешность, что наглядно видно из рисунка 14.3.

Рис. 14.2. Фрагмент цифровой модели рельефа

Как видно на рисунке 14.3., нейросеть не смогла повторить все особенности реального рельефа, но выявила основные тенденции формирования рельефа.

Рисунок 14.3. Фрагмент цифровой модели рельефа по результатам обучения нейросети

В решении задач моделирования системы управления земельными ресурсами следует использовать несколько методов разведовательного анализа данных для того исключения возможных ошибок.

При анализе данных для управления земельными ресурсами может использоваться программный пакет для нейросетевого анализа NeuroPro. Данный программный продукт представляет собой менеджер обучаемых искусственных нейронных сетей, работающий в среде MS Windows 95 или MS Windows NT 4.0 и позволяющий производить следующие базовые операции:

  • создание нейропроекта;

  • подключение к нейропроекту файла (базы) данных в формате dfb (dBase, FoxBase, FoxPro, Clipper) или db (Paradox);

  • редактирование файла данных – изменение существующих значений и добавление новых записей в базу данных; сохранение файла данных в другом формате;

  • добавление в проект нейронной сети слоистой архитектуры с числом слоев нейронов от 1 до 10, числом нейронов в слое – до 100;

  • обучение нейронной сети решению задачи прогнозирования или классификации. Нейронная сеть может одновременно решать как несколько задач прогнозирования (прогнозирование нескольких чисел), так и несколько задач классификации, а также одновременно задач и прогнозирования, и классификации;

  • тестирование нейронной сети на файле данных, получение статистической информации о точности решения задачи;

  • вычисление показателей значимости входных сигналов сети, сохранение значений показателей значимости в текстовом файле на диске;

  • упрощение нейронной сети;

  • генерация и визуализация вербального описания нейронной сети, сохранение вербального описания в текстовом файле на диске;

  • выбор алгоритма обучения, назначение требуемой точности прогноза, настройка нейронной сети.

От имеющихся в настоящее время нейросетевых программных продуктов данный продукт отличает наличие:

  • возможностей целенаправленного упрощения нейронной сети для последующей генерации вербального описания;

  • выявления наиболее значимых для моделирования входных параметров.

При упрощении нейронной сети возможно выполнение следующих операций:

1.Сокращение числа входных сигналов нейронной сети путем удаления входных сигналов, наименее значимых для принятия сетью решения.

2.Сокращение числа нейронов сети путем удаления нейронов, наименее значимых для принятия сетью решения.

3.Комплексное равномерное упрощение нейронной сети. Для каждого нейрона сети выполняется сокращение числа приходящих на него сигналов до максимально возможного числа, задаваемого пользователем.

4.Сокращение числа связей в нейронной сети путем удаления связей, наименее значимых для принятия сетью решения.

5.Бинаризация связей в нейронной сети – приведение весов синапсов к значениям -1 и 1 или значениям из более широкого набора выделенных значений.

Для определения зависимостей факторных показателей системы управления земельными ресурсами с результативными показателями (поступление земельных платежей, валовой региональный продукт и др.) рекомендуется использовать пакет статистического анализа Statistica, версия 5.5. А. Данный программный продукт представляет собой современный пакет статистического анализа, в котором реализованы все новейшие компьютерные и математические методы анализа данных, работающий в среде MS Windows 95.

Пакет позволяет производить следующие статистические расчеты: описательные статистики, анализ многомерных таблиц, подгонка распределений, многомерная регрессия, нелинейная регрессия, логит и пробит регрессия, дискриминантный анализ, анализ соответствий, кластерный анализ, факторный анализ, многомерное шкалирование, прогнозирование временных рядов и др.; строить различные графики: матричные, диаграммы рассеяния, пиктограммы, гистограммы, карты линий уровня и др.

При работе пакета используется стандартный интерфейс электронных таблиц. Возможно обрабатывать большие массивы данных: максимальный размер файла при работе с основными статистиками – до 32000 переменных, при анализе – до 4096 переменных, неограниченное число наблюдений. Пакет отличает высокая скорость обработки данных. Существует возможность обмена данных со всеми популярными СУБД (в том числе MS Exel, MS Access).

Statistica представляет собой интегрированную систему статистического анализа и обработки данных. Она состоит из следующих основных компонент, объединенных в рамках одной системы:

  • электронных таблиц для ввода и задания исходных данных, а также специальных таблиц для вывода численных результатов анализа;

  • графической системы для визуализации данных и результатов статистического анализа;

  • набора специализированных статистических модулей, в которых собраны группы логически связанных между собой статистических процедур;

  • специального инструментария для подготовки отчета;

  • встроенных языков программирования (SCL, Statistica Command Language, Statistica BASIC), которые позволяют пользователю расширить стандартные возможности системы.