Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовой проект - Интеллектуальный анализ расходов и доходов субъектов РФ.doc
Скачиваний:
31
Добавлен:
02.05.2014
Размер:
910.85 Кб
Скачать

Интеллектуальный анализ бюджетных доходов и расходов субъектов РФ.

Курсовая работа 33 с.

Аннотация

В данной курсовой работе выполняется интеллектуальный анализ данных о бюджетных доходах и расходах субъектов РФ методами компонентного, кластерного анализа, построения деревьев решений, а также нейросетевыми методами на основе карт Кохонена.

Цель анализа – выявление закономерностей вида классификации, кластеризации и формирование правил для разработки системы поддержки принятия решений, основанной на знаниях.

Ил. 9, табл. 11, библ. наим. 6.

Содержание 2

Введение 3

1 Цель анализа 5

2 Исходные данные 5

3 Анализ методом главных компонент 7

4 Кластерный анализ 14

5 Кластерный анализ с применением карт Кохонена 19

6 Построение деревьев решений 25

7 Структурирование проблемной области

Заключение 29

Список литературы 34

Приложение А. Исходная выборка 35

Приложение Б. Принадлежность наблюдений к классам 38

Введение

Экспертные системы – это прикладные системы искусственного интеллекта, в которых база знаний представляет собой формализованные эмпирические знания высококвалифицированных специалистов (экспертов) в какой либо узкой предметной области. Экспертные системы предназначены для замены при решении задач экспертов в силу их недостаточного количества, недостаточной оперативности в решении задачи или в опасных (вредных) для них условиях.

Экспертные системы − это наиболее распространенный класс интеллектуальных систем, ориентированный на тиражирование опыта высококвалифицированных специалистов в областях, где качество принятия решений традиционно зависит от уровня экспертизы, например, медицина, юриспруденция, геология, экономика, военное дело и др. Экспертные системы эффективны лишь в специфических «экс­пертных» областях, где важен эмпирический опыт специалистов.

Основным назначением экспертных систем является разработка программных средств, которые при решении задач, трудных для человека, получают результаты, не уступающие по качеству и эффективности решения решениям, получаемым человеком-экспертом. Экспертные системы используются для решения так называемых не­формализованных задач, общим для которых является то, что:

• задачи не могут быть заданы в числовой форме;

• цели нельзя выразить в терминах точно определенной целевой функции;

• не существует алгоритмического решения задачи;

• если алгоритмическое решение есть, но его нельзя использовать из-за ограниченности ресурсов (время, память).

Кроме того, неформализованные задачи обладают ошибочностью, неполнотой, неоднозначностью и противоречивостью как исходных данных, так и знаний о решаемой задаче

Экспертная система - это программное средство, использующее экспертные знания для обеспечения высокоэффективного решения неформализованных задач в узкой предметной области. Основу экспертной системы составляет база зна­ний о предметной области, которая накапливается в процессе построения и эксплуатации экспертно системы. Накопление и организация знаний − важнейшее свойство всех экспертных систем. Знания являются явными и доступными, что отличает экспертные системы от традиционных программ, и определяет их основные свойства, такие, как применение высококачественного опыта, наличие прогностических возмож­ностей, институциональная память, возможность обучения и тренировки.

Применение для решения проблем высококачественного опыта, который представляет уровень мышления наиболее квалифицированных экспер­тов в данной области, ведёт к решениям творческим, точным и эффек­тивным.

Наличие прогностических возможностей, при которых экспертная система выдает ответы не только для конкретной ситуации, но и показывает, как изменяются эти ответы в новых ситуациях – это возможность подробного объяснения каким образом новая ситуация привела к изменениям.

Экспертная система обладает таким качеством, как институциональная память, за счет входящей в состав экспертной системы базы знаний, которая разработана в ходе взаимодействий со специалистами организации, и представляет собой текущую по­литику этой группы людей. Этот набор знаний становится выводом квалифицированных мнении и постоянно обновляемым справочником наилучших стратегий и методов, используемых персоналом.

Возможности использования экспертной системы для обучения и тренировки руководящих работников обеспечивают новых служащих обширным багажом опыта и страте­гий, по которым можно изучать рекомендуемую политику и методы.

1 Цель анализа

Цель анализа состоит в выявлении закономерностей вида классификации, кластеризации и формировании правил для разработки системы поддержки принятия решений, основанной на знаниях.

Необходимо выявить различия между субъектами РФ по уровню расхода и дохода бюджетных средств, характеризующегося доходами: налоговыми, неналоговыми, и безвозмездными перечислениями, расходами: на ЖКХ, социальную политику, образование, сельское хозяйство, дорожное хозяйство, здравоохранение, промышленность и транспорт.

2 Исходные данные

В качестве объектовв данной работе выступают субъекты РФ:Белгородская, Брянская, Владимирская, Воронежская, Ивановская, Калужская Костромская, Курская, Липецкая, Московская, Орловская, Рязанская, Смоленская, Тамбовская, Тверская, Тульская, Ярославcкая, г. Москва, Республика Карелия, Республика Коми, Архангельская, Вологодская, Калининградская, Ленинская, Мурманская, Новгородская, Псковская, Республика Адыгея, г.Санкт-Петербург, Республика Дагестан, Республика Ингушетия, Кабардино-Балкарская, Калмыкия, Карачаево-Черкесская, Республика Северная Осетия, Чеченская, Краснодарский край, Ставропольский край, Астраханская, Волгоградская, Ростовская, Республика Башкортостан, Республика Марий Эл, Республика Мордовия, Республика Татарстан, Удмуртская область, Чувашская, Кировская, Нижегородская, Оренбургская.

В качестве признаковвыбраны следующие данные, характеризующие доходы бюджета:налоговые, неналоговые, безвозмездные перечисления, промышленность, сельское хозяйство, транспорт, ЖКХ, образование, здравоохранение, социальная политика, дорожное хозяйство.

3 Анализ методом главных компонент

Метод главных компонент (ГК) осуществляет переход к новой системе координат в исходном пространстве признаков, являющейся системой ортонормированных линейных комбинаций. Метод ГК заключается в нахождении набора из pортогональных векторов вn-мерном исходном пространстве данных; поскольку при этомp<<n, то это дает возможность перейти к сокращенному признаковому пространству. Эффективность метода состоит в минимальном искажении геометрической структуры точек (объектов) при их проектировании в пространство меньшей размерности.

Первый ГК соответствует наибольшему собственному числу и рассчитывается как линейная комбинация исходных признаков, обладающая наибольшей дисперсией. Таким образом, первый ГК берется вдоль направления с максимальной дисперсией. Второй ГК лежит в подпространстве, перпендикулярном тому, где находится первый ГК. В пределах этого подпространства второй ГК берется вдоль направления с максимальной дисперсией. Затем третий ГК находится в направлении наибольшей дисперсии в подпространстве, перпендикулярном первым двум и т.д.

Введем исходные данные в электронную таблицу STATGRAPHICS(50х11). Исходная сводка анализа метода ГК представлена в таблице 3.1.

Таблица 3.1

Исходная сводка метода ГК

Component Number

Eigenvalue

Percent of Variance

Cumulative Percentage

1

5,32796

48,436

48,436

2

1,65124

15,011

63,447

3

1,52706

13,882

77,33

4

0,90983

8,271

85,601

5

0,671956

6,109

91,71

6

0,345837

3,144

94,854

7

0,191054

1,737

96,59

8

0,168196

1,529

98,119

9

0,109291

0,994

99,113

10

0,0613569

0,558

99,671

11

0,0362112

0,329

100

Number of complete cases:50

Анализу подвергаются следующие переменные: доходы: налоговые, неналоговые, безвоздмездные перечисления; расходы: дорожное хозяйство, ЖКХ, здравоохранение, образование, промышленность, сельское хозяйство, социальная политика, транспорт. Количество объектов 50.

В таблице представлена информация о результатах построения главных компонент: собственные значения главных компонент, упорядоченные по величине (Eigenvalue); процент дисперсии, приходящийся на каждую выделенную главную компоненту (PercentofVariance); суммарный процент дисперсии (CumulativePrecentage).

Приведенные цифры говорят о том, что уже первые две главные компоненты описывают 63,5% дисперсии исходных данных. Третья главная компонента добавляет еще 13,8% дисперсии, так что в сумме получается 77,330% дисперсии, что достаточно для анализа пространственного распределения объектов.

В следующей таблице представлены веса признаков в главных компонентах (табл. 3.2).

Таблица 3.2

Веса признаков в главных компонентах

Доходы/ Расходы

Component1

Component2

Component3

Налоговые доходы

0,372133

-0,113501

0,153412

Неналоговые доходы

0,369142

-0,17244

-0,0341084

Безвозмездные перечисления

0,0877118

0,473386

-0,622216

Расходы на дорожное хозяйство

0,115288

0,361796

0,711223

Расходы на ЖКХ

0,374535

-0,167428

-0,046722

Расходы на здравоохранение

0,364422

0,0387097

-0,0490826

Расходы на образование

0,286038

-0,295668

-0,0350764

Расходы на промышленность

0,309883

0,360406

0,0147228

Расходы на сельское хозяйство

0,199504

0,57611

0,0207075

Расходы на социальную политику

0,300532

-0,109858

-0,25057

Расходы на транспорт

0,311027

-0,107602

0,114267

Как следует из таблицы, первая главная компонента в наибольшей степени зависит от признаков: расходы: дорожное хозяйство, ЖКХ, промышленность, налоговые и неналоговые доходы. Вторая главная компонента в наибольшей степени зависит от признака: неналоговые доходы. Третья главная компонента - от признака: промышленность.

Диаграмма рассеивания всего множества объектов на плоскости выделенных двух главных компонент представлена на рисунке 3.1.

Рисунок 3.1 – Проекция исследуемых объектов на пространство двух ГК

На представленном рисунке хорошо видно, что все множество объектов разделилось на 3 достаточно четких класса. Проекция множества объектов на пространство трех ГК представлена на рисунке 3.2.

Рисунок 3.2 – Проекция множества объектов на пространство трех ГК

Выбор значащих компонент и определение названия для них представлены ниже.

1) Выберем p=3 главных компонент.

2) Определим названия для них по формуле:

,

где [wkj] – подмножество участвующих в названии весовых коэффициентовj-й компоненты;

[wj] – все весовые коэффициентыj-й компоненты.

wij =

0,372133

-0,113501

0,153412

0,369142

-0,17244

-0,0341084

0,0877118

0,473386

-0,622216

0,115288

0,361796

0,711223

0,374535

-0,167428

-0,046722

0,364422

0,0387097

-0,0490826

0,286038

-0,295668

-0,0350764

0,309883

0,360406

0,0147228

0,199504

0,57611

0,0207075

0,300532

-0,109858

-0,25057

0,311027

-0,107602

0,114267

Для первой ГК коэффициент информативности рассчитывается следующим образом:

k1= 0,760740089

Коэффициент информативности КИ1принадлежит интервалу [0,75; 1] - это означает, что первая ГК определяется влиянием признаков: налоговые, неналоговые, ЖКХ, промышленность, здравоохранение, транспорт. Для второй ГК коэффициент информативности рассчитывается следующим образом:

k1=0,816785042

Коэффициент информативности КИ2принадлежит интервалу [0,75; 1] - это означает, что вторая ГК определяется влиянием признаков: безвозмездные перечисления, дорожное хозяйство, промышленность, сельское хозяйство.

Для третьей ГК коэффициент информативности рассчитывается следующим образом: {k1=0,892991116

Коэффициент информативности КИ3принадлежит интервалу [0,75; 1] - это означает, что третья ГК определяется влиянием признаков: безвозмездные перечисления и дорожное хозяйство.

На основании рисунка 3.2 можно заключить, что первый класс характеризуется низким значением 1-й компоненты; средним значением 2-й компоненты, средним значением 3-й компоненты.

Второй класс характеризуется средним значением 1-й компоненты; высоким значением 2-й компоненты, средним значением 3-й компоненты.

Третий класс характеризуется высоким значением 1-й компоненты; низким значением 2-й компоненты, средним значением 3-й компоненты.

Характеристика классов относительно компонент представлена в таблице 3.3.

Таблица 3.3

Характеристика классов относительно компонент

Класс

Значение компоненты

Компонента 1

Компонента 2

Компонента 3

1

Низкое

Среднее

Среднее

2

Высокое

Низкое

Среднее

3

Среднее

Высокое

Среднее

Перечислим состав объектов в выделенных классах.

В первый класс входят номера объектов: 1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,28,29,30,31,32,33,34,36,37,38,39,41,42,44,45,46,47,48

Во второй класс входят номера объектов: 10,28

В третий класс входят номера объектов: 36,41,44

Характеристика классов относительно признаков представлена в таблице 3.4.

Таблица 3.4

Характеристика классов относительно признаков

Значение признаков

Класс

1

2

3

Налоговые доходы

Высокое

Среднее

Низкое

неналоговые

Высокое

Среднее

Низкое

ЖКХ

Высокое

Среднее

Низкое

Промышленность

Высокое

Среднее

Низкое

Здравоохранение

Высокое

Среднее

Низкое

транспорт

Высокое

Среднее

Низкое

Правило 1 для 1 компоненты:

1)Если налоговые доходы = высокие И неналоговые = высокие И расходы на ЖКХ = высокие И расходы на здравоохранение = высокие И транспорт = высокие И расходы промышленность = высокие, ТО класс = Первый;

Правило 2 для 2 компоненты:

2) Если налоговые доходы = средние И неналоговые = средние И расходы на ЖКХ = средние И расходы на здравоохранение = средние И транспорт = средние И расходы промышленность = средние, ТО класс = Второй;

Правило 3 для 3 компоненты:

3) Если налоговые доходы = низкие И неналоговые = низкие И расходы на ЖКХ = низкие И расходы на здравоохранение = низкие И транспорт = низкие И расходы промышленность = низкие, ТО класс = Третий;