- •1 Цель анализа
 - •2 Исходные данные
 - •3 Анализ методом главных компонент
 - •4 Кластерный анализ
 - •5 Кластерный анализ с применением карт Кохонена
 - •6 Построение деревьев решений
 - •7 Структурирование проблемной области
 - •Заключение
 - •Приложение а – исходная выборка
 - •Приложение б – Принадлежность наблюдений к классам
 

Интеллектуальный анализ бюджетных доходов и расходов субъектов РФ.
Курсовая работа 33 с.
Аннотация
В данной курсовой работе выполняется интеллектуальный анализ данных о бюджетных доходах и расходах субъектов РФ методами компонентного, кластерного анализа, построения деревьев решений, а также нейросетевыми методами на основе карт Кохонена.
Цель анализа – выявление закономерностей вида классификации, кластеризации и формирование правил для разработки системы поддержки принятия решений, основанной на знаниях.
Ил. 9, табл. 11, библ. наим. 6.
Содержание 2
Введение 3
1 Цель анализа 5
2 Исходные данные 5
3 Анализ методом главных компонент 7
4 Кластерный анализ 14
5 Кластерный анализ с применением карт Кохонена 19
6 Построение деревьев решений 25
7 Структурирование проблемной области
Заключение 29
Список литературы 34
Приложение А. Исходная выборка 35
Приложение Б. Принадлежность наблюдений к классам 38
Введение
Экспертные системы – это прикладные системы искусственного интеллекта, в которых база знаний представляет собой формализованные эмпирические знания высококвалифицированных специалистов (экспертов) в какой либо узкой предметной области. Экспертные системы предназначены для замены при решении задач экспертов в силу их недостаточного количества, недостаточной оперативности в решении задачи или в опасных (вредных) для них условиях.
Экспертные системы − это наиболее распространенный класс интеллектуальных систем, ориентированный на тиражирование опыта высококвалифицированных специалистов в областях, где качество принятия решений традиционно зависит от уровня экспертизы, например, медицина, юриспруденция, геология, экономика, военное дело и др. Экспертные системы эффективны лишь в специфических «экспертных» областях, где важен эмпирический опыт специалистов.
Основным назначением экспертных систем является разработка программных средств, которые при решении задач, трудных для человека, получают результаты, не уступающие по качеству и эффективности решения решениям, получаемым человеком-экспертом. Экспертные системы используются для решения так называемых неформализованных задач, общим для которых является то, что:
• задачи не могут быть заданы в числовой форме;
• цели нельзя выразить в терминах точно определенной целевой функции;
• не существует алгоритмического решения задачи;
• если алгоритмическое решение есть, но его нельзя использовать из-за ограниченности ресурсов (время, память).
Кроме того, неформализованные задачи обладают ошибочностью, неполнотой, неоднозначностью и противоречивостью как исходных данных, так и знаний о решаемой задаче
Экспертная система - это программное средство, использующее экспертные знания для обеспечения высокоэффективного решения неформализованных задач в узкой предметной области. Основу экспертной системы составляет база знаний о предметной области, которая накапливается в процессе построения и эксплуатации экспертно системы. Накопление и организация знаний − важнейшее свойство всех экспертных систем. Знания являются явными и доступными, что отличает экспертные системы от традиционных программ, и определяет их основные свойства, такие, как применение высококачественного опыта, наличие прогностических возможностей, институциональная память, возможность обучения и тренировки.
Применение для решения проблем высококачественного опыта, который представляет уровень мышления наиболее квалифицированных экспертов в данной области, ведёт к решениям творческим, точным и эффективным.
Наличие прогностических возможностей, при которых экспертная система выдает ответы не только для конкретной ситуации, но и показывает, как изменяются эти ответы в новых ситуациях – это возможность подробного объяснения каким образом новая ситуация привела к изменениям.
Экспертная система обладает таким качеством, как институциональная память, за счет входящей в состав экспертной системы базы знаний, которая разработана в ходе взаимодействий со специалистами организации, и представляет собой текущую политику этой группы людей. Этот набор знаний становится выводом квалифицированных мнении и постоянно обновляемым справочником наилучших стратегий и методов, используемых персоналом.
Возможности использования экспертной системы для обучения и тренировки руководящих работников обеспечивают новых служащих обширным багажом опыта и стратегий, по которым можно изучать рекомендуемую политику и методы.
1 Цель анализа
Цель анализа состоит в выявлении закономерностей вида классификации, кластеризации и формировании правил для разработки системы поддержки принятия решений, основанной на знаниях.
Необходимо выявить различия между субъектами РФ по уровню расхода и дохода бюджетных средств, характеризующегося доходами: налоговыми, неналоговыми, и безвозмездными перечислениями, расходами: на ЖКХ, социальную политику, образование, сельское хозяйство, дорожное хозяйство, здравоохранение, промышленность и транспорт.
2 Исходные данные
В качестве объектовв данной работе выступают субъекты РФ:Белгородская, Брянская, Владимирская, Воронежская, Ивановская, Калужская Костромская, Курская, Липецкая, Московская, Орловская, Рязанская, Смоленская, Тамбовская, Тверская, Тульская, Ярославcкая, г. Москва, Республика Карелия, Республика Коми, Архангельская, Вологодская, Калининградская, Ленинская, Мурманская, Новгородская, Псковская, Республика Адыгея, г.Санкт-Петербург, Республика Дагестан, Республика Ингушетия, Кабардино-Балкарская, Калмыкия, Карачаево-Черкесская, Республика Северная Осетия, Чеченская, Краснодарский край, Ставропольский край, Астраханская, Волгоградская, Ростовская, Республика Башкортостан, Республика Марий Эл, Республика Мордовия, Республика Татарстан, Удмуртская область, Чувашская, Кировская, Нижегородская, Оренбургская.
В качестве признаковвыбраны следующие данные, характеризующие доходы бюджета:налоговые, неналоговые, безвозмездные перечисления, промышленность, сельское хозяйство, транспорт, ЖКХ, образование, здравоохранение, социальная политика, дорожное хозяйство.
3 Анализ методом главных компонент
Метод главных компонент (ГК) осуществляет переход к новой системе координат в исходном пространстве признаков, являющейся системой ортонормированных линейных комбинаций. Метод ГК заключается в нахождении набора из pортогональных векторов вn-мерном исходном пространстве данных; поскольку при этомp<<n, то это дает возможность перейти к сокращенному признаковому пространству. Эффективность метода состоит в минимальном искажении геометрической структуры точек (объектов) при их проектировании в пространство меньшей размерности.
Первый ГК соответствует наибольшему собственному числу и рассчитывается как линейная комбинация исходных признаков, обладающая наибольшей дисперсией. Таким образом, первый ГК берется вдоль направления с максимальной дисперсией. Второй ГК лежит в подпространстве, перпендикулярном тому, где находится первый ГК. В пределах этого подпространства второй ГК берется вдоль направления с максимальной дисперсией. Затем третий ГК находится в направлении наибольшей дисперсии в подпространстве, перпендикулярном первым двум и т.д.
Введем исходные данные в электронную таблицу STATGRAPHICS(50х11). Исходная сводка анализа метода ГК представлена в таблице 3.1.
Таблица 3.1
Исходная сводка метода ГК
| 
				 Component Number  | 
				 Eigenvalue  | 
				 Percent of Variance  | 
				 Cumulative Percentage  | 
| 
				 1  | 
				 5,32796  | 
				 48,436  | 
				 48,436  | 
| 
				 2  | 
				 1,65124  | 
				 15,011  | 
				 63,447  | 
| 
				 3  | 
				 1,52706  | 
				 13,882  | 
				 77,33  | 
| 
				 4  | 
				 0,90983  | 
				 8,271  | 
				 85,601  | 
| 
				 5  | 
				 0,671956  | 
				 6,109  | 
				 91,71  | 
| 
				 6  | 
				 0,345837  | 
				 3,144  | 
				 94,854  | 
| 
				 7  | 
				 0,191054  | 
				 1,737  | 
				 96,59  | 
| 
				 8  | 
				 0,168196  | 
				 1,529  | 
				 98,119  | 
| 
				 9  | 
				 0,109291  | 
				 0,994  | 
				 99,113  | 
| 
				 10  | 
				 0,0613569  | 
				 0,558  | 
				 99,671  | 
| 
				 11  | 
				 0,0362112  | 
				 0,329  | 
				 100  | 
| 
				 Number of complete cases:50  | |||
Анализу подвергаются следующие переменные: доходы: налоговые, неналоговые, безвоздмездные перечисления; расходы: дорожное хозяйство, ЖКХ, здравоохранение, образование, промышленность, сельское хозяйство, социальная политика, транспорт. Количество объектов 50.
В таблице представлена информация о результатах построения главных компонент: собственные значения главных компонент, упорядоченные по величине (Eigenvalue); процент дисперсии, приходящийся на каждую выделенную главную компоненту (PercentofVariance); суммарный процент дисперсии (CumulativePrecentage).
Приведенные цифры говорят о том, что уже первые две главные компоненты описывают 63,5% дисперсии исходных данных. Третья главная компонента добавляет еще 13,8% дисперсии, так что в сумме получается 77,330% дисперсии, что достаточно для анализа пространственного распределения объектов.
В следующей таблице представлены веса признаков в главных компонентах (табл. 3.2).
Таблица 3.2
Веса признаков в главных компонентах
| 
			 Доходы/ Расходы  | 
			 Component1  | 
			 Component2  | 
			 Component3  | 
| 
			 Налоговые доходы  | 
			 0,372133  | 
			 -0,113501  | 
			 0,153412  | 
| 
			 Неналоговые доходы  | 
			 0,369142  | 
			 -0,17244  | 
			 -0,0341084  | 
| 
			 Безвозмездные перечисления  | 
			 0,0877118  | 
			 0,473386  | 
			 -0,622216  | 
| 
			 Расходы на дорожное хозяйство  | 
			 0,115288  | 
			 0,361796  | 
			 0,711223  | 
| 
			 Расходы на ЖКХ  | 
			 0,374535  | 
			 -0,167428  | 
			 -0,046722  | 
| 
			 Расходы на здравоохранение  | 
			 0,364422  | 
			 0,0387097  | 
			 -0,0490826  | 
| 
			 Расходы на образование  | 
			 0,286038  | 
			 -0,295668  | 
			 -0,0350764  | 
| 
			 Расходы на промышленность  | 
			 0,309883  | 
			 0,360406  | 
			 0,0147228  | 
| 
			 Расходы на сельское хозяйство  | 
			 0,199504  | 
			 0,57611  | 
			 0,0207075  | 
| 
			 Расходы на социальную политику  | 
			 0,300532  | 
			 -0,109858  | 
			 -0,25057  | 
| 
			 Расходы на транспорт  | 
			 0,311027  | 
			 -0,107602  | 
			 0,114267  | 
Как следует из таблицы, первая главная компонента в наибольшей степени зависит от признаков: расходы: дорожное хозяйство, ЖКХ, промышленность, налоговые и неналоговые доходы. Вторая главная компонента в наибольшей степени зависит от признака: неналоговые доходы. Третья главная компонента - от признака: промышленность.
Диаграмма рассеивания всего множества объектов на плоскости выделенных двух главных компонент представлена на рисунке 3.1.

Рисунок 3.1 – Проекция исследуемых объектов на пространство двух ГК
На представленном рисунке хорошо видно, что все множество объектов разделилось на 3 достаточно четких класса. Проекция множества объектов на пространство трех ГК представлена на рисунке 3.2.

Рисунок 3.2 – Проекция множества объектов на пространство трех ГК
Выбор значащих компонент и определение названия для них представлены ниже.
1) Выберем p=3 главных компонент.
2) Определим названия для них по формуле:
,
где [wkj] – подмножество участвующих в названии весовых коэффициентовj-й компоненты;
[wj] – все весовые коэффициентыj-й компоненты.
| 
			 wij =  | 
			 0,372133  | 
			 -0,113501  | 
			 0,153412  | 
| 
			 0,369142  | 
			 -0,17244  | 
			 -0,0341084  | |
| 
			 0,0877118  | 
			 0,473386  | 
			 -0,622216  | |
| 
			 0,115288  | 
			 0,361796  | 
			 0,711223  | |
| 
			 0,374535  | 
			 -0,167428  | 
			 -0,046722  | |
| 
			 0,364422  | 
			 0,0387097  | 
			 -0,0490826  | |
| 
			 0,286038  | 
			 -0,295668  | 
			 -0,0350764  | |
| 
			 0,309883  | 
			 0,360406  | 
			 0,0147228  | |
| 
			 0,199504  | 
			 0,57611  | 
			 0,0207075  | |
| 
			 0,300532  | 
			 -0,109858  | 
			 -0,25057  | |
| 
			 0,311027  | 
			 -0,107602  | 
			 0,114267  | 
Для
первой ГК коэффициент информативности
рассчитывается следующим образом: 


k1= 0,760740089
Коэффициент информативности КИ1принадлежит интервалу [0,75; 1] - это означает, что первая ГК определяется влиянием признаков: налоговые, неналоговые, ЖКХ, промышленность, здравоохранение, транспорт. Для второй ГК коэффициент информативности рассчитывается следующим образом:
k1=0,816785042
Коэффициент информативности КИ2принадлежит интервалу [0,75; 1] - это означает, что вторая ГК определяется влиянием признаков: безвозмездные перечисления, дорожное хозяйство, промышленность, сельское хозяйство.
Для
третьей ГК коэффициент информативности
рассчитывается следующим образом: {
k1=0,892991116
Коэффициент информативности КИ3принадлежит интервалу [0,75; 1] - это означает, что третья ГК определяется влиянием признаков: безвозмездные перечисления и дорожное хозяйство.
На основании рисунка 3.2 можно заключить, что первый класс характеризуется низким значением 1-й компоненты; средним значением 2-й компоненты, средним значением 3-й компоненты.
Второй класс характеризуется средним значением 1-й компоненты; высоким значением 2-й компоненты, средним значением 3-й компоненты.
Третий класс характеризуется высоким значением 1-й компоненты; низким значением 2-й компоненты, средним значением 3-й компоненты.
Характеристика классов относительно компонент представлена в таблице 3.3.
Таблица 3.3
Характеристика классов относительно компонент
| 
			 Класс  | 
			 Значение компоненты  | ||
| 
			 Компонента 1  | 
			 Компонента 2  | 
			 Компонента 3  | |
| 
			 1  | 
			 Низкое  | 
			 Среднее  | 
			 Среднее  | 
| 
			 2  | 
			 Высокое  | 
			 Низкое  | 
			 Среднее  | 
| 
			 3  | 
			 Среднее  | 
			 Высокое  | 
			 Среднее  | 
Перечислим состав объектов в выделенных классах.
В первый класс входят номера объектов: 1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,28,29,30,31,32,33,34,36,37,38,39,41,42,44,45,46,47,48
Во второй класс входят номера объектов: 10,28
В третий класс входят номера объектов: 36,41,44
Характеристика классов относительно признаков представлена в таблице 3.4.
Таблица 3.4
Характеристика классов относительно признаков
| 
			 Значение признаков  | 
			 Класс  | ||
| 
			 1  | 
			 2  | 
			 3  | |
| 
			 Налоговые доходы  | 
			 Высокое  | 
			 Среднее  | 
			 Низкое  | 
| 
			 неналоговые  | 
			 Высокое  | 
			 Среднее  | 
			 Низкое  | 
| 
			 ЖКХ  | 
			 Высокое  | 
			 Среднее  | 
			 Низкое  | 
| 
			 Промышленность  | 
			 Высокое  | 
			 Среднее  | 
			 Низкое  | 
| 
			 Здравоохранение  | 
			 Высокое  | 
			 Среднее  | 
			 Низкое  | 
| 
			 транспорт  | 
			 Высокое  | 
			 Среднее  | 
			 Низкое  | 
Правило 1 для 1 компоненты:
1)Если налоговые доходы = высокие И неналоговые = высокие И расходы на ЖКХ = высокие И расходы на здравоохранение = высокие И транспорт = высокие И расходы промышленность = высокие, ТО класс = Первый;
Правило 2 для 2 компоненты:
2) Если налоговые доходы = средние И неналоговые = средние И расходы на ЖКХ = средние И расходы на здравоохранение = средние И транспорт = средние И расходы промышленность = средние, ТО класс = Второй;
Правило 3 для 3 компоненты:
3) Если налоговые доходы = низкие И неналоговые = низкие И расходы на ЖКХ = низкие И расходы на здравоохранение = низкие И транспорт = низкие И расходы промышленность = низкие, ТО класс = Третий;
