- •1 Цель анализа
- •2 Исходные данные
- •3 Анализ методом главных компонент
- •4 Кластерный анализ
- •5 Кластерный анализ с применением карт Кохонена
- •6 Построение деревьев решений
- •7 Структурирование проблемной области
- •Заключение
- •Приложение а – исходная выборка
- •Приложение б – Принадлежность наблюдений к классам
Интеллектуальный анализ бюджетных доходов и расходов субъектов РФ.
Курсовая работа 33 с.
Аннотация
В данной курсовой работе выполняется интеллектуальный анализ данных о бюджетных доходах и расходах субъектов РФ методами компонентного, кластерного анализа, построения деревьев решений, а также нейросетевыми методами на основе карт Кохонена.
Цель анализа – выявление закономерностей вида классификации, кластеризации и формирование правил для разработки системы поддержки принятия решений, основанной на знаниях.
Ил. 9, табл. 11, библ. наим. 6.
Содержание 2
Введение 3
1 Цель анализа 5
2 Исходные данные 5
3 Анализ методом главных компонент 7
4 Кластерный анализ 14
5 Кластерный анализ с применением карт Кохонена 19
6 Построение деревьев решений 25
7 Структурирование проблемной области
Заключение 29
Список литературы 34
Приложение А. Исходная выборка 35
Приложение Б. Принадлежность наблюдений к классам 38
Введение
Экспертные системы – это прикладные системы искусственного интеллекта, в которых база знаний представляет собой формализованные эмпирические знания высококвалифицированных специалистов (экспертов) в какой либо узкой предметной области. Экспертные системы предназначены для замены при решении задач экспертов в силу их недостаточного количества, недостаточной оперативности в решении задачи или в опасных (вредных) для них условиях.
Экспертные системы − это наиболее распространенный класс интеллектуальных систем, ориентированный на тиражирование опыта высококвалифицированных специалистов в областях, где качество принятия решений традиционно зависит от уровня экспертизы, например, медицина, юриспруденция, геология, экономика, военное дело и др. Экспертные системы эффективны лишь в специфических «экспертных» областях, где важен эмпирический опыт специалистов.
Основным назначением экспертных систем является разработка программных средств, которые при решении задач, трудных для человека, получают результаты, не уступающие по качеству и эффективности решения решениям, получаемым человеком-экспертом. Экспертные системы используются для решения так называемых неформализованных задач, общим для которых является то, что:
• задачи не могут быть заданы в числовой форме;
• цели нельзя выразить в терминах точно определенной целевой функции;
• не существует алгоритмического решения задачи;
• если алгоритмическое решение есть, но его нельзя использовать из-за ограниченности ресурсов (время, память).
Кроме того, неформализованные задачи обладают ошибочностью, неполнотой, неоднозначностью и противоречивостью как исходных данных, так и знаний о решаемой задаче
Экспертная система - это программное средство, использующее экспертные знания для обеспечения высокоэффективного решения неформализованных задач в узкой предметной области. Основу экспертной системы составляет база знаний о предметной области, которая накапливается в процессе построения и эксплуатации экспертно системы. Накопление и организация знаний − важнейшее свойство всех экспертных систем. Знания являются явными и доступными, что отличает экспертные системы от традиционных программ, и определяет их основные свойства, такие, как применение высококачественного опыта, наличие прогностических возможностей, институциональная память, возможность обучения и тренировки.
Применение для решения проблем высококачественного опыта, который представляет уровень мышления наиболее квалифицированных экспертов в данной области, ведёт к решениям творческим, точным и эффективным.
Наличие прогностических возможностей, при которых экспертная система выдает ответы не только для конкретной ситуации, но и показывает, как изменяются эти ответы в новых ситуациях – это возможность подробного объяснения каким образом новая ситуация привела к изменениям.
Экспертная система обладает таким качеством, как институциональная память, за счет входящей в состав экспертной системы базы знаний, которая разработана в ходе взаимодействий со специалистами организации, и представляет собой текущую политику этой группы людей. Этот набор знаний становится выводом квалифицированных мнении и постоянно обновляемым справочником наилучших стратегий и методов, используемых персоналом.
Возможности использования экспертной системы для обучения и тренировки руководящих работников обеспечивают новых служащих обширным багажом опыта и стратегий, по которым можно изучать рекомендуемую политику и методы.
1 Цель анализа
Цель анализа состоит в выявлении закономерностей вида классификации, кластеризации и формировании правил для разработки системы поддержки принятия решений, основанной на знаниях.
Необходимо выявить различия между субъектами РФ по уровню расхода и дохода бюджетных средств, характеризующегося доходами: налоговыми, неналоговыми, и безвозмездными перечислениями, расходами: на ЖКХ, социальную политику, образование, сельское хозяйство, дорожное хозяйство, здравоохранение, промышленность и транспорт.
2 Исходные данные
В качестве объектовв данной работе выступают субъекты РФ:Белгородская, Брянская, Владимирская, Воронежская, Ивановская, Калужская Костромская, Курская, Липецкая, Московская, Орловская, Рязанская, Смоленская, Тамбовская, Тверская, Тульская, Ярославcкая, г. Москва, Республика Карелия, Республика Коми, Архангельская, Вологодская, Калининградская, Ленинская, Мурманская, Новгородская, Псковская, Республика Адыгея, г.Санкт-Петербург, Республика Дагестан, Республика Ингушетия, Кабардино-Балкарская, Калмыкия, Карачаево-Черкесская, Республика Северная Осетия, Чеченская, Краснодарский край, Ставропольский край, Астраханская, Волгоградская, Ростовская, Республика Башкортостан, Республика Марий Эл, Республика Мордовия, Республика Татарстан, Удмуртская область, Чувашская, Кировская, Нижегородская, Оренбургская.
В качестве признаковвыбраны следующие данные, характеризующие доходы бюджета:налоговые, неналоговые, безвозмездные перечисления, промышленность, сельское хозяйство, транспорт, ЖКХ, образование, здравоохранение, социальная политика, дорожное хозяйство.
3 Анализ методом главных компонент
Метод главных компонент (ГК) осуществляет переход к новой системе координат в исходном пространстве признаков, являющейся системой ортонормированных линейных комбинаций. Метод ГК заключается в нахождении набора из pортогональных векторов вn-мерном исходном пространстве данных; поскольку при этомp<<n, то это дает возможность перейти к сокращенному признаковому пространству. Эффективность метода состоит в минимальном искажении геометрической структуры точек (объектов) при их проектировании в пространство меньшей размерности.
Первый ГК соответствует наибольшему собственному числу и рассчитывается как линейная комбинация исходных признаков, обладающая наибольшей дисперсией. Таким образом, первый ГК берется вдоль направления с максимальной дисперсией. Второй ГК лежит в подпространстве, перпендикулярном тому, где находится первый ГК. В пределах этого подпространства второй ГК берется вдоль направления с максимальной дисперсией. Затем третий ГК находится в направлении наибольшей дисперсии в подпространстве, перпендикулярном первым двум и т.д.
Введем исходные данные в электронную таблицу STATGRAPHICS(50х11). Исходная сводка анализа метода ГК представлена в таблице 3.1.
Таблица 3.1
Исходная сводка метода ГК
Component Number |
Eigenvalue |
Percent of Variance |
Cumulative Percentage |
1 |
5,32796 |
48,436 |
48,436 |
2 |
1,65124 |
15,011 |
63,447 |
3 |
1,52706 |
13,882 |
77,33 |
4 |
0,90983 |
8,271 |
85,601 |
5 |
0,671956 |
6,109 |
91,71 |
6 |
0,345837 |
3,144 |
94,854 |
7 |
0,191054 |
1,737 |
96,59 |
8 |
0,168196 |
1,529 |
98,119 |
9 |
0,109291 |
0,994 |
99,113 |
10 |
0,0613569 |
0,558 |
99,671 |
11 |
0,0362112 |
0,329 |
100 |
Number of complete cases:50 |
Анализу подвергаются следующие переменные: доходы: налоговые, неналоговые, безвоздмездные перечисления; расходы: дорожное хозяйство, ЖКХ, здравоохранение, образование, промышленность, сельское хозяйство, социальная политика, транспорт. Количество объектов 50.
В таблице представлена информация о результатах построения главных компонент: собственные значения главных компонент, упорядоченные по величине (Eigenvalue); процент дисперсии, приходящийся на каждую выделенную главную компоненту (PercentofVariance); суммарный процент дисперсии (CumulativePrecentage).
Приведенные цифры говорят о том, что уже первые две главные компоненты описывают 63,5% дисперсии исходных данных. Третья главная компонента добавляет еще 13,8% дисперсии, так что в сумме получается 77,330% дисперсии, что достаточно для анализа пространственного распределения объектов.
В следующей таблице представлены веса признаков в главных компонентах (табл. 3.2).
Таблица 3.2
Веса признаков в главных компонентах
Доходы/ Расходы |
Component1 |
Component2 |
Component3 |
Налоговые доходы |
0,372133 |
-0,113501 |
0,153412 |
Неналоговые доходы |
0,369142 |
-0,17244 |
-0,0341084 |
Безвозмездные перечисления |
0,0877118 |
0,473386 |
-0,622216 |
Расходы на дорожное хозяйство |
0,115288 |
0,361796 |
0,711223 |
Расходы на ЖКХ |
0,374535 |
-0,167428 |
-0,046722 |
Расходы на здравоохранение |
0,364422 |
0,0387097 |
-0,0490826 |
Расходы на образование |
0,286038 |
-0,295668 |
-0,0350764 |
Расходы на промышленность |
0,309883 |
0,360406 |
0,0147228 |
Расходы на сельское хозяйство |
0,199504 |
0,57611 |
0,0207075 |
Расходы на социальную политику |
0,300532 |
-0,109858 |
-0,25057 |
Расходы на транспорт |
0,311027 |
-0,107602 |
0,114267 |
Как следует из таблицы, первая главная компонента в наибольшей степени зависит от признаков: расходы: дорожное хозяйство, ЖКХ, промышленность, налоговые и неналоговые доходы. Вторая главная компонента в наибольшей степени зависит от признака: неналоговые доходы. Третья главная компонента - от признака: промышленность.
Диаграмма рассеивания всего множества объектов на плоскости выделенных двух главных компонент представлена на рисунке 3.1.
Рисунок 3.1 – Проекция исследуемых объектов на пространство двух ГК
На представленном рисунке хорошо видно, что все множество объектов разделилось на 3 достаточно четких класса. Проекция множества объектов на пространство трех ГК представлена на рисунке 3.2.
Рисунок 3.2 – Проекция множества объектов на пространство трех ГК
Выбор значащих компонент и определение названия для них представлены ниже.
1) Выберем p=3 главных компонент.
2) Определим названия для них по формуле:
,
где [wkj] – подмножество участвующих в названии весовых коэффициентовj-й компоненты;
[wj] – все весовые коэффициентыj-й компоненты.
wij = |
0,372133 |
-0,113501 |
0,153412 |
0,369142 |
-0,17244 |
-0,0341084 | |
0,0877118 |
0,473386 |
-0,622216 | |
0,115288 |
0,361796 |
0,711223 | |
0,374535 |
-0,167428 |
-0,046722 | |
0,364422 |
0,0387097 |
-0,0490826 | |
0,286038 |
-0,295668 |
-0,0350764 | |
0,309883 |
0,360406 |
0,0147228 | |
0,199504 |
0,57611 |
0,0207075 | |
0,300532 |
-0,109858 |
-0,25057 | |
0,311027 |
-0,107602 |
0,114267 |
Для первой ГК коэффициент информативности рассчитывается следующим образом:
k1= 0,760740089
Коэффициент информативности КИ1принадлежит интервалу [0,75; 1] - это означает, что первая ГК определяется влиянием признаков: налоговые, неналоговые, ЖКХ, промышленность, здравоохранение, транспорт. Для второй ГК коэффициент информативности рассчитывается следующим образом:
k1=0,816785042
Коэффициент информативности КИ2принадлежит интервалу [0,75; 1] - это означает, что вторая ГК определяется влиянием признаков: безвозмездные перечисления, дорожное хозяйство, промышленность, сельское хозяйство.
Для третьей ГК коэффициент информативности рассчитывается следующим образом: {k1=0,892991116
Коэффициент информативности КИ3принадлежит интервалу [0,75; 1] - это означает, что третья ГК определяется влиянием признаков: безвозмездные перечисления и дорожное хозяйство.
На основании рисунка 3.2 можно заключить, что первый класс характеризуется низким значением 1-й компоненты; средним значением 2-й компоненты, средним значением 3-й компоненты.
Второй класс характеризуется средним значением 1-й компоненты; высоким значением 2-й компоненты, средним значением 3-й компоненты.
Третий класс характеризуется высоким значением 1-й компоненты; низким значением 2-й компоненты, средним значением 3-й компоненты.
Характеристика классов относительно компонент представлена в таблице 3.3.
Таблица 3.3
Характеристика классов относительно компонент
Класс |
Значение компоненты | ||
Компонента 1 |
Компонента 2 |
Компонента 3 | |
1 |
Низкое |
Среднее |
Среднее |
2 |
Высокое |
Низкое |
Среднее |
3 |
Среднее |
Высокое |
Среднее |
Перечислим состав объектов в выделенных классах.
В первый класс входят номера объектов: 1,2,3,4,5,6,7,8,9,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,28,29,30,31,32,33,34,36,37,38,39,41,42,44,45,46,47,48
Во второй класс входят номера объектов: 10,28
В третий класс входят номера объектов: 36,41,44
Характеристика классов относительно признаков представлена в таблице 3.4.
Таблица 3.4
Характеристика классов относительно признаков
Значение признаков |
Класс | ||
1 |
2 |
3 | |
Налоговые доходы |
Высокое |
Среднее |
Низкое |
неналоговые |
Высокое |
Среднее |
Низкое |
ЖКХ |
Высокое |
Среднее |
Низкое |
Промышленность |
Высокое |
Среднее |
Низкое |
Здравоохранение |
Высокое |
Среднее |
Низкое |
транспорт |
Высокое |
Среднее |
Низкое |
Правило 1 для 1 компоненты:
1)Если налоговые доходы = высокие И неналоговые = высокие И расходы на ЖКХ = высокие И расходы на здравоохранение = высокие И транспорт = высокие И расходы промышленность = высокие, ТО класс = Первый;
Правило 2 для 2 компоненты:
2) Если налоговые доходы = средние И неналоговые = средние И расходы на ЖКХ = средние И расходы на здравоохранение = средние И транспорт = средние И расходы промышленность = средние, ТО класс = Второй;
Правило 3 для 3 компоненты:
3) Если налоговые доходы = низкие И неналоговые = низкие И расходы на ЖКХ = низкие И расходы на здравоохранение = низкие И транспорт = низкие И расходы промышленность = низкие, ТО класс = Третий;