Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовой проект - Интеллектуальный анализ расходов и доходов субъектов РФ.doc
Скачиваний:
48
Добавлен:
02.05.2014
Размер:
910.85 Кб
Скачать

6 Построение деревьев решений

Деревья решений (ДР)– метод, позволяющий представить анализируемые данные в виде множества правил «если-то», представленных в виде иерархической структуры – дерева. Построение ДР проводится с использованием пакета See5, позволяющим конструировать классификатор объектов в виде ДР, которому может быть поставлено в соответствие некоторое множество логических правил.

Файл имен переменных viborka.namesвыглядит следующим образом:

class.

class: 1,2,3.

nalogovie: continuous.

nenalogovie: continuous.

bezvozmezdnie: continuous.

dorognoe hozyaistvo: continuous.

GKH: continuous.

zdravoohranenie: continuous.

obrazovanie: continuous.

promishlennost: continuous.

S/h: continuous.

soc.politika: continuous.

transport: continuous.

Целевой признак Classпринимает три значения: 1- первый класс, 2- второй класс, 3- третий класс. Затем описывается совокупность признаков:

Налоговые доходы, неналоговые доходы, безвозмездные перечисления

расходы на дорожное хозяйство, расходы на ЖКХ, расходы на здравоохранение, расходы на образование , расходы на промышленность, расходы на сельское хозяйство , расходы на социальную политику

расходы на транспорт.

Файл данных viborka.data, который имеет следующий вид:

1,14281.9,830.6,397.1,1789.9,190.4,71,1926.4,3656,2320.7,1718.1,755.8

1,6107.8,692,3888.3,1042.5,346.1,80.2,1360.9,2869.9,1983.8,1349,340.4

1,9327.6,915.8,1898.9,578.1,246.2,105.6,1690.3,3693.8,2227.3,1580.6,210.8

1,12914.7,1868.8,4844.2,1033.7,491,241.8,1997.3,4768.9,4487.5,1705.1,929.9

1,5293.2,488.8,3709.8,511.7,284.8,61.9,1894.3,2199.5,1719.2,1555.7,65.6

1,7781.2,570.8,2880.5,1137.3,258.1,123.8,1314.7,3098.7,1822.4,1457.4,99

1,4599.7,442.1,1609.8,275.8,183.9,100.4,854.8,1817.3,1042.1,899.8,157.1

1,8219.1,482.9,1698.6,873.1,204.7,139.1,850.8,2971.1,1781.8,1043.1,45.8

1,20829.8,683.8,513.5,2474.1,802,436.7,2173,3676.5,3226.5,1631.6,824.1

2,72161.5,10021.3,977.3,7728.1,411,834.6,10041.1,22729.7,17072.7,11877.9,411.7

1,6227.2,295.9,1983.6,461,305.1,89.3,752.7,2969.2,2304,958.5,595.6

1,8606.6,813.3,1729.4,1181.2,557.6,2.9,1302.4,2825.5,2510.3,1108.7,91.9

1,6862.8,615.3,1241.3,386.6,271.8,119.8,1143.4,2409.4,2462.2,1079.7,123.8

1,5374.1,504.8,2937.7,759.7,236.3,61.7,922,2514.6,2562.6,988.2,127.6

1,10476.9,955.9,2929.1,527.7,389.6,56,1968.3,3221.7,3497.3,1696.6,1211.8

1,12102,673.7,1572.6,634.4,276.9,573.9,2040.8,2891.6,3700.4,1696.5,12

1,15122,1099.4,1194.6,1060.3,316.3,628.9,2949,3253.1,4164.6,1645.7,1343.2

1,6600.7,1008.4,1739.5,550.2,265.3,15.5,692.8,3208.2,1949.4,1152,987.5

1,17899.1,1174.3,1363.9,1096.2,381.9,91.1,2861.6,5751,3651.3,1907.3,137.5

1,15392.7,1677.6,3578.8,1209.3,436.6,240.3,2615.7,5901.9,3666.2,2290.4,11.4

1,4022.9,461.7,305.7,1302.3,725.4,66.5,3030.2,906.5,3201.3,2125.5,85.8

1,21931.6,1121.9,1159.7,1176.6,195.1,114.9,1812.5,5304.7,1488,950,485.2

1,7956.3,918.3,2279.6,2286.2,429.3,255.9,3389.6,2595.7,3588.1,2354.2,190

1,17963.8,1683.6,463.9,349.9,170.7,63.9,3151.8,5523.7,2686,1591.1,56.9

1,12247.9,975.7,1772.7,230.2,111.9,127.3,1151.6,4043.6,1010.8,842.2,34.9

1,5251.8,592.5,1114.9,344.5,128.2,62.5,1229.3,1911.3,1258.6,799.3,235.9

1,4507,342.1,2275.7,357.2,45.1,4.9,228.5,900.1,786.8,461.3,9.8

2,70248.5,15996.9,3581.9,9104,236.5,2635.1,12875.9,18472.4,10709.3,12337.2,158.2

1,1431.2,124.5,2009.7,2398.1,566.1,1.6,1576.8,900.1,2842.9,2227.1,545

1,4045.4,228.7,14781.8,735,134.1,42.4,270.7,5391.7,668.1,473.4,120.2

1,494.6,16.8,3839.6,523.7,104.1,7.7,552.8,671.9,1140.6,684.4,126

1,1937.6,104.5,4160.7,548.2,177.9,8.2,303.3,1902.1,708.4,395.7,13.1

1,3417.8,131.5,1268.9,712.1,129,5.3,486.8,1135.4,664.8,634.9,193.8

1,1505.5,66.9,2727.1,846,153.4,82.1,1168.7,966.1,1244.1,771.4,535

1,2746.8,240.5,5278.3,1303.7,387.2,75.7,836.1,1619.4,1355.7,13941.6,216

3,1707.2,73.8,23157.1,4497.4,1261.4,87.9,4441.8,1745.7,9704.2,6024.3,324.7

1,10613.1,991.8,11120.1,1399.9,1106.4,116.8,2455.7,11365.1,3262,2329,246.7

1,4308.9,3687.9,6754.9,660.2,126.1,99,1081.6,5810,1585.5,913.7,100

1,383.7,54.5,690.7,1469.7,795.8,605.8,2502.3,2456.5,3827.6,2277.9,180

1,2974.8,152.4,1364.4,3123.2,567.6,356.8,3862.1,5292.6,6062.1,4664.8,2525.1

3,35528.3,3503.9,9513.8,7683.6,1482.1,875.4,3480,9024.6,7170.8,3516.6,3684.1

1,3355.1,276.6,2893.4,524,239.1,14,887.5,11887.5,1151.6,888.5,153

1,17465.1,677,2814.8,2111.3,554.4,74.4,988.6,1882,1717.5,1037.7,1762

3,48090.7,7389.9,11842.8,22940.5,3010.7,1012.7,4547.7,1978.3,8950.4,4154.5,1200

1,13944.2,859.3,1775.9,1824.4,497.3,263.5,1911.1,13020.2,3190,1410.7,0.1

1,6903.6,726.2,4306.8,2411.2,357.4,108.2,1130.7,4781.9,2073,1190.1,816.2

1,8617.9,1161.3,2716.4,752.8,562.5,186,1496.1,2971.6,3123.4,1445,0.3

1,27765.8,2440.9,796.7,1091.7,800.4,645.1,4167.7,4129.3,5387.6,3509.2,637.9

1,1200.9,2528.7,1333.2,676.8,316.2,2143.9,8102.7,4739.8,2452.3,1283.1,193.42

Результаты построения начального ДР приведены в таблице 6.1.

Таблица 6.1

Результаты построения начального дерева решений

Дерево решений

Извлеченные правила

S/h <= 6062.1

S/h > 6062.1

soc.politika > 6024.3

S/h > 6062.1

soc.politika <= 6024.3

Rule 1: (44, lift 1.1)

Rule 2: (2, lift 18.4)

Rule 3: (3, lift 13.1)

Результаты классификации

Decision Tree

----------------

Size Errors

3 0( 0.0%) <<

(a) (b) (c) <-classified as

---- ---- ----

44 (a): class 1

2 (b): class 2

3 (c): class 3

Файл данных viborka.dataсодержит 50 объектов, каждый из которых описан 11 признаками.

В таблице представлено построенное ДР. Оно интерпретируется следующим образом: «Если расходы на сельское хозяйство меньше 6062,1, то класс =1 (44 объекта) , иначе если расходы на социальную политику больше 6024,3 то класс = 2 (2 объекта), иначе класс = 3 (3 объекта)».

Каждая ветка ДР заканчивается указанием номера класса, к которому она принадлежит. Например, самая первая ветка заканчивается записью 1 (44). Это означает, что данной ветке соответствует 44 объекта из определенного 1 класса. Аналогично для дочерних веток.

Ниже приводятся характеристики сконструированного классификатора, оцениваемые по обучающей выборке. Здесь мы видим, что построенное ДР имеет 3 ветки (Size= 3). Далее представлена таблица с детальным разбором результатов классификации. Исходя из данных, можно сказать, что из класса 1 правильно классифицируются 44 объекта, в классе 2 правильно классифицируется 2 объекта, в классе 3 правильно классифицируются 3 объекта.

Количество сработавших правил равно 2, ошибок извлечения объектов не наблюдалось (0.0%).