Ekonometrika1
.pdfМЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
Рассчитаем С и b по формулам:
|
|
|
|
|
|
|
|
|
|
b = Y |
X −Y × X |
= |
3,0572 −1.7605 1.7370 |
≈ −0.298 , |
|||||
|
|
|
sx |
2 |
|
|
|
0.04842 |
|
С = Y −b X = 1,7605 + 0,298 • 1,7370 = 2,278.
ˆ
Получим линейное уравнение: Y = 2,278-0,298 • X. Далее, выполнив его потенцирование, получим:
yˆ =102.278 x−0.298 =189.7 x−0.298 .
3. Построению уравнения показательной кривой у= а • bx предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения
lgy=lga+x • lgb
Обозначив Y= lg y, C= lg а, В = lg b, получим: Y=C+B • x.
Для расчетов используем данные табл. 4.3.4.
Таблица 4.3.4
|
У |
x |
Yx |
Y2 |
X2 |
yˆx |
у- yˆx |
(у- yˆx )2 |
|
|
|
|
|
|
|
|
|
1 |
1,7868 |
59,0 |
105,4212 |
3,1927 |
3481,00 |
56,4 |
4,8 |
23,04 |
2 |
1,7774 |
57,2 |
101,6673 |
3,1592 |
3271,84 |
56,9 |
3,0 |
9,00 |
3 |
1,7536 |
61,8 |
108,3725 |
3,0751 |
3819,24 |
55,5 |
1,2 |
1,44 |
4 |
1,7404 |
58,8 |
102,3355 |
3,0290 |
3457,44 |
56,4 |
-1,4 |
1,96 |
5 |
1,7348 |
47,2 |
81,8826 |
3,0095 |
2227,84 |
60,0 |
-5,7 |
32,49 |
6 |
1,6928 |
55,2 |
93,4426 |
2,8656 |
3047,04 |
57,5 |
-8,2 |
67,24 |
7 |
1,8376 |
45,1 |
82,8758 |
3,3768 |
2034,01 |
60,7 |
8,1 |
65,61 |
Итого |
12,3234 |
384,3 |
675,9974 |
21,7078 |
21338,41 |
403,4 |
-1,8 |
200,78 |
|
|
|
|
|
|
|
|
|
Среднее зна- |
1,7605 |
54,9 |
96,5711 |
3,1011 |
3048,34 |
- |
- |
28,68 |
чение |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s |
0,0425 |
5,86 |
- |
- |
- |
- |
- |
- |
|
|
|
|
|
|
|
|
|
s2 |
0,0018 |
34,3396 |
- |
- |
- |
- |
- |
- |
Значения параметров регрессии А и В составили:
|
|
|
|
|
|
|
B = Y |
x −Y x = |
96.5711−1.7605 54.9 |
≈ −0.0023, |
|||
|
|
s2 X |
5.862 |
|
А = Y − B x = 1,7605 + 0,0023 • 54,9 = 1,887.
ˆ
Получено линейное уравнение: Y = 1,887 - 0,0023 • x.
Произведем потенцирование полученного уравнения и запишем его в обычной
форме:
yˆ = 101.887 . 10-0.0023x = 77,1 • 0,9947х.
98
МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
4.4. Методы многомерной классификации. Кластерный анализ
Классификация семей по анализируемой структуре расходов
По данным, представленным в табл. 4.4.1, провести классификацию n=5 семей по
двум показателям: уровень расходов (млн. руб.) за летние месяцы на культурные нужды, спорт и отдых - х(1) и питание х(2):
Таблица 4.4.1.
№ семьи (i) |
1 |
2 |
3 |
4 |
5 |
хi(1) |
2 |
4 |
8 |
12 |
13 |
xi(2) |
10 |
7 |
6 |
11 |
9 |
Классификацию провести по иерархическому агломеративному алгоритму с использованием обычного и взвешенного (w1=0,05; w2=0,95) евклидова расстояния, а также принципов: “ближайшего” и “дальнего” соседа, центра тяжести и средней связи.
Сравнить полученные результаты и обосновать выбор окончательного варианта классификации.
Примечание: На основании предварительного качественного анализа было выдвинуто предположение, что по потребительскому поведению три первые семьи принадлежат одной типологической группе, а две последние (4 и 5) – другой, что согласуется с расположением пяти наблюдений на плоскости, представленных на рис.1.
x(2) |
|
|
|
12 |
|
|
4 |
10 |
|
|
|
1 |
|
|
|
8 |
|
5 |
|
2 |
|
|
|
6 |
3 |
|
|
|
|
||
|
|
|
|
4 |
|
|
|
2 |
|
|
|
0 |
|
|
x(1) |
0 |
5 |
10 |
15 |
Рис.1. Исходные данные для классификации
Решение. 1. Проведем классификацию, выбрав при обычном евклидовом расстоянии принцип “ближайшего соседа”.
Согласно обычной евклидовой метрике расстояние между наблюдениями 1 и 2
равно
ρ1,2 = ∑p |
(x1( j ) − x2( j ) )2 = (2 −4)2 +(10 −7)2 =3.61, |
(1) |
j=1 |
|
|
очевидно, что ρ1,1=0.
Аналогично находим расстояния между всеми пятью наблюдениями и строим матрицу расстояний
99
МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
|
0 |
3,61 |
7,21 |
10,05 |
11,05 |
|
|
3,61 |
0 |
4,12 |
8,94 |
9,22 |
|
R1 = |
7,21 |
4,12 |
0 |
6,40 |
5,83 |
. |
10,05 |
8,94 |
6,40 |
0 |
2,24 |
|
|
11,05 |
9,22 |
5,83 |
2,24 |
0 |
|
Из матрицы расстояний следует, что объекты 4 и 5 наиболее близки ρ4,5=2,24 и поэтому объединим их в один кластер. После объединения объектов имеем четыре кластера:
S1, S2, S3, S(4,5).
Расстояние между кластерами будем находить по принципу “ближайшего соседа”, воспользовавшись формулой пересчета. Так, расстояние между кластером S1 и кластером
S(4,5) равно:
ρ |
|
= ρ(S |
, S |
(4,5) |
) = |
1 |
ρ |
+ |
1 |
ρ |
− |
1 |
|
ρ |
1,4 |
−ρ |
1,5 |
|
= |
|||||
|
|
|
||||||||||||||||||||||
|
|
|
|
|||||||||||||||||||||
1,(4,5) |
1 |
|
|
|
|
|
2 |
1,4 |
|
2 |
1,5 |
2 |
|
|
|
|
|
|||||||
|
1 |
(10,05 +11,05)− |
1 |
|
|
|
|
|
|
|
|
|
|
|
(2) |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
= |
|
10,05 −11,05 |
=10,05. |
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|||||||||||||||||||
2 |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Мы видим, что расстояние ρ 1,(4,5) равно расстоянию от объекта 1 до ближайшего к нему объекта, входящего в кластер S(4,5), т.е. ρ 1,(4,5)= ρ1,4=10,05. Проводя аналогичные расчеты, получим матрицу расстояний
|
|
0 |
3,61 |
7,21 |
10,05 |
|
R2 |
|
3,61 |
0 |
4,12 |
8,94 |
|
= |
7,21 |
4,12 |
0 |
5,83 |
. |
|
|
|
|
8,94 |
5,83 |
0 |
|
|
10,05 |
|
Объединим наблюдения 1 и 2, имеющие наименьшее расстояние ρ1,2=3,61. После
объединения имеем три кластера S(1,2), S3 и S(4,5).
Вновь строим матрицу расстояний. Для этого необходимо рассчитать расстояние до кластера S(1,2). Воспользуемся матрицей расстояний R2.
Например, расстояние между кластерами S(4,5) и S(1,2) равно:
ρ |
(4,5),(2,3) |
= |
1 |
ρ |
(4,5),1 |
+ 1 |
ρ |
(4,5),2 |
− |
1 |
|
ρ |
(4,5),1 |
− ρ |
(4,5),2 |
|
= |
|||
|
|
|||||||||||||||||||
|
|
2 |
|
|
|
2 |
|
|
2 |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
= |
1 |
10,05 + |
1 |
|
8,94 − |
1 (10,05 −8,94) |
=8,94. |
|
|
|
||||||||||
|
2 |
|
|
2 |
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
Как видим, оно равно расстоянию от кластера S(4,5) до ближайшего объекта, входя-
щего в кластер S(1,2), то есть ρ (4,5),(1,2)= ρ (4,5),2=8,94.
Проведя аналогичные расчеты, получим матрицу расстояний
|
|
0 |
4,12 |
8,94 |
|
R = |
4,12 |
0 |
5,83 |
. |
|
3 |
|
|
5,83 |
0 |
|
|
8,94 |
|
100
МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
Объединим кластеры S(1,2) и S(3), расстояние между которыми, согласно матрице R3, минимально ρ (1,2),3=4,12. В результате этого получим два кластера: S(1,2,3) и S(4,5). Матрица расстояний будет иметь вид:
R 4 = (5,830 5,830 |
). |
Из матрицы R4 следует, что на расстоянии |
ρ(1,2,3),(4,5)=5,83 все пять наблюдений |
объединяются в один кластер. Результаты кластерного анализа представим графически в виде дендрограммы (рис.2).
ρ
6 |
|
|
|
5,83 |
|
5 |
|
|
|
|
|
4,12 |
|
|
|
|
|
4 |
3,61 |
|
|
|
|
3 |
|
|
|
|
|
|
|
2,24 |
|
|
|
2 |
|
|
|
|
|
1 |
|
|
|
|
|
0 |
|
3 |
|
5 |
|
1 |
2 |
4 |
ρ |
||
|
|
|
|
Рис. 2. Дендрограмма
(обычное евклидово расстояние, “ближайший сосед”)
На основании графического представления результатов кластерного анализа (рис.4.2) можно сделать вывод, что наилучшим является разбиение пяти семей на два кла-
стера: S(1,2,3) и S(4,5), когда пороговое расстояние находится в интервале
4,12< ρ пор<5,83.
Напомним, что выводы нами сделаны для случая, когда для измерения расстояния выбрано “обычное евклидово расстояние” и принцип “ближайшего соседа”.
2. Проведем классификацию, выбрав при обычном евклидовом расстоянии принцип “дальнего соседа”.
Как и в случае (1), мы используем обычное евклидово расстояние, поэтому матрица R1 остается без изменения. Согласно агломеративному алгоритму объединяются в один кластер объекты 4 и 5, как наиболее близкие ρ4,5=2,24. После объединения имеем четыре
кластера: S1, S2, S3 и S(4,5).
В виду того, что расстояние между кластерами измеряем по принципу “дальнего соседа”, воспользуемся формулой пересчета, приняв δ=1/2, а не -1/2, как в случае (1). Тогда, например, расстояние между кластером S1 и кластером S(4,5) определяется по формуле
ρ |
|
|
= ρ(S |
, S |
(4,5) |
) = |
1 |
ρ |
+ |
1 |
ρ |
+ |
1 |
|
ρ |
−ρ |
|
= |
|||
|
|
|
|
||||||||||||||||||
1,(4,5) |
1 |
|
|
2 |
1,4 |
|
2 |
1,5 |
|
|
|
2 |
|
1,4 |
1,5 |
|
. |
||||
= |
1 |
(10,05 +11,05) + 1 |
|
10,05 −11,05 |
|
=11,05 |
|
||||||||||||||
|
|
|
|
||||||||||||||||||
|
|
|
|
||||||||||||||||||
|
2 |
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таким образом, расстояние ρ1,(4,5) равно расстоянию от объекта 1 до наиболее отдаленного от него объекта, входящего в кластер S(4,5), то есть ρ1,(4,5)= ρ1,5=11,05.
101
МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
Аналогично рассматриваются все остальные элементы матрицы расстояния
|
0 |
3,61 |
7,21 |
11,05 |
|
|
3,61 |
0 |
4,12 |
9,22 |
|
|
|
||||
R 2 = |
7,21 |
4,12 |
0 |
6,40 |
. |
|
|
||||
|
|
9,22 |
6,40 |
0 |
|
11,05 |
|
Объединим объекты 1 и 2 в один кластер, как наиболее близкие (согласно матрице
R 2), ρ1,2=3,61.
После объединения имеем три кластера: S(1,2), S3 и S(4,5).
Строим матрицу расстояний R3, воспользовавшись принципом “дальнего соседа”.
|
|
|
|
|
|
0 |
7,21 |
11,05 |
|
|
|
|
|
|
R3 = |
7,21 |
0 |
6,40 . |
|
|
|
|
|
|
|
|
6,40 |
0 |
|
|
|
|
|
|
11,05 |
|
|||
Объединим кластеры S3 |
и S(4,5), расстояние между которыми ρ3,(4,5)=6,40 мини- |
||||||||
мально, и получим два кластера: S(1,2) и S(3,4,5), расстояние между которыми определяется |
|||||||||
по матрице R |
|
0 |
11,05 |
и равно ρ(1,2),(3,4,5)=11,05. |
|||||
4 |
= |
|
|
||||||
|
|
0 |
|
|
|
|
|
|
|
|
|
11,05 |
|
|
|
|
|
|
|
Графические результаты классификации представлены на рис.3. |
|||||||||
|
|
|
ρ |
|
|
|
|
|
|
|
|
|
12 |
|
|
|
11,05 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10 |
|
|
|
|
|
|
|
|
|
8 |
|
|
|
|
|
|
|
|
|
6 |
|
|
|
6,40 |
|
|
|
|
|
|
3,61 |
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
2,24 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
0
1 2 3 4 5
Рис. 3. Дендрограмма
(обычное евклидово расстояние, “дальний сосед”)
Как и в предыдущем случае наилучшим является разбиение семей на два кластера (рис. 4.3): S(1,2) и S(3,4,5), после предпоследнего шага классификации, когда интервал измерения расстояния объединения наибольший 6,40≤ ρ пор≤11,05.
Таким образом, используя принцип “дальнего соседа”, мы получили разбиение ре-
гионов на два кластера S(1,2) и S(3,4,5), которое отличается от разбиения по принципу “ближайшего соседа”: S(1,2,3) и S(4,5).
3. Классификация на основе обычного евклидова расстояния и принципа “центра тяжести”.
Так как мы используем обычное евклидово расстояние, то матрица R1 остается без изменения. Согласно агломеративному алгоритму объединяются в кластер S(4,5) объекты 4 и 5, как наиболее близкие ρ4,5=2,24.
102
МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
Кластер S(4,5) характеризуется в дальнейшем его центром тяжести, определяемым
вектором средних X(4,5) = 12,5 .
10
Расстояние от этого кластера до первого наблюдения равно
ρ |
= |
|
(12,5 −2)2 +(10 −10)2 =10,50 . |
||||
(4,5),1 |
|
|
|
|
|
|
|
Тогда матрица расстояний примет вид |
|
|
|
||||
|
|
|
0 |
3,61 |
7,21 |
10,50 |
|
|
= |
|
3,61 |
0 |
4,12 |
9,01 |
|
R 2 |
|
7,21 |
4,12 |
0 |
6,02 |
. |
|
|
|
|
|
9,01 |
6,02 |
0 |
|
|
|
10,50 |
|
Объединим объекты 1 и 2, расстояние между которыми ρ1,2=3,61 минимальное.
Кластер характеризуется центром тяжести X1,2 =(83,5), расстояния от которого до кластера
S(4,5) равно
ρ |
= |
|
(3 −12,5)2 + (8,5 −10)2 |
= 9,62 . |
|
||||||||
(1,2),(4,5) |
|
|
|
|
|
|
|
|
|
|
|
|
|
Тогда матрица расстояний примет вид |
|
9,62 |
|
|
|
|
|||||||
|
|
|
|
0 |
5,59 |
|
|
|
|
||||
|
R |
|
= |
5,59 |
0 |
6,02 |
. |
|
|
|
|
||
|
|
3 |
|
|
|
|
6,02 |
0 |
|
|
|
|
|
|
|
|
9,62 |
|
|
|
|
|
|||||
В матрице R3 минимальное расстояние |
ρ(1,2),3=5,59, |
поэтому образуем кластер |
|||||||||||
|
|
|
|
|
|
|
|
2 +4 +8 |
|
4,67 |
|
||
S(1,2,3) и определим его вектор средних X(1,2,3) |
= |
3 |
|
= |
(7,67) |
. |
|||||||
|
|
|
|
|
|
|
10 +7 + |
6 |
|
|
|||
Найдем расстояние между S(1,2,3) |
|
и S(4,5) |
3 |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
ρ(1,2,3),(4,5) = (4,67 −12,5)2 +(7,67 −10)2 =8,17 ,
на котором все пять объектов объединяются в один кластер. Графически результаты классификации представлены на рис. 4.
ρ |
|
|
|
|
9 |
|
|
|
8,17 |
8 |
|
|
|
|
|
|
|
|
|
7 |
|
|
5,59 |
|
6 |
|
|
|
|
|
|
|
|
|
5 |
|
3,61 |
|
|
4 |
|
2,24 |
|
|
3 |
|
|
|
|
2 |
|
|
|
|
1 |
|
|
|
|
0 |
2 |
3 |
4 |
5 |
1 |
||||
|
Рис. 4. Дендрограмма |
|||
(обычное евклидово расстояние, принцип “центра тяжести”) |
103
МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
Из рис.4. видно, что наибольший скачок в расстояниях объединения ρ имеет место
на последнем шаге, поэтому целесообразно выбрать разбиение на два кластера S(1,2,3) и S(4,5), что совпадает со случаем (1).
4. Классификация на основе обычного евклидова расстояния и принципа “средней связи”.
Используя матрицу R1, согласно агломеративному алгоритму объединим кластеры
S4 и S5 в один S(4,5), так как расстояние между ними ρ4,5 =2,24 |
минимально. |
||||||||||||||||||||
Расстояние от |
кластера |
S(4,5) до |
остальных кластеров определим по принципу |
||||||||||||||||||
“средней связи” на основе матрицы R1. Например, |
|
|
|
|
|
|
|
|
|||||||||||||
|
ρ |
= 1 |
(ρ |
4,1 |
+ρ |
) = 1 (10,05 +11,05) =10,55 . |
|||||||||||||||
|
(4,5),1 |
2 |
|
|
|
5,1 |
|
2 |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Тогда матрица расстояний имеет вид |
|
|
|
|
10,55 |
|
|||||||||||||||
|
|
|
|
|
|
|
0 |
|
3,61 |
7,21 |
|
||||||||||
|
|
|
|
|
|
3,61 |
|
0 |
4,12 |
9,08 |
|
|
|||||||||
|
|
R 2 |
= |
|
7,21 |
4,12 |
|
0 |
|
|
6,12 |
. |
|
||||||||
|
|
|
|
|
|
|
|
|
9,08 |
6,12 |
|
|
0 |
|
|
|
|||||
|
|
|
|
10,55 |
|
|
|
|
|
||||||||||||
Объединим, как наиболее близкие ρ1,2=3,61, кластеры S1 и S2. Тогда расстояния от |
|||||||||||||||||||||
S(1,2) до остальных кластеров S(4,5) равны |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
ρ |
|
|
= |
1 (ρ |
+ρ |
+ρ |
2,4 |
+ρ |
2,5 |
) =9,82 , |
||||||||||
|
(1,2),(4,5) |
|
|
4 |
1,4 |
|
1,5 |
|
|
|
|
|
|
|
|||||||
а матрица расстояний имеет вид |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
9,82 |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
0 |
5,67 |
|
|
|
|
|
|||||||
|
|
|
R |
|
|
= |
5,67 |
|
0 |
|
6,12 |
. |
|
|
|
||||||
|
|
|
|
|
3 |
|
|
|
|
|
6,12 |
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9,82 |
|
|
|
|
|
|
|
|
|||||
Объединим, как наиболее близкие ρ(1,2),3=5,41, кластеры S(1,2) и S3 и определим |
|||||||||||||||||||||
расстояние от S(1,2,3) до S(4,5) |
= 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ρ |
|
(ρ |
|
|
|
+ρ |
+ρ |
+ρ |
|
+ρ |
|
+ρ |
) = 8,58 , |
||||||||
(1,2,3),(4,5) |
6 |
|
1,4 |
|
|
1,5 |
|
2,4 |
|
2,5 |
|
|
3,4 |
|
3,5 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
на котором все пять объектов объединились в один кластер. Графически результаты классификации представлены на рис. 5
ρ |
|
|
|
|
|
9 |
|
|
|
|
8,58 |
8 |
|
|
|
|
|
|
|
|
|
|
|
7 |
|
5,41 |
|
|
|
6 |
|
|
|
|
|
5 |
3,61 |
|
|
|
|
4 |
|
|
|
|
|
|
|
|
2,24 |
|
|
3 |
|
|
|
|
|
2 |
|
|
|
|
|
1 |
|
|
|
|
|
0 |
|
|
|
|
|
0 |
1 |
2 |
3 |
4 |
5 |
Рис. 5. Дендрограмма
(обычное евклидово расстояние, принцип “средней связи”)
Анализ рис. 5 показывает, что целесообразным является разбиение на два кластера
S(1,2,3) и S(4,5).
104
МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
Таким образом, сравнивая результаты 4-х разбиений пяти семей на однородные группы, можно отметить, что наиболее устойчивым, а отсюда и предпочтительным, явля-
ется разбиение на два кластера S(1,2,3) и S(4,5), что согласуется с рис. 4.1. Только в одном случае из четырех, при использовании принципа “дальнего соседа” получено разбиение
S(1,2) и S(3,4,5).
Во всех предыдущих алгоритмах классификации мы предполагали, что оба показателя х(1) и х(2) одинаково значимы (использовалось обычное евклидово расстояние). Теперь откажемся от этого предположения.
5. Классификация на основе “взвешенного евклидова расстояния” и принципа “ближайшего соседа”.
Предположим, что показатель х(1) менее важен для классификации, чем х(2). В этой связи припишем им “веса” ω1=0,05 и ω2=0,9. Напомним, что взвешенное евклидово расстояние между i-м и l-м наблюдениями определяется по формуле
ρВЕ(xi , xl ) = ∑p (xi( j ) − xl( j ) )2 ωj . (3)
j=1
Тогда расстояние между объектами 1 и 2 равно
ρ1,2 = (2 − 4)2 0,05 + (10 −7)2 0,95 = 2,96 .
Аналогично находим все остальные расстояния и строим матрицу расстояний
|
0 |
2,96 |
4,12 |
2,44 |
2,65 |
|
|
2,96 |
0 |
1,32 |
4,29 |
2,80 |
|
R1 = |
4,12 |
1,32 |
0 |
4,95 |
3,13 |
. |
|
2,44 |
4,29 |
4,95 |
0 |
1,96 |
|
2,65 |
2,80 |
3,13 |
1,96 |
0 |
|
Объединив S2 и S3, имеющих минимальное расстояние ρ2,3=1,32, в кластер S2,3 и применив принцип “ближайшего соседа”, получим матрицу расстояний R
|
|
0 |
|
2,96 |
2,44 |
2,65 |
||||
|
|
2,96 |
0 |
4,29 |
2,80 |
|
||||
R 2 |
= |
2,44 |
4,29 |
|
0 |
1,96 |
. |
|||
|
|
|
|
|
2,80 |
1,96 |
|
0 |
|
|
|
2,65 |
|
|
|||||||
Образовав на расстоянии ρ4,5=1,96 кластер S4,5, вновь построим матрицу расстояний |
||||||||||
|
|
|
|
0 |
2,96 |
2,44 |
|
|||
|
R 3 |
|
|
2,96 |
0 |
2,80 |
|
|
||
|
= |
|
. |
|
||||||
|
|
|
|
2,44 2,80 |
|
0 |
|
|
||
|
|
|
|
|
|
|
||||
Объединим S1 и S4,5, имеющих минимальное расстояние ρ(4,5)1=2,43, в кластер |
||||||||||
S(1,4,5) и получим матрицу расстояний |
|
|
0 |
2,80 |
|
|
||||
|
|
R |
|
|
|
|||||
|
|
|
= |
|
|
0 |
. |
|
|
|
|
|
|
4 |
2,80 |
|
|
|
|
Следовательно, на расстояние ρ(1,4,5),(2,3)=2,80 объединяются кластеры S(1,4,5) и S(2,3) и все пять объектов образуют один кластер.
105
МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
Результаты классификации представлены графически на рис.6.
ρ3 |
|
2,80 |
|
|
|
|
|
|
2,44 |
|
|||||
|
|
|
|
|
|
|
|
||||||||
2,5 |
|
|
|
|
|
|
|
|
|
|
|
|
|||
2 |
|
|
|
|
|
1,32 |
|
|
|
|
|
|
1,96 |
||
1,5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
2 |
1 |
4 |
5 |
|
||||||||
|
|
|
|
Рис. 6. Дендрограмма
(взвешенное евклидово расстояние, принцип “ближайшего соседа”)
Как и прежде, отдадим предпочтение разбиению на два кластера; мы получаем тре-
тий вариант разбиения, а именно S(2,3) и S(1,4,5).
Таким образом, использовав пять алгоритмов кластерного анализа, мы получили три варианта разбиения пяти семей на две статистически однородные группы. С одной стороны, это свидетельствует о гибкости (возможностях) методов кластерного анализа, а с другой – о необходимости использования экономических (содержательных) и статистических критериев для выбора наилучшего варианта классификации. При этом часто бывает полезной априорная информация об исследуемом явлении. В нашем примере, окончатель-
но следует остановиться на разбиении S(1,2,3) и S(4,5), как наиболее устойчивом. Это разбиение получено по трем алгоритмам из пяти. Кроме того, оно согласуется с данными апри-
орного, качественного анализа.
5. Контрольные задания
Задание №1.
Тема « Корреляционный анализ»
1. По данным своего варианта определите критическое значение rкр для выборочных парных коэффициентов корреляции, представленных в корреляционной матрице, по таблице Фишера-Йейтса и проверьте значимость каждого из коэффициентов на уровне значимости α = 0,05.
2.Определите два признака, с Вашей точки зрения наиболее важные для объяснения вариации исследуемого признака. Рассчитайте выборочные частные коэффициенты корреляции исследуемого признака с каждым из них при фиксированном значении другого. Найдите интервальные оценки частных коэффициентов корреляции, определите значимость коэффициентов. Сравните частные коэффициенты корреляции с соответствующими парными. Сделайте выводы относительно роли исключенной переменной в изменении степени тесноты статистической связи, характеризуемой этими коэффициентами корреляции.
3.Рассчитайте значение множественного коэффициента корреляции исследуемого признака с выбранными в п.2 признаками Определите коэффициент детерминации, проверьте его значимость.
106
МЕТОДИЧЕСКИЕ УКАЗАНИЯ И ЗАДАНИЯ ДЛЯ СТУДЕНТОВ-ЗАОЧНИКОВ
Задание №2.
Тема « Регрессионный анализ»
1. Используя критерий Фишера, проверьте на уровне значимости α=0,05 значимость каждого уравнения регрессии из исходных данных для Вашего варианта. В значимых уравнениях рассчитайте значения t-статистик всех коэффициентов, используя значения выборочных средних квадратических отклонений, приведенных под каждым из коэффициентов. Перепишитеуравнения регрессии, указывая под коэффициентами значения t-статистик.
2. По таблице распределения Стьюдента определите tкр – критическое значение t-статистики для каждого из уравнений на уровне значимости α=0,05. Проверьте значимость коэффициентов уравнения регрессии.
3. Выберите из предложенных уравнений наилучшее. Рассчитайте интервальные оценки его коэффициентов. Произведите анализ уравнения.
Задание 3.
Тема «Нелинейные регрессионные модели»
По представленным в таблице данным требуется найти оценки параметров нелинейных функций.
Задание 4.
Тема « Методы многомерной классификации объектов»
По представленным в таблице данным провести классификацию n = 4 предприятий по двум показателям. Классификацию провести по иерархическому агломеративному алгоритму, используя обычное евклидово расстояние. Расстояние между кластерами определять по принципу, указанному для каждого варианта.
6. Варианты заданий
Номер варианта определяется последней цифрой номера зачетной книжки
ВАРИАНТ 1
Задание 1,2.
Матрица парных коэффициентов корреляции по данным о 19 странах Африки из таблицы 1 ПРИЛОЖЕНИЯ.
Исследуемый признак (зависимая переменная) x2 – средняя продолжительность жизни женщин.
|
x1 |
x2 |
x3 |
x4 |
x5 |
x6 |
x7 |
x8 |
x9 |
x1 |
1 |
-0,783 |
-0,399 |
-0,744 |
0,121 |
-0,420 |
0,700 |
0,758 |
0,621 |
x2 |
|
1 |
0,479 |
0,341 |
-0,043 |
0,565 |
-0,808 |
-0,943 |
-0,667 |
x3 |
|
|
1 |
0,290 |
-0,152 |
0,437 |
-0,572 |
-0,542 |
-0,680 |
x4 |
|
|
|
1 |
-0,295 |
0,421 |
-0,497 |
-0,326 |
-0,427 |
x5 |
|
|
|
|
1 |
-0,486 |
0,561 |
-0,158 |
0,593 |
x6 |
|
|
|
|
|
1 |
-0,763 |
-0,463 |
-0,641 |
x7 |
|
|
|
|
|
|
1 |
0,708 |
0,907 |
x8 |
|
|
|
|
|
|
|
1 |
0,592 |
x9 |
|
|
|
|
|
|
|
|
1 |
107