
эконометрика с косяками
.pdf
здесь 1,2 |
(2 4)2 (10 7)2 |
3.61, … |
Минимальный элемент – 2.24, поэтому объединяем 4 и 5 кластеры. Перепишем матрицу расстояний:
1,(4,5) min{ 1,4 , 1,5} min{10.05,11.05} 10.05
…
,
Объединяем 1 и 2 кластеры (почему?).
(1,2)3 min{ 1,3 , 2,3} min{7.21, 4.12} 4.12 ,
(1,2)(4,5) min{ 1(4,5) , 2(4,5) } min{10.05,8.94} 8.94
…
61

Новая матрица расстояний:
Минимальное расстояние между S(1,2) , S3 , поэтому их и объединяем, получаем
S(1,2,3) S(1,2) S3 , S(4,5) . Мы хотели получить
два кластера – мы их получили.
(Это – S(1,2,3) , S(4,5) )
Процесс объединения удобно изобразить графически – в виде дендрограммы:
Последнее объединение (все - в один кластер) мы, естественно, не производили.
62

Пример 7
Структура семейных расходов. Лаб.раб.№10, с.87
1.Введите данные.
Получите результаты, совпадающие с тем, что получилось в рассмотренном примере.
Сравните дендрограммы полученую вами в StatGraphics и ту, которая была нарисована в разобранном примере.
Они полностью совпали?
2. Измените ближнего соседа на дальнего – что изменилось? А если взять метод Варда?
63

3. Зависит ли результат от выбора расстояния между объектами?
Заметим, что если результаты классификации, полученные разными методами совпадают, то это подтверждает реальное существование групп (надежность, достоверность).
Элементы дискриминантного анализа
Пусть имеется совокупность объектов X i , каждый из которых описывается
набором из k признаков. Предположим, что все объекты разбиты на кластеры ( разбиение м.б. получено в результате кластерного анализа, либо в результате работы эксперта). Нам предъявляют
новый объект X 0 .
Задача дискриминантного анализа состоит в том, чтобы предложить правило, которое позволило бы отнести новый объект к одному из существующих кластеров.
64

Все методы дискриминантного анализа делятся на две большие группы: непараметрические и параметрические.
При использовании непараметрических методов решается некоторая задача разделения нескольких множеств и она сводится, как правило, к некоторым задачам линейного программирования.
В статистике используется другой подход – параметрический.
Пусть мы имеем объекты, разбитые на
два кластера S1, S2 . Объекты, попавшие в
первый кластер, мы будем интерпретировать как значение k-мерной
случайной величины X1 с известной
плотностью распределения f1 ( X ) , объекты
попавшие во второй кластер – это значения случайной величины X 2 с плотностью f2 ( X ) .
Один из самых простых вариантов решения поставленной задачи таков:
АЛГОРИТМ:
если f1 ( X0 ) f2 (X0 ) , то X0 S1 иначе – X0 S2
65

Откуда взять плотности распределения?
Чаще всего предполагают, что наши k-мерные случайные величины имеют нормальное распределение с плотностью
f X , m, D |
1 |
|
|
|
|
|
1 |
X m T |
D 1 X m |
|
|
|
|
|
|||||
|
|
|
|
|
e 2 |
|
|
||
2 k 2 |
|
D |
|
1 2 |
|
|
|||
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
Здесь
|
|
(1) |
|
|
|
|
m |
|
|
|
|
m |
m(2) |
|
, m |
(i) |
|
|
|
|
|
||
|
... |
|
|
|
|
|
|
|
|
|
|
|
m(k ) |
|
|
||
|
|
|
|
|
|
MXi
- вектор матожиданий,
D{ ij }, ij cov( Xi , X j )
-матрица ковариаций.
( стрелки над X далее - опускаем)
Если
f1 (X ) f X , m1, D1 и f2 (X ) f X , m2 , D2
( в качестве математических ожиданий и элементов матриц ковариации будем использовать их выборочные оценки)
66

известны, то описанный выше алгоритм можно использовать.
Предположение Фишера: D1 D2
(т.е. матрицы ковариаций различаются несущественно)
Если предположении Фишера справедливо, то неравенство, которое используется в нашем алгоритме становится линейным .
Действительно:
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
1 |
X m1 T D 1 X m1 |
|
|
||||
|
|
|
|
|
|
|
|
|
|
e |
2 |
|
|||||||||
|
2 k 2 |
|
D |
|
1 2 |
|
|
1 |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
X m2 T |
D1 X m2 |
||||||||||||
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
e |
|
|
|
|
|
||||
|
2 k 2 |
|
D |
|
1 2 |
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X m1 T D 1 X m1 X m2 T D 1 X m2
X T D 1 X m1T D 1 X X T D 1m1 m1T D 1m1
X T D 1 X m2T D 1 X X T D 1m2 m2T D 1m2
2(m2 m1 )T D 1 X m2T D 1m2 m1T D 1m1
67

aT X c
!!! Суммарные потери от ошибочной классификации минимальны !!!
k |
|
i |
– априорная вероятность отнесения объекта к i-классу, |
|
i fi X 0 |
c j : i min |
fi |
X 0 – функция плотности вероятности для i-класса, |
|
i 1 |
j |
c j : i – потери от неправильной классификации |
|
|
|
|
|||
i j |
|
|
(к j-классу отнесли объект i-класса). |
|
|
|
|
|
|
Если случай равных потерь c j : i c0 const , задача упрощается: j f j X 0 |
max . |
|||
Если случай одинаковых вероятностей 1 ... k 1 k , задача: f j X 0 |
j |
|||
max . |
||||
|
|
|
|
j |
Если неизвестны параметры законов распределения, находим их из обучающих выборок, и задача сводится к предыдущей. Если обучающие выборки взяты случайным образом из генеральной совокупности, априорные вероятности
j n j n j .
## Данные по 20 фирмам, уклоняющимся и не уклоняющимся от уплаты налогов:
уклоняются |
|
не уклоняются |
||||||||||||||||
|
|
x |
1 |
|
x |
2 |
|
|
|
|
x 1 |
|
x |
2 |
|
|
||
|
|
1i |
|
1i |
|
|
|
|
2i |
|
|
2i |
|
|
||||
|
|
740 |
|
680 |
|
|
|
|
750 |
|
|
590 |
|
|
|
|||
|
|
670 |
|
600 |
|
|
|
|
360 |
|
|
600 |
|
|
|
|||
|
|
560 |
|
550 |
|
|
|
|
720 |
|
|
750 |
|
|
|
|||
|
|
540 |
|
520 |
|
|
|
|
540 |
|
|
710 |
|
|
|
|||
|
|
590 |
|
540 |
|
|
|
|
570 |
|
|
700 |
|
|
|
|||
|
|
|
|
|
|
|
|
|
520 |
|
|
670 |
|
|
|
|||
|
|
590 |
|
700 |
|
|
|
|
|
|
|
|
|
|||||
|
|
560 |
|
540 |
|
|
|
|
590 |
|
|
790 |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
670 |
|
|
700 |
|
|
|
|
A1 607 |
|
590 |
|
|
|
|
|
|
|
|||||||||
|
|
620 |
|
|
730 |
|
|
|
||||||||||
|
|
|
4449 |
2929 |
|
|
|
|
|
|
|
|||||||
|
|
|
|
690 |
|
|
840 |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
610 |
|
|
680 |
|
|
|
||||||||
1 |
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
2929 |
4543 |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
550 |
|
|
730 |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
A |
|
590 |
|
|
750 |
|
|
|
|
X 0 560 |
|
|
|
|
|
|
|
|
|
|
|
|
||||||
600 |
2 |
598 |
|
711 |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
9351 |
1970 |
||||||
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
4346 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
1970 |
|
Многомерный нормальный закон:
f X , m, D |
1 |
|
|
|
|
e |
1 |
X m T D 1 X m |
|
|
|
|
2 |
||||
2 k 2 |
|
D |
|
1 2 |
||||
|
|
|
|
|
|
|||
min S1 , S2 |
min |
|
d X i , X j |
|||||
|
Xi S1 , X j S2 |
|
|
|
X 2
X , m2 , D2
1 |
|
|
|
|
|
1 |
X m1 T |
D 1 X m1 |
|
|
|
1 |
|
|
|
|
|
|
1 |
X m2 T D 1 X |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
e 2 |
|
|
|
|
|
|
|
|
|
|
e |
|
2 |
|
|
||
2 k 2 |
|
D |
|
1 2 |
|
|
|
2 k 2 |
|
D |
|
1 2 |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
at |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X m |
|
T D 1 X m |
|
X m |
T |
D 1 |
X m |
|
|
|||||||||||||
1 |
|
|
|
|
|
|
1 |
|
|
2 |
|
|
|
|
|
|
|
|
2 |
|
||
X T D 1 X m T D 1 X X T D 1m m T D 1m |
|
|
|
|
||||||||||||||||||
|
|
|
|
|
1 |
|
|
|
|
1 |
|
1 |
|
|
1 |
|
|
|
|
|
||
X T D 1 X m T D 1 X X T D 1m m T D 1m |
|
|
|
|
||||||||||||||||||
|
|
|
|
|
2 |
|
|
|
|
2 |
2 |
|
|
|
|
2 |
|
|
|
|
aT X c
f ( X ) f X , m , D |
|
|
1 |
|
|
|
1 |
X m T 1 X m |
||||||||
|
|
|
|
|
||||||||||||
|
|
|
|
|
e 2 |
|
||||||||||
|
2 |
|
|
|
|
|||||||||||
1 |
|
|
|
|
|
|
1 1 |
|
|
k 2 |
|
1 2 |
|
|
|
|
Пример 8 (файл GROWTH.sf ) |
|
D |
|
|
|
|
||||||||||
|
|
|
|
|
|
|
||||||||||
D { ij }, ij |
cov( X i , X j ) |
|
|
|
|
|
|
|||||||||
|
m(1) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
68 |
m(2) |
|
, m |
(i ) |
MX |
|
|
|
|
|
|
|
|
|
||
m |
... |
|
|
|
i |
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
(k ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Лаб.раб№12, описание примера – с.90(Лаб.№10)
Рассмотрим задачу о рынке ценных бумаг (проблему оценки различных фондов, оперирующих этими бумагами).
Будем исследовать 16 известных инвестиционных фондов для оценки их состояния.
В качестве переменных используются следующие характеристики:
доходность за пятилетний период —
FiveYr,
Risk — риск,
Perf90, Perf91, Perf92, Perf93, Perf94 —
ежегодный процент дохода (для каждого года),
Expence — расходная часть и
Tax — налоговые рейтинги.
В переменной Recommed даны рекомендации эксперта о том, что делать с акциями данных фондов:
69
Buy – покупать, Hold – держать, Sell –
продавать.
По последним четырем фондам рекомендации эксперта нет. Используя методы дискриминантного анализа, получите эти рекомендации.
Временные ряды
При построении эконометрической модели используются два типа данных:
1)данные, характеризующие совокупность различных объектов определенный момент времени;
2)данные, характеризующие один объект за ряд последовательных моментов времени.
Модели, построенные по данным первого типа, называются
пространственными моделями.
70