Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

эконометрика с косяками

.pdf
Скачиваний:
8
Добавлен:
03.05.2015
Размер:
1.55 Mб
Скачать

здесь 1,2

(2 4)2 (10 7)2

3.61,

Минимальный элемент – 2.24, поэтому объединяем 4 и 5 кластеры. Перепишем матрицу расстояний:

1,(4,5) min{ 1,4 , 1,5} min{10.05,11.05} 10.05

,

Объединяем 1 и 2 кластеры (почему?).

(1,2)3 min{ 1,3 , 2,3} min{7.21, 4.12} 4.12 ,

(1,2)(4,5) min{ 1(4,5) , 2(4,5) } min{10.05,8.94} 8.94

61

Новая матрица расстояний:

Минимальное расстояние между S(1,2) , S3 , поэтому их и объединяем, получаем

S(1,2,3) S(1,2) S3 , S(4,5) . Мы хотели получить

два кластера – мы их получили.

(Это – S(1,2,3) , S(4,5) )

Процесс объединения удобно изобразить графически – в виде дендрограммы:

Последнее объединение (все - в один кластер) мы, естественно, не производили.

62

Пример 7

Структура семейных расходов. Лаб.раб.№10, с.87

1.Введите данные.

Получите результаты, совпадающие с тем, что получилось в рассмотренном примере.

Сравните дендрограммы полученую вами в StatGraphics и ту, которая была нарисована в разобранном примере.

Они полностью совпали?

2. Измените ближнего соседа на дальнего – что изменилось? А если взять метод Варда?

63

3. Зависит ли результат от выбора расстояния между объектами?

Заметим, что если результаты классификации, полученные разными методами совпадают, то это подтверждает реальное существование групп (надежность, достоверность).

Элементы дискриминантного анализа

Пусть имеется совокупность объектов X i , каждый из которых описывается

набором из k признаков. Предположим, что все объекты разбиты на кластеры ( разбиение м.б. получено в результате кластерного анализа, либо в результате работы эксперта). Нам предъявляют

новый объект X 0 .

Задача дискриминантного анализа состоит в том, чтобы предложить правило, которое позволило бы отнести новый объект к одному из существующих кластеров.

64

Все методы дискриминантного анализа делятся на две большие группы: непараметрические и параметрические.

При использовании непараметрических методов решается некоторая задача разделения нескольких множеств и она сводится, как правило, к некоторым задачам линейного программирования.

В статистике используется другой подход – параметрический.

Пусть мы имеем объекты, разбитые на

два кластера S1, S2 . Объекты, попавшие в

первый кластер, мы будем интерпретировать как значение k-мерной

случайной величины X1 с известной

плотностью распределения f1 ( X ) , объекты

попавшие во второй кластер – это значения случайной величины X 2 с плотностью f2 ( X ) .

Один из самых простых вариантов решения поставленной задачи таков:

АЛГОРИТМ:

если f1 ( X0 ) f2 (X0 ) , то X0 S1 иначе – X0 S2

65

Откуда взять плотности распределения?

Чаще всего предполагают, что наши k-мерные случайные величины имеют нормальное распределение с плотностью

f X , m, D

1

 

 

 

 

 

1

X m T

D 1 X m

 

 

 

 

 

 

 

 

 

 

e 2

 

 

2 k 2

 

D

 

1 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Здесь

 

 

(1)

 

 

 

 

m

 

 

 

 

m

m(2)

 

, m

(i)

 

 

 

 

 

...

 

 

 

 

 

 

 

 

 

 

m(k )

 

 

 

 

 

 

 

 

MXi

- вектор матожиданий,

D{ ij }, ij cov( Xi , X j )

-матрица ковариаций.

( стрелки над X далее - опускаем)

Если

f1 (X ) f X , m1, D1 и f2 (X ) f X , m2 , D2

( в качестве математических ожиданий и элементов матриц ковариации будем использовать их выборочные оценки)

66

известны, то описанный выше алгоритм можно использовать.

Предположение Фишера: D1 D2

(т.е. матрицы ковариаций различаются несущественно)

Если предположении Фишера справедливо, то неравенство, которое используется в нашем алгоритме становится линейным .

Действительно:

 

 

1

 

 

 

 

 

 

 

 

 

 

 

1

X m1 T D 1 X m1

 

 

 

 

 

 

 

 

 

 

 

 

e

2

 

 

2 k 2

 

D

 

1 2

 

 

1

 

 

 

 

 

 

 

 

 

 

 

X m2 T

D1 X m2

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

e

 

 

 

 

 

 

2 k 2

 

D

 

1 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X m1 T D 1 X m1 X m2 T D 1 X m2

X T D 1 X m1T D 1 X X T D 1m1 m1T D 1m1

X T D 1 X m2T D 1 X X T D 1m2 m2T D 1m2

2(m2 m1 )T D 1 X m2T D 1m2 m1T D 1m1

67

X 0 S2
D1 D2
f2 ( X ) f
f1 ( X 0 ) f2 ( X 0 )

aT X c

!!! Суммарные потери от ошибочной классификации минимальны !!!

k

 

i

– априорная вероятность отнесения объекта к i-классу,

i fi X 0

c j : i min

fi

X 0 – функция плотности вероятности для i-класса,

i 1

j

c j : i – потери от неправильной классификации

 

 

 

i j

 

 

j-классу отнесли объект i-класса).

 

 

 

 

 

Если случай равных потерь c j : i c0 const , задача упрощается: j f j X 0

max .

Если случай одинаковых вероятностей 1 ... k 1 k , задача: f j X 0

j

max .

 

 

 

 

j

Если неизвестны параметры законов распределения, находим их из обучающих выборок, и задача сводится к предыдущей. Если обучающие выборки взяты случайным образом из генеральной совокупности, априорные вероятности

j n j n j .

## Данные по 20 фирмам, уклоняющимся и не уклоняющимся от уплаты налогов:

уклоняются

 

не уклоняются

 

 

x

1

 

x

2

 

 

 

 

x 1

 

x

2

 

 

 

 

1i

 

1i

 

 

 

 

2i

 

 

2i

 

 

 

 

740

 

680

 

 

 

 

750

 

 

590

 

 

 

 

 

670

 

600

 

 

 

 

360

 

 

600

 

 

 

 

 

560

 

550

 

 

 

 

720

 

 

750

 

 

 

 

 

540

 

520

 

 

 

 

540

 

 

710

 

 

 

 

 

590

 

540

 

 

 

 

570

 

 

700

 

 

 

 

 

 

 

 

 

 

 

 

520

 

 

670

 

 

 

 

 

590

 

700

 

 

 

 

 

 

 

 

 

 

 

560

 

540

 

 

 

 

590

 

 

790

 

 

 

 

 

 

 

 

 

 

 

 

 

 

670

 

 

700

 

 

 

A1 607

 

590

 

 

 

 

 

 

 

 

 

620

 

 

730

 

 

 

 

 

 

4449

2929

 

 

 

 

 

 

 

 

 

 

 

690

 

 

840

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

610

 

 

680

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2929

4543

 

 

 

 

 

 

 

 

 

 

 

 

 

 

550

 

 

730

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

 

590

 

 

750

 

 

 

X 0 560

 

 

 

 

 

 

 

 

 

 

 

 

600

2

598

 

711

 

 

 

 

 

 

 

 

 

 

 

9351

1970

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4346

 

 

 

 

 

 

 

 

 

 

 

 

1970

 

Многомерный нормальный закон:

f X , m, D

1

 

 

 

 

e

1

X m T D 1 X m

 

 

 

 

2

2 k 2

 

D

 

1 2

 

 

 

 

 

 

min S1 , S2

min

 

d X i , X j

 

Xi S1 , X j S2

 

 

 

X 2

X , m2 , D2

1

 

 

 

 

 

1

X m1 T

D 1 X m1

 

 

 

1

 

 

 

 

 

 

1

X m2 T D 1 X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

e 2

 

 

 

 

 

 

 

 

 

 

e

 

2

 

 

2 k 2

 

D

 

1 2

 

 

 

2 k 2

 

D

 

1 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

at

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X m

 

T D 1 X m

 

X m

T

D 1

X m

 

 

1

 

 

 

 

 

 

1

 

 

2

 

 

 

 

 

 

 

 

2

 

X T D 1 X m T D 1 X X T D 1m m T D 1m

 

 

 

 

 

 

 

 

 

1

 

 

 

 

1

 

1

 

 

1

 

 

 

 

 

X T D 1 X m T D 1 X X T D 1m m T D 1m

 

 

 

 

 

 

 

 

 

2

 

 

 

 

2

2

 

 

 

 

2

 

 

 

 

aT X c

f ( X ) f X , m , D

 

 

1

 

 

 

1

X m T 1 X m

 

 

 

 

 

 

 

 

 

 

e 2

 

 

2

 

 

 

 

1

 

 

 

 

 

 

1 1

 

 

k 2

 

1 2

 

 

 

Пример 8 (файл GROWTH.sf )

 

D

 

 

 

 

 

 

 

 

 

 

 

D { ij }, ij

cov( X i , X j )

 

 

 

 

 

 

 

m(1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

68

m(2)

 

, m

(i )

MX

 

 

 

 

 

 

 

 

 

m

...

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

(k )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Лаб.раб№12, описание примера – с.90(Лаб.№10)

Рассмотрим задачу о рынке ценных бумаг (проблему оценки различных фондов, оперирующих этими бумагами).

Будем исследовать 16 известных инвестиционных фондов для оценки их состояния.

В качестве переменных используются следующие характеристики:

доходность за пятилетний период

FiveYr,

Risk риск,

Perf90, Perf91, Perf92, Perf93, Perf94

ежегодный процент дохода (для каждого года),

Expence расходная часть и

Tax — налоговые рейтинги.

В переменной Recommed даны рекомендации эксперта о том, что делать с акциями данных фондов:

69

Buy – покупать, Hold – держать, Sell –

продавать.

По последним четырем фондам рекомендации эксперта нет. Используя методы дискриминантного анализа, получите эти рекомендации.

Временные ряды

При построении эконометрической модели используются два типа данных:

1)данные, характеризующие совокупность различных объектов определенный момент времени;

2)данные, характеризующие один объект за ряд последовательных моментов времени.

Модели, построенные по данным первого типа, называются

пространственными моделями.

70