Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги2 / 196

.pdf
Скачиваний:
0
Добавлен:
24.02.2024
Размер:
3.51 Mб
Скачать

2.2. Пример применения факторного анализа и метода главных компонент

графика вклада каждой переменной в структуру, представленную полученными факторами.

Рис. 2.18. Окно выбора опций анализа переменных.

Вследующем окне нам предоставляется возможность выбрать факторы, структуру которых мы будем анализировать (рис. 2.19).

Врезультате открывается окно с диаграммой (рис. 2.20), где все переменные представлены точками на круге диаметром 1, т.к. все корреляции находятся в интервале от 0 до 1. Горизонтальная ось системы координат соответствует фактору 1, вертикальная – фактору 2. В зависимости от знаков координат точки расположены в соответствующих квадрантах плоскости. Представленная диаграмма наглядно свидетельствует, насколько хорошо каждая переменная воспроизводится текущим набором выделенных факторов, – чем ближе переменная к единичной окружности, тем лучше она воспроизведена в выбранной системе координат.

71

Глава 2. Факторный анализ и метод главных компонент в пакете STATISTICA

Рис. 2.19. Окно выбора факторов для анализа

В том же окне (рис. 2.18) нажмем кнопку Contributions variables (вклад переменных). Как следует из полученных данных (рис. 2.21), в первой главной компоненте примерно одинаковые по величине положительные коэффициенты имеют: вес нетто и статистическая стоимость товара. Во второй главной компоненте превалируют код товара по ЕТН ВЭД ТС и страна его происхождения. Аналогично и в третьей главной компоненте. Представленные данные позволяют сделать вывод о том, что распределение исходных данных на пространстве исследуемых признаков достаточно адекватно описывается первыми двумя главными компонентами.

72

2.2. Пример применения факторного анализа и метода главных компонент

Projection of the variables on the factor-plane ( 1 x 2)

Factor 2 : 29,24%

1,0

0,5

Stoim 0,0Ves_Netto

-0,5

 

 

 

 

 

 

 

Kod

Country

 

 

 

 

 

 

 

-1,0

 

 

 

 

 

-1,0

-0,5

0,0

0,5

1,0

Active

 

 

 

 

 

Factor 1 : 47,71%

Рис. 2.20. Распределение исследуемых переменных на пространстве первых двух факторов

Рис. 2.21. Вклад переменных в формирование каждого фактора

Откроем вкладку Cases (наблюдения) для анализа вклада каждого случая (в нашем случае – импортной поставки мясопродуктов) в формирование полученной системы факторов (рис. 2.22).

73

Глава 2. Факторный анализ и метод главных компонент в пакете STATISTICA

Рис. 2.22. Окно выбора опций анализа наблюдений

После нажатия кнопки Plot case factor coordinate, 2D и выбора соответствующих факторов для анализа, мы получаем диаграмму рассеяния всех наших поставок на пространстве первых двух факторов (главных компонент) (рис. 2.23). Наглядно видно, что исследуемая совокупность объектов разделилась на две четко выраженные группы. Причем одну из них формируют шесть наблюдений.

Анализ полученных результатов позволяет определить особенности объектов, входящих в данную группу и отличающих ее от остальных наблюдений.

Наглядно видно, что:

все закупки в данной группе осуществлялись в США;

во всех шести случаях закупались мороженые куриные четвертины;

закупки осуществлялись большими партиями (на порядок больше среднестатистических);

индекс таможенной стоимости поставок был относительно низким.

74

2.2. Пример применения факторного анализа и метода главных компонент

Factor 2: 29,24%

 

Projection of the cases on the factor-plane ( 1 x

 

2)

 

 

Cases with sum of cosine square >= 0,00

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

756641

 

 

 

 

 

 

 

 

182475496340508991129357643

 

 

 

 

 

372760938167264991542390759744806189121532

 

 

 

 

 

 

 

481319983955049608834820706916137572174722

 

 

 

 

36822380170125889094313146479

 

1

 

 

 

 

 

5868694534868617 2

 

 

 

 

 

 

 

5199

 

 

 

 

 

 

 

11954839135758763242090

 

 

 

 

 

337597235698236728058349966891549197187590

 

 

 

 

 

 

 

 

 

88

 

 

 

 

 

 

 

 

195065386295396395766421

 

 

 

 

 

19439219715439423548649103705227384979523766

 

 

 

 

3641

 

47282953323489611550273644219

 

 

 

 

1950775928309

 

 

 

1937

 

 

 

 

 

6

0

 

 

 

 

 

 

 

322196

 

0

 

 

 

 

 

 

 

475511493841472399885378400931628

 

 

 

 

 

 

50381038398406808

 

 

 

 

 

 

 

 

5389497756241

 

 

 

 

 

 

 

4817862504649381906075087371

 

 

 

 

 

 

 

43548984327629406677972122

 

 

 

 

 

 

201184359717552501947926185463498822784552419736

 

 

 

 

 

353918453592772006924960032367

 

 

 

 

 

 

 

2999797

 

 

 

 

 

1717741678133

 

 

 

 

36539

41

072975050

 

 

 

 

 

 

2050551497

 

 

 

 

1767

3622037495310488539352038621879512

 

 

 

12834133719 20

 

 

 

 

 

1135

 

657955351118

 

 

 

24135521

 

 

18392493355021059071226249955685297882037

 

 

 

371164934

76

 

 

884

-1

 

 

 

 

 

12498650283753944126865836453423097

 

 

5524

 

 

 

 

 

 

 

 

 

 

 

2049719525109820877894427

 

 

 

 

 

 

 

 

274457335206500360919928961418297

 

 

 

551920

 

 

 

 

12671314988938321055

 

 

 

 

 

 

 

54375357988

 

 

1133

 

 

 

 

 

374471551736004

 

 

 

 

 

 

 

239112262076675583028

 

 

1128

 

 

 

 

 

5484469708634

 

 

 

 

 

 

 

1

 

 

3703

 

 

 

 

 

2918

 

 

 

 

 

 

2044472512523401

 

 

 

 

 

1998

547848628272612

 

 

 

 

 

 

 

 

34933975384681697459095142

-2

 

 

 

 

 

20084637518550492748792

 

 

 

 

 

 

27

3163

 

3657

 

 

 

 

 

 

5152448845336669

 

5522

 

 

 

 

 

 

541875057

 

 

 

 

 

 

 

297487768270593982767

 

 

 

 

 

 

 

 

4155733414098

 

 

 

 

 

 

 

 

173652394887743900436052

 

 

 

 

 

 

 

 

2015483869

 

 

 

 

 

 

198136447512363387

 

 

 

 

 

 

 

 

428

 

-3

 

 

 

 

 

 

 

 

51133257

 

 

 

 

 

 

 

5152864966

 

 

 

 

 

 

 

 

378512974398237650954408610718

 

 

 

 

 

 

 

 

 

393316

 

 

 

 

 

 

 

 

 

709355

-4

5523

 

 

 

 

 

1945

 

 

 

 

 

 

 

464392946018

 

 

 

 

 

 

 

 

20

 

-5

 

 

 

 

 

 

 

 

 

 

-6

 

 

 

 

 

 

 

 

 

 

-70

-60

-50

-40

-30

-20

-10

0

10

20

Active

 

 

 

 

 

 

 

 

 

 

Factor 1: 47,71%

Рис. 2.23. Диаграмма распределения исследуемых закупок на площади первых двух факторов (главных компонент)

Более детальный анализ данных позволяет выявить еще одну интересную особенность – данные закупки осуществлялись у двух относительно малоизвестных фирм-поставщиков (ФУТУРЕ ИНТЕРНЕШНЛ ИНК. и ГЛОБАЛ ТРЕЙДИНГ РЕСОУРС КОРП по поручению «ИНТЕРФУДС ГМБХ»), которые выступают в качестве поставщиков всего 6 и 4 раза, соответственно (из 5528 рассматриваемых поставок).

Таким образом, относительно низкий индекс таможенной стоимости, малоизвестность фирм-поставщиков, большие объемы закупок по заведомо заниженным ценам позволяют предположить высокий риск данных закупок и, возможно, низкое качество товара.

Для своевременного выявления таких рискованных закупок представляется необходимым разработать решающее правило, позволяющее моментально спрогнозировать высокий риск поставок и провести их более детальную экспертизу.

75

Глава 2. Факторный анализ и метод главных компонент в пакете STATISTICA

Контрольные вопросы и задания по главе 2

1.В чем состоит различие понятий «общий фактор» и «элементарный признак»?

2.Как определить достаточное число факторов для характеристики изучаемого явления или процесса?

3.Какие особенности должны быть учтены, если для проведения анализа выбирается метод главных компонент?

4.Что подразумевается под ортогональным и косоугольным факторными решениями?

5.Какие алгоритмические шаги выполняются при реализации метода главных компонент?

6.Чем объясняется возможность факторного отображения множества элементарных признаков?

7.Что означает «простая структура» фактора?

76

ГЛАВА 3. ДИСКРИМИНАНТНЫЙ АНАЛИЗ

ВПАКЕТЕ STATISTICA

3.1.Понятие о дискриминантном анализе

Дискриминантный анализ является разделом многомерного статистического анализа, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Дискриминантный анализ – это общий термин, относящийся к нескольким тесно связанным статистическим процедурам. Эти процедуры можно раз-

делить на методы интерпретации межгрупповых различий – дискримина-

ции и методы классификации наблюдений по группам. При интерпретации нужно ответить на вопрос: возможно ли, используя данный набор переменных, отличить одну группу от другой, насколько хорошо эти переменные помогают провести дискриминацию и какие из них наиболее информативны?

Методы классификации связаны с получением одной или нескольких функций, обеспечивающих возможность отнесения данного объекта к одной из групп. Эти функции называются классифицирующими и зависят от значений переменных таким образом, что появляется возможность отнести каждый объект к одной из групп.

Можно выделить следующие предпосылки применения дискриминационного анализа:

1.Наблюдения принадлежат к двум или более числу классов.

2.В каждом классе имеется как минимум два наблюдения.

3.Число дискриминантных переменных не должно быть больше количества наблюдений минус 2.

4.Дискриминантные переменные измеряются в шкале интервалов или шкале отношений.

5.Дискриминантные переменные должны быть линейно независимы.

6.Дискриминантные переменные должны распределяться по многомерному нормальному закону распределения.

7.Ковариантные матрицы классов приблизительно равны друг дру-

гу.

Задачи дискриминантного анализа можно разделить на три типа. Задачи первого типа часто встречаются в медицинской практике. Допустим, что мы располагаем информацией о некотором числе индивидуумов, болезнь каждого из которых относится к одному из двух или более диагно-

77

Глава 3. Дискриминантный анализ в пакете STATISTICA

зов. На основе этой информации нужно найти функцию, позволяющую поставить в соответствие новым индивидуумам характерные для них диагнозы. Построение такой функции и составляет задачу дискриминации.

Второй тип задач относится к ситуации, когда признаки принадлежности объекта к той или иной группе потеряны, и их нужно восстановить. Примером может служить определение пола давно умершего человека по его останкам, найденным при археологических раскопках.

Задачи третьего типа связаны с предсказанием будущих событий на основании имеющихся данных. Такие задачи возникают при прогнозе отдаленных результатов лечения, например прогноз выживаемости оперированных больных.

Целью задачи дискриминации является изучение основных процедур дискриминантного анализа: дискриминации и классификации, построение и определение количества дискриминантных функций и их разделительной способности, нахождение классифицирующих функций.

Проблема классификации возникает, когда исследователь делает некоторое число измерений, связанных с каким-то индивидуумом, и на основе этих измерений хочет отнести его к одной из нескольких категорий. Он не может непосредственно определить категорию, к которой относится индивидуум, и вынужден использовать эти измерения. Во многих случаях можно предположить, что имеется конечное число категорий или генеральных совокупностей, из которых мог быть взят рассматриваемый индивидуум, причем каждая из этих категорий характеризуется определенным законом распределения вероятностей для измерений. Таким образом, индивидуум рассматривается как случайное наблюдение над этой генеральной совокупностью. Вопрос ставится так: как по результатам измерений определить, из какой генеральной совокупности взят данный индивидуум.

Проблему классификации можно рассматривать как проблему статистических решающих функций. Имеется несколько гипотез, каждой из которых соответствует свое распределение вероятностей для наблюдений. Мы должны принять одну из этих гипотез и отвергнуть остальные. Если множество допустимых генеральных совокупностей состоит лишь из двух генеральных совокупностей, то рассматриваемая задача является элементарной задачей проверки одной гипотезы, соответствующей определенному распределению вероятностей, при одной конкурирующей гипотезе.

78

3.1.Понятие о дискриминантом анализе

Водних случаях категории определены заранее тем, что полностью известны распределения вероятностей измерений. В других вид каждого распределения известен, но неизвестны параметры этих распределений, которые и должны быть оценены по выборке из генеральной совокупности.

Что представляет собой дискриминантная функция? В качестве дискриминантной чаще всего берется линейная функция

Z = C1X1 + C2X2 + … + CmXm,

где Х1, Х2, …, Хm – значения признаков у данного объекта; С12,…,Сm – дискриминантные множители.

Посредством дискриминантных множителей выполняем переход от m-мерного пространства первичных показателей к одномерному пространству.

Линейную функцию можно рассматривать как проекцию данного объекта на некоторую (одномерную) дискриминантную ось.

В процедуре дискриминантного анализа дискримиантные множители определяются таким образом, чтобы обеспечить наибольшее различие между проекциями первой и второй выборок на дискриминантной оси.

Дискриминантный анализ желательно проводить с использованием минимального количества функций. Их количество зависит от конфигурации классов в многомерном пространстве дискриминантных переменных. Чтобы определить, сколько функций необходимо, используют проверку их на значимость. Для оценки значимости используют или А-статистику Уилкса или кси-квадрат.

Критериальное значение Уилкса вычисляют по формуле:

где К – количество классов, k – число уже вычисленных дискриминационных функций.

Чем ближе значения критерия к 0, тем лучше различия классов. А чем ближе к 1, тем различие хуже.

Значение χ2 (кси-квадрат) рассчитывают по формуле:

79

Глава 3. Дискриминантный анализ в пакете STATISTICA

где р – количество членов в дискриминационной функции, исключая свободный член.

Если это значение больше критического с заданным уровнем значимости и числом степеней свободы, то значимость подтверждается.

Рассмотрим критерии отбора переменных для дискриминантного анализа. При решении многих задач целью может быть поиск полезного множества переменных. Для этой цели придумано много различных стратегий. Не существует единой процедуры выбора наилучшего множества предикторов, как нет и идеального критерия качества найденного множества. В дискриминантном анализе, как и в множественной регрессии, используются разные методы отбора переменных. Например, пошаговый отбор Forward stepwise в программе STATISTICA начинается с нахождения переменной, средние которой различаются больше всего. Затем продолжают шаг за шагом отбираться следующие наилучшие в этом смысле переменные. При отборе переменных используются следующие индикаторы.

Wilks' lambda (Лямбда Уилкса). Для каждого кандидата-предиктора вычисляется F-статистика, определяющая изменение лямбды Уилкса при включении этой переменной в модель. В модель включают переменную с наибольшим F (или наименьшим значением лямбды Уилкса). F-значение для изменения в лямбде Уилкса при включении переменной в модель, содержащую р независимых переменных, равно:

где p – общее число наблюдений, g – число групп, λp лямбда Уилкса до включения переменной, λ p +1 лямбда Уилкса после включения.

Mahalonobis distance (Расстояние Махалонобиса). На каждом шаге вводится переменная, максимизирующая расстояние Махаланобиса между ближайшими групповыми центрами.

Smallest F ratio (Наименьшее F-отношение). На каждом шаге вводится переменная, максимизирующая наименьшее F-отношение.

Rao's V. Этот индикатор известен также как след Лоули-Хотеллинга (Lawley-Hotelling). Oн определяется формулой:

80

Соседние файлы в папке книги2