Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 639

.pdf
Скачиваний:
5
Добавлен:
30.04.2022
Размер:
3.05 Mб
Скачать

Рис. 65. Диалоговое окно с результатами анализа дискриминантных функций

Рис. 66. Матрица классификации

По данной матрице можно сделать вывод, что все объекты в обучающей выборке классифицированы правильно, т. к. все коэффициенты корректности (Percent correct) равны 100%. Кроме этого, в верхней части таблицы показываются вычисленные априорные вероятности того, что наблюдение при классификации попадет в одну из двух имеющихся групп. Эти значения могут существенно влиять на точность классификации. Поскольку в рассматриваемом примере не

91

заданы никакие предварительные сведения о возможном количественном соотношении наблюдений в группах, то в диалоговом окне с результатами анализа дискриминантных функций необходимо установить флажок Априорные вероятности классификации / Одинаковые для всех групп (A priori classification probabilities / Same for all groups).

В случае наличия неправильно классифицированных объектов их можно просмотреть в других таблицах, например, в таблице Квадраты расстояний Махаланобиса (Squared Mahalanobis distances), где они были бы отмечены знаком «*» (рис. 67).

Рис. 67. Фрагмент таблицы Квадраты расстояний Махаланобиса

Данная таблица наглядно показывает, что каждое наблюдение относится к той группе, расстояние до центра которой меньше.

Для классификации новых наблюдений могут быть использованы Функции классификации (Classification functions) (рис. 68).

92

Рис. 68. Коэффициенты для дискриминантных функций

На основании этой таблицы можно записать следующие дискриминантные функции для каждой группы:

F1 6.383x1 5.770x2 5.522x3 0.008x4 394.136, F2 9.403x1 6.436x2 6.312x3 0.007x4 515.521.

В дальнейшем для определения принадлежности нового наблюдения к какой-либо группе необходимо вычислить значения функций, подставив в них вместо переменных x1, x2, x3, x4 значения признаков Средний балл, Средний балл

ЕГЭ при поступлении, Посещаемость, Средняя стипендия, соответственно. Наблюдение следует отнести к той группе, для которой значение дискриминантной функции будет больше.

3. ЛАБОРАТОРНОЕ ЗАДАНИЕ

Задание 1. Выбрать для исследования группу из 30-40 объектов и минимум 4 признака, их характеризующих, и найти или задать самостоятельно значения признаков для каждого объекта.

Задание 2. Выполнить иерархический кластерный анализ и раздельный кластерный анализ методом k-средних.

Задание 3. Сделать выводы о различии элементов разных кластеров, используя не только рассмотренные в примере, но и другие, предлагаемые в окне с результатами анализа.

93

Задание 4.

Проверить

качество

кластеризации

с

помощью дискриминантного анализа.

 

 

Задание 5.

Найти или

придумать

самостоятельно

4

новых наблюдения и провести их классификацию с помощью дискриминантных функций.

4.УКАЗАНИЯ ПО ОФОРМЛЕНИЮ ОТЧЕТА

Отчет должен содержать:

- наименование и цель работы; - краткие теоретические сведения;

- задание на лабораторную работу; - результаты выполнения лабораторной работы.

5.КОНТРОЛЬНЫЕ ВОПРОСЫ

1.Что такое кластерный анализ? Что такое дискриминантный анализ? Чем они отличаются?

2.Какие методы используются для разделения исследуемых объектов на кластеры?

3.Как выполнить кластерный анализ в системе

STATISTICA?

4.Как провести классификацию новых наблюдений с помощью методов дискриминантного анализа?

94

Лабораторная работа №7 ФАКТОРНЫЙ АНАЛИЗ ДАННЫХ С ПОМОЩЬЮ

ПАКЕТА STATISTICA

1. ОБЩИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

1.1. Цель работы

Изучение основных понятий факторного; получение практических навыков нахождения главных компонент в пакете STATISTICA.

1.2. Используемое оборудование и программное обеспечение

Для выполнения лабораторной работы требуется ПЭВМ типа IBM PC с установленной ОС Windows XP и выше, пакет STATISTICA 10 или последующих версий.

2. МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

2.1. Основные понятия факторного анализа

Факторный анализ – статистический метод, применяемый для изучения влияния различных факторных признаков и их комбинаций на исследуемый объект и определения наиболее значимых переменных.

Задачами факторного анализа являются:

-редукция данных – сокращение числа первоначально взятых признаков путем выделения наиболее значимых переменных;

-выявление структуры взаимосвязей между переменными, в частности выявление групп взаимосвязанных переменных;

-классификация и систематизация факторных признаков путем построения новых обобщенных показателей.

Основную задачу факторного анализа можно сформулировать следующим образом: определить

95

минимальное число k линейно независимых факторов, после учета которых все остаточные корреляции между исходными признаками должны стать незначимыми.

Разработано несколько методов решения задачи факторного анализа, самым распространенным из которых является метод главных компонент, состоиящий в построении факторов – главных компонент, каждая из которых представляет линейную комбинацию исходных признаков. Первая главная компонента F1 определяет такое направление в пространстве исходных признаков, по которому совокупность объектов имеет наибольший разброс (дисперсию). Вторая главная компонента F2 строится так, чтобы ее направление было ортогонально направлению F1 и она объясняла как можно большую часть остаточной дисперсии и т.д. вплоть до компоненты Fm . Достаточное число факторов k определяется обычно на основе заранее заданного уровня объясняемой фактором дисперсии исходных признаков.

2.2. Пример выполнения факторного анализа в системе STATISTICA

Проведем анализ влияния факторных переменных для примера из лабораторной работы №6. Выполним команду Анализ / Многомерный разведочный анализ / Факторный анализ (Statistics / Multivariate exploratory techniques / Factor Analysis). В диалоговом окне ввода исходных данных (рис. 69) необходимо выбрать для анализа переменные Средний балл, Средний балл ЕГЭ при поступлении, Посещаемость, Средняя стипендия.

Диалоговое окно с результатами анализа (рис. 70) позволяет просмотреть основную итоговую информацию.

96

Рис. 69. Входные параметры факторного анализа

Рис. 70. Диалоговое окно с результатами факторного анализа

На вкладке Дополнительно данного окна можно выбрать метод факторного анализа (по умолчанию – метод

97

главных компонент – Principal components), установить максимальное число главных компонент (Max. no. of factors) и минимальный уровень собственного значения компонент (Min. eigenvalue). Для более наглядной работы метода установим максимально допустимое число главных компонент (в рассматриваемом примере 4) и минимальное собственное число – 0.

Диалоговое окно с основными результатами факторного анализа приведено на рис. 71.

Рис. 71. Диалоговое окно с результатами факторного анализа

Таблица Собственные значения (Eigenvalues) (рис. 72) содержит для каждой главной компоненты собственные числа, отражающие долю соответствующей ей общей дисперсии. Собственные значения в таблице показаны в порядке убывания, отражая тем самым важность главных компонент для объяснения вариации исходных данных. По данной

98

таблице видно, что 83.3% дисперсии объясняется влиянием первой компоненты.

Рис. 72. Собственные значения главных компонент

Список Вращение факторов (Factor rotation) позволяет задавать различные способы вращения исходной системы координат, по умолчанию имеет значение Без вращения

(Unrotated).

Для просмотра степени корреляции главных компонент и исходных факторов открыть таблицу Итоги: Факторные нагрузки (Summary: Factor loadings) (рис. 73)

Рис. 73. Значения факторных нагрузок для главных компонент

По данной таблице можно сделать вывод, что со всеми исходными факторами очень сильно коррелирует первая главная компонента (Factor 1), причем сильнее всего эта компонента связана с показателем Средний балл. Остальные

99

главные компоненты можно не рассматривать, т.к. их связь с исходными факторами очень слаба.

Факторные нагрузки можно изобразить графически с помощью команды 2М график нагрузок (Plot of factor loadings, 2D) (рис. 74).

Рис. 74. График факторных нагрузок

Как видно из рисунка, переменные Средний балл и Средняя стипендия располагаются рядом, следовательно, их можно объединить в один обобщенный показатель.

Достаточное число главных компонент можно определить графически с помощью графика каменистой осыпи (Scree plot) (рис. 75). На графике необходимо найти число собственных значений (точек), после которых значения практически не изменяются. В рассматриваемом примере можно ограничиться одной главной компонентой.

Если анализ факторов без их вращения не позволяет сделать какие-либо однозначные выводы о главных компонентах и о их связи с исходными факторами, то можно

100