Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курс лабораторных работ 2003.docx
Скачиваний:
77
Добавлен:
12.03.2015
Размер:
8.67 Mб
Скачать
      1. Коэффициент корреляции Спирмена

При расчете коэффициента корреляции Пирсона для индекса реального валового внутреннего продукта (ВВП) на душу населения и индекса уровня образования и общественного развития мы столкнулись с тем, что значения этих признаков не были распределены нормально (рис. 5 .104). В подобных ситуациях применение коэффициента Пирсона может приводить к выводам, не соответствующим действительности. Вместо него следует воспользоваться одним из непараметрических коэффициентов корреляции. Из последних наиболее обычен ранговый коэффициент корреляции Спирмена. Рассчитаем его для тех же данных. Для этого необходимо выполнить следующее:

  1. Запустить модуль «Nonparametric correlations» (Непараметрические корреляции) из меню «Statistics/Nonparametrics/Correlations» (Spearman, Kendall tau, gamma) (Корреляции (Спирмена, тау Кендалла, гамма)).

  2. В появившемся окне нажать на кнопку «Variables» и выбрать столбцы, содержащие необходимые данные.

  3. Нажать кнопку «Spearman R». Появится таблица с результатами анализа (рис. 5 .106), которая содержит столбцы Valid N (число наблюдений), Spearman R (коэффициент корреляции Спирмена), t(N-2) (значение критерия Стьюдента для числа степеней свободы n-2), и Р (вероятность ошибки для нулевой гипотезы об отсутствии связи между признаками). В нашем примере коэффициент корреляции Спирмена оказался несколько ниже рассчитанного ранее коэффициента Пирсона (0,591214 против 0,628649). При этом он является в высокой степени статистически значимым (Р < 0,05).

Рисунок 5.106. Корреляционная матрица по критерию Спирмена

    1. Факторный анализ

Главными целями факторного анализа являются сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных, или как метод классификации переменных.

Сокращение достигается путем выделения скрытых общих факторов, объясняющих связи между наблюдаемыми факторами (переменными) объекта, т.е. вместо исходного набора переменных появится возможность анализировать данные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных.

Факторный анализ производится при помощи модуля «Statistics/Multivariate Exploratory/ Factor Analysis».

В диалоговом окне этого модуля (рис. 5 .107) при помощи кнопки «Variables» указываются переменные для анализа (ID_BIRTH,ID_EDUCATION,ID_POVERTY,ID_UNEMPLAYMENT,ID_VVP,ID_DEVELOPMENT). Теперь можно начать анализ по выявлению главных факторов, влияющих на качество жизни населения.

В поле «Input file» указывается тип файла с данными:

  1. Raw Date - данные в виде строчной таблицы.

  2. Correlation Matrix - данные в виде корреляционной матрицы.

Рисунок 5.107. Диалоговое окно «FactorAnalysis»

В поле «MD deletion» указывается способ исключения из обработки недостающих данных:

  1. Casewise - игнорируется вся строка, в которой есть хотя бы одной пропущенное значение/

  2. Mean substitution - взамен пропущенных данных подставляются средние значения переменных.

  3. Pairwise - попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется.

ППП Statistica обработает пропущенные значения тем способом, какой указан, вычислит корреляционную матрицу и предложит на выбор несколько методов факторного анализа.

Вычисление корреляционной матрицы (если она не задается сразу) – первый этап факторного анализа.

После щелчка по кнопе «OK» можно перейти к следующему диалоговому окну – «DefineMethodofFactorExtraction» (Определить метод выделения факторов) (рис. 5 .108).

Рисунок 5.108. Диалоговое окно «Define Method of Factor Extraction»

Данное окно имеет структуру, описанную ниже.

Верхняя часть окна является информационной: здесь сообщается, что пропущенные значения обработаны методом «Casewise». Обработано 55 случаев и 55 случаев приняты для дальнейших вычислений. Корреляционная матрица вычислена для 6 переменных.

Группа опций, объединенных под заголовком «Extraction method» (Методы выделения факторов) – позволяет выбрать метод обработки:

  1. «Principal components» (метод главных компонент) – позволяет выделить компоненты, работая с первоначальной матрицей корреляций.

  2. «Communalities=multiple » (общности как множественный) – на диагонали матрицы корреляций будут находиться оценки квадрата коэффициента множественной корреляции-(соответствующей переменной со всеми другими переменными).

  3. «Iterated communalities (MINRES)» (метод минимальных остатков) – выполняется в два этапа. Сначала оценки квадрата коэффициента множественной корреляции-используются для определения общностей, как в предыдущем методе. После первоначального выделения факторов метод корректирует их нагрузки с помощью метода наименьших квадратов с целью минимизировать остаточные суммы квадратов.

  4. «Maximum likelihood factors» (метод максимального правдоподобия) – в этом методе считается заранее известным число факторов (оно устанавливается в поле ввода максимального числа факторов). ППП Statistica оценит нагрузки и общности, которые максимизируют вероятность наблюдаемой в таком случае матрицы корреляций. В диалоговом окне результатов анализа доступен тест для проверки справедливости принятой гипотезы о числе общих факторов.

  5. «Centroid method2 (центроидный метод) – основан на геометрическом подходе.

  6. «Principal axis method» (метод главных осей) – основан на итеративной процедуре вычисления общностей по текущим собственным значениям и собственным векторам. Итерации продолжаются до тех пор, пока не превышено максимальное число итераций или минимальное изменение в общностях больше, чем это определено в соответствующем поле (см. ниже).

«Max. no. of factors» (Максимальное число факторов). Заданное в этом поле число определяет, сколько факторов может быть выделено при работе рассмотренных выше методов. Это поле работает вместе с полем «Min. Eigenvalue» (Минимальное собственное значение). Часто при заполнении этого поля руководствуются критерием Кайзера, который рекомендует использовать лишь те факторы, для которых собственные значения не меньше 1 или Критерий каменистой осыпи (Scree-test). Процедура выбора числа факторов описана в п.5.4.1.

Остальные поля доступны только при выбранном методе «Centroid method» (Центроидный метод) или «Principal axis method» (Метод главных осей), и определяют необходимые для успешного выполнения последовательных итераций параметры минимального изменения в общностях и максимального числа итераций.

В окне «DefineMethodofFactorExtraction» (Определить метод выделения факторов) по кнопке «Reviewcorrelations,means,standartdeviations» (Просмотреть корреляции /средние/стандартные отклонения) на вкладке «Descriptives» можно посмотреть средние, стандартные отклонения, корреляции, ковариации, построить различные графики.

Рисунок 5.109. Диалоговое окно «Review Descriptive Statistics»

По кнопке «Correlations» (Корреляции) (рис. 5 .109). отображается на экране корреляционная матрица выбранных ранее переменных.

Рисунок 5.110. Корреляционная матрица

В окне «DefineMethodofFactorExtraction» (Определить метод выделения факторов) на вкладке «Advanced» по кнопке «OK» можно просмотреть результаты факторного анализа выбранного метода

Рисунок 5.111. Диалоговое окно «Factor Analysis Results»

В верхней части окна «FactorAnalysisResults» дается информационное сообщение:

  1. «Numberofvariables» – Число анализируемых переменных 6;

  2. «Method» – Метод анализа: Основные (главные) компоненты;

  3. «log(10)determinationofcorrelationmatrix» – Десятичный логарифм детерминанта корреляционной матрицы: -4,4166;

  4. «Number of factor extraction» – Число выделенных факторов: 2;

  5. «Eigenvalues» – Собственные значения: 2,42518 и 1,96107.

В нижней части окна находятся подразделы, позволяющие всесторонне просмотреть результаты анализа численно и графически.

Опция «Factor rotation» – помогает выбрать различные повороты осей, т.е. вращать факторы. Если пространство общих факторов найдено, то с помощью поворота системы координат в принципе можно получить бесчисленное множество решений. Но такое количество решений неразумно, поэтому важно найти интерпретируемое решение.

Возможны следующие методы поворотов:

  1. Варимакс – Varimax.

  2. Биквартимакс – Biquartimax.

  3. Квартимакс – Quartimax.

  4. Эквимакс – Equamax.

Дополнительный термин в названии: нормализованные («normalized») – указывает на то, что факторные нагрузки в процедуре нормализуются, т.е. делятся на корень квадратный из соответствующей общности; и необработанныеraw»)– исходные тип данных, который показывает, что вращаемые нагрузки не нормализованы.

Например, если оставить факторные нагрузки неизменные, т.е. не поворачивать, выбрав опцию «Factorrotation» - «Unrotated» и нажав на кнопку «PlotofLoadings2D» (Двумерный график нагрузок), и можно посмотреть результаты факторного анализа на графике.

Рисунок 5.112. Факторное решение без поворота

Щелкнув на кнопку «Summary» можно просмотреть нагрузки численно.

Рисунок 5.113. Таблица факторных нагрузок

Рассматривая графическое решение, трудно сделать интерпретацию, не понятно, какой смысл придать двум выделенным факторам и как в этих терминах описывать показатели качества жизни.

В так случаях следует использовать поворот осей, надеясь получить решение, которое можно интерпретировать в предметной области.

Если поле «Factorrotation» выбрать «Varimaxnormalized», система произведет вращение факторов методом нормализованного варимакса. По кнопкк «Plot of Loadings 2D» – Двумерный график нагрузок), на экране появится двумерный график нагрузок:

Рисунок 5.114. Факторное решение после поворота осей

По кнопке «Summary» можно посмотреть нагрузки численно.

Рисунок 5.115. Таблица факторных нагрузок после поворота осей

Теперь полученное решение можно интерпретировать. Система выделила два общих фактора «Factor1» и «Factor2». «Factor1» отвечает за уровень образования (ID_EDUCATION – индекс уровня образования), а «Factor2» – за уровень жизни со следующими показателями: ID_UNEMPLAYMENT – индекс уровня безработицы и ID_BIRTH – индекс ожидаемой продолжительности при рождении.

Глядя на полученные результаты, можно сделать вывод, что уровень качества жизни населения определяется двумя факторами: уровнем образования в стране и социальными показателями такими, как безработица и продолжительность жизни населения.

Для того что бы посмотреть полученный результат, используя другие характеристики факторного анализа, необходимо:

  1. В диалоговом окне «FactorAnalysisResults» на вкладке «Explainedvariance» (Объяснимая дисперсия) по кнопке «Eigenvalues» (Собственные значения) отобразиться таблица, представленная на рис. 5 .116.

Рисунок 5.116. Таблица собственных значений

В первом столбце таблицы даны собственные значения, во втором – процент общей дисперсии, соответствующий этим собственным значениям, далее кумулятивные или накопленные собственные значения (собственные значения суммируются – накапливаются) и кумулятивный процент дисперсии.

  1. В диалоговом окне «FactorAnalysisResults» на вкладке «Explainedvariance» (Объяснимая дисперсия) по кнопке «Communalities» (Общности) отобразиться таблица, представленная на рис. 5 .117.

Рисунок 5.117. Таблица общностей

Данная таблица представляет стандартный вывод факторного анализа. В первом столбце таблицы представлены общности для решения, состоящего из одного главного фактора (однофакторное решение), во втором – решение, состоящее из двух факторов (двухфакторное решение).

  1. В диалоговом окне «FactorAnalysisResults» на вкладке «Explainedvariance» (Объяснимая дисперсия) по кнопке «Reproduced/residual corrs» (Воспроизведенные/остаточные корреляции) отобразиться таблицы, представленная на рис..В первой таблице можно увидеть воспроизведенную корреляционную матрицу, а затем остаточную корреляционную матрицу, получаемую поэлементным вычитанием воспроизведенной матрицы из исходной корреляционной матрицы.

Рисунок 5.118. Воспроизведенная корреляционная матрица

Примечание

Часто на главной диагонали корреляционной матрицы вместо единиц ставятся квадраты коэффициентов множественной корреляции или другие оценки общностей.

Рисунок 5.119. Остаточная корреляционная матрица

Метод факторного анализа – неэлементарный метод обработки статистических данных. При его применении следует рассмотреть различные варианты решений, а математический ППП Statistica позволяет эффективно это сделать.