
- •Материалы к лекционному курсу
- •Тема 1. Основные статистические показатели
- •Тема 2. Основы описательной (дескриптивной) статистики
- •Тема 3. Выборочный метод
- •Тема 4. Анализ статистической взаимосвязи
- •Тема 5. Анализ взаимосвязи качественных признаков
- •Тема 6. Многомерный статистический анализ
- •Тема 7. Анализ динамических рядов
- •Тема 8. Булева алгебра в сравнительных исследованиях
- •Тема 9. Контент-анализ текстов в гуманитарных исследованиях
- •Тесты для контроля остаточных знаний
Тема 6. Многомерный статистический анализ
Многомерные модели используются для описания объектов в n- мерном пространстве признаков и выполняют такие интеллектуальные функции, как структурирование эмпирической информации, классификация, экстраполяция, сравнение, проверка гипотез.
Многомерный факторный анализ. Основная идея факторного анализа сводится к тому, что если несколько признаков, измеренных на группе объектов, изменяются согласовано, то можно предположить существование одной общей причины этой совместной изменчивости – фактора, как скрытой (латентной), непосредственно не доступной измерению переменной. Таким образом, главная цель факторного анализа – уменьшение размерности исходных данных с целью их экономного описания при условии минимальных потерь исходной информации. Результатом факторного анализа является переход от множества исходных переменных к существенно меньшему числу новых переменных – факторов. Фактор при этом интерпретируется как причина совместной изменчивости нескольких исходных переменных. Если исходить из того, что корреляции (совместные изменения) могут быть объяснены влиянием скрытых причин – факторов, то основное назначение факторного анализа – анализ корреляции множества признаков.
На первом этапе факторного анализа рассчитывается матрица парных коэффициентов корреляции исходных признаков, которая фиксирует степень взаимосвязи между каждой парой признаков. На ее основе группы согласованно изменяющихся признаков объединяются в факторы, и строится новая матрица, в которой рассчитываются коэффициенты взаимосвязи между отдельными признаками и каждым из факторов. Этот коэффициент, выражающий меру влияния фактора на признак, называется факторной нагрузкой, а матрица, в которую он записывается – факторной матрицей. Факторная матрица фиксирует степень линейной связи каждого признака с каждым фактором. Величина факторной нагрузки не превышает по модулю единицы, а знак ее говорит о прямой (положительной) и обратной (отрицательной) связи признака с фактором. Чем больше абсолютная величина факторной нагрузки признака по некоторому фактору, тем в большей степени этот фактор определяет данный признак. Величина проявления фактора у отдельного объекта называется факторным весом объекта по данному фактору. Факторные веса позволяют ранжировать, упорядочивать объекты по каждому фактору. Чем больше факторный вес некоторого объекта, тем больше в нем проявляется закономерность, отражаемая данным фактором.
Факторная модель дает возможность вычислять вклады факторов в общую дисперсию признаков. Суммируя квадраты факторных нагрузок для каждого фактора по всем признакам, можно получить вклад каждого фактора в общую дисперсию системы признаков. Чем больше вклад фактора в общую дисперсию, тем более значимым и существенным является сам фактор. При этом выявляется и оптимальное количество общих факторов, достаточно хорошо описывающих систему исходных признаков.
Многомерная классификация включает значительное число методов, таких как кластер-анализ, дискриминантный анализ, многомерное шкалирование, таксономия и т.д., объединенных общими целями построения математически обоснованной типологии объектов. В сравнительных исследованиях наиболее часто используется агломеративно-иерархический кластер-анализ, который решает задачу построения классификации, т.е. разделения исходного множества объектов на группы (классы, кластеры), внутри которых объекты больше похожи друг на друга, нежели на объекты из других групп. В основе данного метода лежит условие, что все m признаков измерены в количественной шкале, а каждый из n объектов может быть представлен точкой в m-мерном пространстве признаков. О сходстве объектов можно судить по расстоянию между соответствующими точками. Объекты тем более близки, чем меньше различий между одноименными показателями. Для определения близости пары точек в многомерном пространстве количественных признаков используется евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, взятых для данной пары объектов. Подсчитав значения расстояний для всех возможных пар объектов, их помещают в квадратную матрицу размером m х m (матрицу расстояний), которая становится основой для реализации агломеративно-иерархического метода. Основная идея данного метода заключается в последовательном объединении группируемых объектов – сначала самых близких, а затем все более удаленных друг от друга. Процедура построения классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп (кластеров) объектов.
На первом этапе кластер-анализа рассматривается начальная матрица расстояний между объектами, и по ней определяется минимальное расстояние. Наиболее близкие объекты, находящиеся между собой на этом расстоянии, объединяются в один кластер. Далее рассчитывается расстояние от полученного кластера до всех остальных объектов, как среднее из расстояний от объектов первого кластера до всех остальных. Затем вновь ищется минимальное расстояние между точками и формируется новый кластер. Этот кластер может быть построен в результате объединения либо двух объектов, либо одного объекта с кластером, построенном на первом этапе. В конце процедуры объединения объектов в кластеры и кластеров между собой получается один кластер, объединяющий всю совокупность объектов.
Результаты многомерной классификации представляют в виде дендрограммы, содержащей n уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров. В итоге предстает математически обоснованная классификация или типология объектов.