Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОС по социологии - все части.doc
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
3.64 Mб
Скачать

Тема 6. Модели факторного анализа в социологии.

6.1 Общая модель факторного анализа. Значение ее использования для социологов.

Факторный анализ родился в психологии как способ поиска латентных факторов и неотделим от тестовой традиции в социологии. Социологический смысл модели факторного анализа состоит в том, что измеряемые нами эмпирические показатели, переменные являются следствием некоторых других, глубинных, скрытых от непосредственного измерения характеристик – латентных переменных.

Мы предполагаем, что все наблюдаемые нами изменения значений эмпирических признаков обусловлены изменением некоторых внутренних свойств этих объектов - значений латентных факторов. Такие факторы называются общими. Измерить их непосредственно мы не можем. Более того, мы не знаем заранее в точности, что из себя эти факторы представляют, сколько их. Однако предполагаем, что в принципе они существуют и что респонденты могут быть сопоставлены друг с другом по их значениям этих свойств.

Общие факторы имеют разное влияние на изменение того или иного наблюдаемого признака. Вес общего фактора, определяющий степень его влияния на изменение данного наблюдаемого признака, будем называть факторной нагрузкой фактора на признак.

Существуют индивидуальные изменения каждого наблюдаемого признака, вызываемые, например, случайными ошибками при их измерении. Причины, вызывающие невзаимосвязанные изменения исходных признаков, называются специфическими, или характерными, факторами.

Значения общих латентных факторов для какого-либо человека определяют ответы этого человека на рассматриваемые вопросы, или поведение этого человека. Именно действием указанных латентных факторов определяются все корреляции между нашими наблюдаемыми переменными. Это означает, что фиксация значений латентных переменных должна привести к ликвидации связи между наблюдаемыми признаками. Другими словами, если мы зафиксируем, значение какого-либо фактора, то связи между отвечающими этому фактору наблюдаемыми переменными исчезнут (аксиома локальной независимости).

ФА - статистический метод и как таковой в принципе не может доказать наличие или отсутствие каких бы то ни было причинно-следственных отношений, тем не менее при его использовании мы часто имеем основания полагать, что латентная переменная олицетворяет собой причину, обусловливающую тот или иной уровень относящихся к ней наблюдаемых характеристик (хотя в практических задачах далеко не всегда бывает очевидным, что является причиной, что - следствием).

Наблюдаемые признаки z1, z2 ..., zn являются числовыми (т.е. такими, значения которых получены по крайней мере по интервальной шкале), нормально распределенными и заданными в стандартной форме (т.е. приведенными к такому виду, при котором среднее значение каждого признака равно 0, а дисперсия - 1).

Перечень конкретных задач, при решении которых используются методы факторного анализа:

- минимизировать описание, т. е. определить основные аспекты различий между объектами наблюдения;

- сформулировать гипотезы о природе основных аспек­тов различий между объектами;

- выявить структуру взаимосвязей в наборе признаков, проверить гипотезы о взаимосвязях и взаимозаменяемо­сти признаков;

- сопоставить структуру нескольких наборов призна­ков;

- построить некий обобщающий показатель (индекс, шкалу);

- ранжировать объекты наблюдения;

- осуществить типологию объектов наблюдения;

- преобразовать данные для использования в других моделях.

Уровень измерения переменных, используемых в факторном анализе. Поскольку исходной информацией для метода факторного анализа является матрица коэффициентов корреляции Пирсона, то это, автоматически, диктует нам возможность использования в данном методе переменных, измеренных только по количественным (интервальным, либо абсолютным) шкалам, либо дихотомических переменных.

Основное положение ФА заключается в том, что каждый наблюдаемый признак можно представить в виде линейной комбинации нормально распределенных факторов. Факторы F построены так, чтобы наилучшим способом (с минимальной погрешностью) представить Х.

Значения aik называются факторными нагрузками – вес общего фактора, определяющий степень его влияния на изменение данного наблюдаемого признака.

Обычно (хотя и не всегда) предполагается, что Xi стандартизованы ( =1, Xi=0), а факторы F1,F2,…,Fm независимы и не связаны со специфическими факторами Ui (хотя существуют модели, выполненные в других предположениях). Предполагается также, что факторы Fi стандартизованы.

В этих условиях факторные нагрузки aik совпадают с коэффициентами корреляции между общими факторами и переменными Xi. Дисперсия Xi раскладывается на сумму квадратов факторных нагрузок и дисперсию специфического фактора:

, где

Величина называется общностью, - специфичностью. Т.е., общность представляет собой часть дисперсии переменных, объясненную факторами, специфичность - часть не объясненной факторами дисперсии, демонстрирует, какую часть дисперсии каждой из включенных в анализ переменных объясняет предлагаемая факторная модель. Отличие общих факторов от характерных заключается в том, что каждый характерный фактор имеет ненулевое значение нагрузки только для одного наблюдаемого признака.

В соответствии с постановкой задачи, необходимо искать такие факторы, при которых суммарная общность максимальна, а специфичность - минимальна.

Один из наиболее распространенных методов поиска факторов, метод главных компонент, состоит в последовательном поиске факторов. В начале ищется первый фактор, который объясняет наибольшую часть дисперсии, затем независимый от него второй фактор, объясняющий наибольшую часть оставшейся дисперсии, и т.д. Максимально возможное число главных компонент равно количеству переменных. Т.е. если мы хотим на 100% описать значения n переменных, то для этого потребуется столько же, то есть n главных компонент. Метод главных компонент рекомендуется выполнять, если основная задача исследователя – определение мин. числа факторов, которые вносят макс. вклад в дисперсию данных, чтобы в последующем использовать их в многомерном анализе. Эти факторы называют главными компонентами.

Применяется также анализ общих факторов (common factor analysis) или разложение матрицы – факторы определяются только на основе общей дисперсии. Общности располагаются на диагонали корреляционной матрицы. Этот метод подходит, если основной задачей исследователя является определение латентных переменных и общей дисперсии.

Интерпретация факторов в факторном анализе.

Основной информацией, которую использует исследователь при интерпретации факторов, являются факторные нагрузки. Для интерпретации необходимо приписать каждому фактору какой-то термин, понятие. Этот термин появляется на основе анализа корреляций фактора с исходными переменными.

Не всегда такая интерпретация возможна. Для повышения интерпретируемости факторов добиваются большей контрастности матрицы факторных нагрузок. Метод такого улучшения результата называется методом вращения факторов. Его суть состоит в следующем. Если мы будем вращать координатные оси, образуемые факторами, мы не потеряем в точности представления данных через новые оси, и не беда, что при этом факторы не будут упорядочены по величине объясненной ими дисперсии, зато у нас появляется возможность получить более контрастные факторные нагрузки. Вращение состоит в получении новых факторов - в виде специального вида линейной комбинации имеющихся факторов:

Для достижения цели интерпретируемости существует достаточно много методов, которые состоят в оптимизации подходящей функции от факторных нагрузок.

Метод VARIMAX. Этот метод состоит в максимизации "дисперсии" квадратов факторных нагрузок для переменных:

Чем сильнее разойдутся квадраты факторных нагрузок к концам отрезка [0,1], тем больше будет значение целевой функции вращения, тем четче интерпретация факторов.

Существуют и другие методы вращения:

  • Varimax: Ортогональное вращение, при котором происходит минимизация количества переменных с высокой факторной нагрузкой. Этот метод является наиболее часто применяемым, поскольку он облегчает интерпретацию факторов.

  • Quartimax: Ортогональное вращение, при котором происходит минимизация количества факторов, необходимых для объяснения переменной. Этот метод используется редко и вообще не рекомендуется для применения.

  • Equamax: Ортогональное вращение; компромисс между предыдущими методами.

  • Direct oblimin: Косоугольное вращение.

  • Рrоmах: Комбинация ортогонального и косоугольного видов вращений

Ортогональное вращение – сохраняется прямоугольная система координат. При косоугольном – не сохраняется.

Интерпретация полученных факторов в значительной степени связана с представлениями исследователя о характере изучаемого явления. По сути дела в процесс интерпретации включается большой объем информации, которая не связана с анализом собранных данных. В результате глубинное понимание смысла получаемых факторов может быть отнесено, скорее, к методам качественного, а не количественного исследования.

Статистические гипотезы в факторном анализе

Для проверки на сферичность распределения данных используется тест Барлетта. В предположении многомерной нормальности распределения здесь проверяется, не диагональна ли матрица корреляций. Если гипотеза не отвергается (наблюдаемый уровень значимости велик, скажем больше 5%) - нет смысла в факторном анализе, поскольку направления главных осей случайны. На практике предположение о многомерной нормальности проверить весьма трудно, поэтому факторный анализ чаще применяется без такого анализа.

Проблема определения числа факторов.

Основная направленность факторного анализа – это именно сокращение числа показателей, и, следовательно, мы идем на то, что полученные факторы не будут на 100% объяснять исходную информацию и то, сколько же именно процентов будет объяснено, зависит от того, какое число факторов будет получено. Есть несколько подходов, дающих определенные основания для решения вопроса о том, какой процент объясненной дисперсии является приемлемым, на каком числе факторов остановиться.

1) формально-статистический - критерий Кайзера. Есть определенные математические основания говорящие, что целесообразно отбирать столько факторов, сколько существует собственных чисел корреляционной матрицы, больших единицы.

2) подход базируется на том, что мы сами будем отбирать число факторов, ориентируясь на то, чтобы это число факторов объясняло требуемый процент общей исходной дисперсии. В социологии, как правило, встречаются факторные модели, в которых объясняется 60-75% дисперсии, хотя можно найти примеры и с большими, и с меньшими процентами.

3) метод «каменной осыпи». Строится график, в котором по оси абсцисс откладываются номера факторов, а по оси ординат – значения собственных чисел, для каждого из факторов. Далее на этом графике ищутся точки, в которых происходит более, или менее резкое понижение. Рекомендация метода «каменной осыпи» состоит в том, что надо отобрать число факторов, до момента такого рода резкого понижения.

Ни один из изложенных подходов к определению числа факторов не дает нам доказательных оснований по отбору числа факторов. У исследователя остается большой произвол в решении этого вопроса. Основным критерием остается максимальное удобство для исследователя в построении наиболее правдоподобной модели, что, естественно, ни в каком смысле не может считаться строгим основанием.

Необходимо отметить, что модель ФА широко используется в социологии. Помимо того, что этот метод может быть использован для понижения пространства признаков с тем, чтобы легче было осуществлять дальнейший анализ, логика данного анализа лежит в основе одномерного шкалирования и в том или ином виде используется при построении шкал Лайкерта, Гутмана, в латентно-структурном анализе Лазарсфельда.