
- •Тема: параметрические критерии различий
- •Случай несвязных выборок
- •Случай связных выборок
- •Тема: исследование взаимосвязи признаков Корреляция
- •Коэффициент линейной корреляции Пирсона
- •Ранговая корреляция
- •Методы многомерного статистического анализа
- •Тема 9 Дисперсионный анализ
- •Тема 10 Кластерный анализ
- •Тема 11 Факторный анализ
- •Критерий Колмогорова-Смирнова. Проверка гипотезы об однородности выборок
- •Критические значения критерия λ при вероятности р(λ).
Тема 11 Факторный анализ
Возникновение и развитие факторного анализа тесно связано с измерениями в психологии. Длительное время факторный анализ и воспринимался как математическая модель в психологической теории интеллекта. Лишь начиная с 50-х годов XX столетия, одновременно с разработкой математического обоснования факторного анализа, этот метод становится общенаучным. К настоящему времени факторный анализ является неотъемлемой частью любой серьезной статистической компьютерной программы и входит в основной инструментарий всех наук, имеющих дело с многопараметрическим описанием изучаемых объектов, таких, как социология, экономика, биология, медицина и другие.
Факторный анализ — статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.
Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, «сырых», экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее — коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологическими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.
Главное понятие факторного анализа — фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы, В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению. Формальным критерием качества проведения процедуры факторного анализа является процент объединенной дисперсии исходных признаков.
В истории психологии факторный анализ связан с решением ряда теоретических задач в области исследования интеллекта. Ф.Гальтон, сформулировавший основные идеи метода, пытался при помощи его доказать, что высокий уровень мыслительных способностей является полностью врожденным. Ч. Спирмен, разработавший математическое обоснование данного метода, на основе анализа корреляций между результатами различных тестов выдвинул идею единого генерального фактора, лежащего в основе успешности выполнения любых тестов, связанных с измерением интеллектуальных свойств.
В настоящее время факторный анализ широко используется как для решения исследовательских задач, так и при конструировании психодиагностических методик. Факторный анализ является важнейшим инструментом для математического моделирования. Математическое моделирование — это процедура описания различных процессов (экономических, биологических, социально-психологических) посредством математического аппарата. Указанная процедура включает в себя выделение всех факторов процесса, определение доли вклада каждого из факторов, выявление закономерностей их функционирования и вероятностное предсказание протекания всего процесса в дальнейшем.
ГЛОССАРИЙ
АССИМЕТРИЯ – степень отклонения графика распределения частот от симметричного вида относительно среднего значения.
Для симметричного распределения асимметрия равна нулю. Если чаще встречаются значения меньше среднего, то говорят о левосторонней, или положительной асимметрии (As > 0). Если же чаще встречаются значения больше среднего, то асимметрия – правосторонняя, или отрицательная (As < 0).
ВЫБОРКА – это ограниченная по численности группа объектов (в психологии испытуемых, респондентов), специально отбираемая из генеральной совокупности для изучения ее свойств.
ВЫБОРОЧНОЕ ИССЛЕДОВАНИЕ - изучение свойств генеральной совокупности на выборке испытуемых.
ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ – это все множество объектов, в отношении которого формулируется исследовательская гипотеза.
ДИСПЕРСИЯ – мера изменчивости для метрических данных, пропорциональная сумме квадратов отклонений измеренных значений от их арифметического среднего:
ДИСПЕРСИОННЫЙ АНАЛИЗ – это анализ изменчивости признака под влиянием какого-либо фактора (или совокупности факторов). Метод основан на разложении общей дисперсии (вариативности) на составляющие компоненты, сравнивая которые можно определить долю общей вариации изучаемого признака, обусловленную действием на него как регулируемых, так и неучтенных в опыте факторов.
ИЗМЕРЕНИЕ – это процедура, с помощью которой измеряемый объект сравнивается с некоторым эталоном и получает численное выражение в определенном масштабе или шкале.
ИЗМЕРИТЕЛЬНЫЕ ШКАЛЫ – шкалы, позволяющие описать значения психологических признаков в психологических переменных. Согласно С.Стивенсу (1951), различают четыре типа измерительных шкал: номинативная (номинальная, шкала наименований); порядковая (ранговая, ординарная); интервальная (шкала равных интервалов); шкала равных отношений (шкала отношений).
ИЗМЕРЕНИЕ ПО НОМИНАТИВНОЙ ШКАЛЕ состоит в присваивании какому-либо свойству или признаку определенного обозначения или символа (численного, буквенного и т.п.). измерение по этой шкале осуществляется классификация или распределение объектов на непересекающиеся классы, группы.
Пример.
Всех живущих на планете можно поделить на группы в соответствии с их:
возрастом;
полом;
образованием и т.д.
ИЗМЕРЕНИЕ ПО РАНГОВОЙ ШКАЛЕ расчленяет всю совокупность измеренных признаков на такие множества, которые связаны между собой отношениями типа «больше – меньше»; «выше и ниже»; «сильнее – слабее» и т.п.
Пример.
Присваиваем ранги от 1 до N учащимся 4 класса при ранжировании их по росту – 1-ый самому высокому и т.д.
ИЗМЕРЕНИЕ ПО ШКАЛЕ ИНТЕРВАЛОВ – это установление специальных единиц измерения, в психологии это стены и стенайны. Основная особенность шкалы интервалов является то, что у нее нет естественной точки отсчета.
Пример.
|_____|_____|_____|_____|_____|_____|
-3 -2 -1 0 +1 +2 +3
-3 абсолютно не согласен
0 не знаю
+3 абсолютно согласен
ИЗМЕРЕНИЕ ПО ШКАЛЕ ОТНОШЕНИЙ. Как только в шкале интервалов фиксируется нуль, мы сразу получает шкалу равных отношений.
Пример. Шкала на термометре.
КВАНТИЛЬ – это точка на числовой оси измеренного признака, которая делит всю совокупность упорядоченных измерений на две группы с известным соотношением их численности. Среди квантилей различают – медиану, процентили и квартили.
КВАРТИЛИ – это 3 точки – значения признака (P25; P50; P75), которые делят упорядоченное (по возрастанию) множество наблюдений на 4 равные по численности части. Первый квартиль соответствует 25-му процентилю, второй – 50-му процентилю или медиане, третий квартиль соответствует 75-му процентилю.
КЛАСТЕРНЫЙ АНАЛИЗ – это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям. Кластерный анализ решает задачу построения классификации.
КОДИРОВАНИЕ – это такая операция, с помощью которой экспериментальным данным придается форма числового сообщения (кода).
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции.
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ – это мера прямой или обратной пропорциональности между двумя переменными.
КРИТЕРИЙ H- КРУСКАЛА-УОЛИСА применяется для оценки различий по степени выраженности анализируемого признака одновременно между тремя, четырьмя и более выборками. Критерий рассчитывается по формуле:
КРИТЕРИЙ ХИ-КВАДРАТ (другая форма записи – χ2 греческая буква «хи») построен так, что при полном совпадении экспериментального и теоретического (или двух экспериментальных) распределений величина χ2=0, и чем больше расхождение между сопоставляемыми распределениями, тем больше величина эмпирического значения хи-квадрат. Критерий рассчитывается по формуле:
fэ – эмпирическая частота
fт – теоретическая частота
k – количество разрядов признака
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ — это процедура описания различных процессов (экономических, биологических, социально-психологических) посредством математического аппарата. Указанная процедура включает в себя выделение всех факторов процесса, определение доли вклада каждого из факторов, выявление закономерностей их функционирования и вероятностное предсказание протекания всего процесса в дальнейшем.
МЕДИАНА – это такое значение признака, которое делит упорядоченное 9ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая – больше.
МЕРА ИЗМЕНЧИВОСТИ применяется в психологии для численного выражения величины межиндивидуальной вариации признака. К мерам изменчивости относятся: размах, дисперсия, стандартное отклонение.
МЕРА ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ – это число, характеризующее выборку по уровню выраженности измеренного признака. Существуют три способа определения «центральной тенденции», каждому из которых соответствует своя мера: мода, медиана и выборочное среднее.
МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ (МШ). Основная цель многомерного шкалирования – выявление структуры исследуемого множества объектов. В психологии чаще всего исходными данными для многомерного шкалирования являются субъективные суждения испытуемых о различии или сходстве стимулов (объектов).
МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ (МРА) предназначен для изучения взаимосвязи одной переменной (зависимой, результирующей) и нескольких других переменных (независимых, исходных). МРА может применяться как для решения прикладных задач, так и в исследовательских целях. Обычно МРА применяется для изучения возможности предсказания некоторого результата (обучения, деятельности) по ряду предварительно измеренных характеристик.
МОДА – это такое значение из множества измерений, которое встречается наиболее часто. Моде, или модальному интервалу признака, соответствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным.
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ – симметричное распределение, у которого крайние значения встречаются редко и частота постепенно повышается к серединным значениям признака.
ОБЪЕМ ВЫБОРКИ – число испытуемых, участвующих в исследовании. Рекомендации по комплектованию выборки:
наибольший объем выборки необходим при разработке диагностического инструментария – от 200 до 1000-2500 человек;
если необходимо сравнивать две выборки, их большая численность должна быть не менее 50 человек; численность сравниваемых выборок должна быть приблизительно одинаковой;
если изучается взаимосвязь между какими-либо свойствами, то объем выборки должен быть не меньше 30-35 человек;
чем больше изменчивость изучаемого свойства, тем больше должен быть объем выборки. Поэтому изменчивость можно уменьшить, увеличивая однородность выборки, например, по полу, возрасту и т.д. при этом, естественно, уменьшаются возможности генерализации выводов.
ОСЬ ЗНАЧИМОСТИ представляет собой прямую, на которой выделено три «зоны»: «зона значимости»; «зона незначимости»; «зона неопределенности». Границы всех трех зон являются критические значения искомого критерия для р=0,05 и р=0,01.
Зона
неопределенности
Зона значимости Зона незначимости
Ч кр 1 Ч кр 2
при р ≤ 0,05 при р≤0,01
ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ основаны на конкретном типе распределения генеральной совокупности (как правило, нормальном) или используют параметры этой совокупности (среднее, дисперсии и т.д.). Критерий различия называют непараметрическим, если он не базируется на предположении о типе распределения генеральной совокупности и не использует параметры этой совокупности.
ПРОВЕРКА ПРАВИЛЬНОСТИ РАНЖИРОВАНИЯ осуществляется по формуле
1+2+3+ …+ N= N (N+1)/2, где N – количество ранжируемых признаков.
ПРОЦЕНТИЛИ – это 99 точек – значений признака (Р1, …, Р99), которые делят упорядоченное (по возрастанию) множество наблюдений на 100 частей, равных по численности.
РАЗМАХ – разность максимального и минимального значений: R=Xmax - Xmin
РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ (ее представительность) – способность выборки представлять изучаемые явления достаточно полно с точки зрения их изменчивости в генеральной совокупности.
РЕКОМЕНДАЦИИ К ВЫБОРУ КРИТЕРИЯ РАЗЛИЧИЙ:
Определить, является ли выборка связной (зависимой) или несвязной (независимой).
Определить однородность выборки.
Оценить объем выборки и, зная ограничения каждого критерия по объему, выбрать соответствующий критерий.
Целесообразно начинать работу с выбора наименее трудоемкого критерия.
Если используемый критерий не выявил различий – следует применить более мощный, но одновременно и более трудоемкий критерий.
При малом объеме выборки следует увеличить величину уровня значимости (не менее 1%).
СВЯЗНЫЕ (ЗАВИСИМЫЕ) ВЫБОРКИ - это выборки, если процедура эксперимента и полученные результаты измерения некоторого свойства, проведенные на одной выборке, оказывают влияние на другую. Выборки называются несвязными (независимыми), если процедура эксперимента и полученные результаты измерения некоторого свойства у испытуемых одной выборки не оказывают влияния на особенности протекания этого же эксперимента и результаты измерения этого же свойства у испытуемых другой выборки.
СРЕДНЕЕ (Мх – выборочное среднее, среднее арифметическое) – определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений.
СТАНДАРТИЗАЦИЯ – или z-преобразование данных – это перевод измерений в стандартную Z-шкалу (M =0; z=1). Для стандартизации используют формулу
Тестовые шкалы разрабатываются для того, чтобы оценить индивидуальные результат тестирования путем сопоставления его с тестовыми нормами, полученными на выборке стандартизации.
СТАНДАРТНОЕ ОТКЛОНЕНИЕ – величина, равная квадратному корню из дисперсии.
СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ - формальное предположение о том, что сходство (или различие) некоторых параметрических или функциональных характеристик случайно или, наоборот, неслучайно. Различают нуль-гипотезу (Н0) и альтернативную гипотезу (Н1). Н0 – свидетельствует об отсутствии различий. Н1 – свидетельствует о наличии различий.
СТАТИСТИЧЕСКАЯ ДОСТОВЕРНОСТЬ (статистическая значимость) результатов исследования определяется при помощи методов статистического вывода.
СТЕПЕНЬ СВОБОДЫ – число свободно варьирующих единиц в составе выборки.
k=n-1, n – общее число элементов ряда;
=(c-1) (n-1), c- число столбцов; n – число строк.
УРОВЕНЬ СТАТИСТИЧЕСКОЙ ЗНАЧИМОСТИ – это вероятность ошибочного отклонения нулевой гипотезы. В психологии используют три уровня статистической значимости: р≤0,05; р≤0,01; р≤0,001.
ФАКТОРНЫЙ АНАЛИЗ – это общенаучный метод, цель которого уменьшение размерности исходных данных с целью их экономного описания при условии минимальных потерь исходной информации. Результатом факторного анализа является переход от множества исходных переменных к существенно меньшему числу новых переменных – факторов. Фактор при этом интерпретируется как причина совместной изменчивости нескольких исходных переменных.
ЧАСТОТА АБСОЛЮТНАЯ показывает сколько раз встречается каждое значение признака.
ЧАСТОТА ОТНОСИТЕЛЬНАЯ указывает какова доля наблюдений, приходящихся на то или иное значение признака.
ЭТАПЫ ПРИНЯТИЯ СТАТИСТИЧЕСКОГО РЕШЕНИЯ:
Формулировка нулевой и альтернативной гипотез.
Определение объема выборки N.
Выбор соответствующего уровня значимости или вероятности отклонения нулевой гипотезы. Это может быть величина меньшая или равная 0,05 (5% уровень значимости). В зависимости от важности исследования можно выбрать уровень значимости в 1% (р≤0,01) или 0,1% (р≤0,001).
Выбор статистического метода, который зависит от типа решаемой психологической задачи.
Вычисление соответствующего эмпирического значения по экспериментальным данным, согласно выбранному статистическому методу.
Нахождение по таблица приложения для выбранного статистического метода критических значений, соответствующих уровню значимости для р=0,05 и для р=0,01.
Построение оси значимости и нанесение на нее табличных критических значений и эмпирического значения.
Формулировка принятия решения (выбор соответствующей гипотезы Н0 или Н1).