Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
mmsi (1).docx
Скачиваний:
3
Добавлен:
01.05.2025
Размер:
599.96 Кб
Скачать

Дисперсионный анализ (однофакторный, многофакторный и многомерный) в социологическом исследовании.

Бююль и Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей

Дисперсионный анализ (analysis of variance) – статистический метод выявления различий между выборочными средними для двух или больше совокупностей.

Дисперсия - мера разброса количественного признака, эта статистика адекватна для интервальных шкал.

Виды анализа данных:

Фактор (factor) – категориальная независимая переменная. Для применения дисперсионного анализа независимые переменные должны быть категориальными (неметрическими).

Однофакторный дисперсионный анализ (one-way analysis of variance, One-Way ANOVA) – метод дисперсионного анализа, в котором рассматривается только один фактор, если целью является описание одной характеристики выборки в определенный момент.

Стадии однофакторного ДА

  1. Определение зависимой и независимой переменных

  2. Разложение полной вариации

  3. Измерение эффектов

  4. Проверка значимости

  5. Интерпретация результатов

Двухфакторный ДА позволяет одновременно исследовать взаимоотношения двух и более переменных, проверять гипотезы о причинных связях между ними.

Сравниваются две различные оценки дисперсии генеральной совокупности: межгрупповая дисперсия и внутригрупповая дисперсия. Если нет разницы в средних, то оценки межгрупповой и внутригрупповой дисперсий приблизительно равны и значение F-критерия близко к 1, поэтому нулевая гипотеза принимается.

Если различие в средних значительно, межгрупповая дисперсия будет гораздо больше, чем внутригрупповая. Значение F-критерия будет значительно больше 1 и нулевая гипотеза будет отвергнута.

Тем самым, при проверке гипотезы о равенстве средних, мы используем сравнение дисперсий. При применении двумерного дисперсионного анализа исследователь проверяет влияние двух независимых переменных (факторов) на зависимую переменную. Может быть изучен также эффект взаимодействия двух переменных.

Многомерный дисперсионный анализ (Multivariate Analysis of Variance – MANOVA) применяется для случая двух и более метрических зависимых переменных. Одновременно проверяет групповые различия в отношении нескольких зависимых переменных.

Факторный, дискриминантный и кластерный анализ данных в социологическом исследовании.

Бююль и Цефель. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей

Фактор – латентная переменная, конструируемая таким образом, чтобы можно было объяснить корреляцию между набором имеющихся переменных.

Факторный анализ - это процедура, с помощью которой большое число переменных, относящихся к имеющимся наблюдениям, сводят к меньшему количеству независимых влияющих величин, называемых факторами. При этом в один фактор объединяются переменные, сильно коррелирующие между собой. Переменные из разных факторов слабо коррелируют между собой.

Целью факторного анализа является нахождение таких комплексных факторов, которые как можно более полно объясняют наблюдаемые связи между переменными, имеющимися в наличии.

Порядок выполнения факторного анализа:

Стадии факторного анализа

  1. Построение корреляционной матрицы,

  2. Выбор метода факторного анализа,

  3. Определение числа факторов,

  4. Вращение факторов,

  5. Интерпретация факторов,

  6. Вычисление значений факторов и Отбор переменных-имитаторов,

  7. Оценка качества модели

На первом шаге процедуры факторного анализа происходит стандартизация заданных значений переменных; затем при помощи стандартизированных значений рассчитывают корреляционные коэффициенты Пирсона между рассматриваемыми переменными.

Исходным элементом для дальнейших расчётов является корреляционная матрица. Для построенной корреляционной матрицы определяются собственные значения и соответствующие им собственные векторы, для определения которых используются оценочные значения диагональных элементов матрицы (относительные дисперсии простых факторов).

Собственные значения сортируются в порядке убывания, для чего обычно отбирается столько факторов, сколько имеется собственных значений, превосходящих по величине единицу. Собственные векторы, соответствующие этим собственным значениям, образуют факторы.

Если факторы найдены и истолкованы, то на последнем шаге факторного анализа, отдельным наблюдениям можно присвоить значения этих факторов. Таким образом для каждого наблюдения значения большого количества переменных можно перевести в значения небольшого количества факторов.

Кластерный анализ – группа методов, используемых для классификации объектов или событий в относительно гомогенные (однородные) группы, которые называют кластерами.

Отличие кластерного анализа от факторного- если процедура факторного анализа сжимает матрицу признаков в матрицу с меньшим числом переменных, то кластерный анализ дает нам группы единиц анализа, то есть выполняет классификацию объектов.

Если в факторном анализе группируются столбцы матрицы данных, то в кластерном анализе группируются строки.

Если данные понимать как точки в признаковом пространстве, то задача кластерного анализа состоит в выделении "сгущений точек", в разбиении совокупности на однородные подмножества объектов.

Стадии кластерного анализа

  1. Выбор способа измерения расстояния,

  2. Выбор метода кластеризации,

  3. Принятие решения о количестве кластеров.

  4. Интерпретация и профилирование кластеров.

  5. Оценка достоверности кластеризации

Принятие решения о числе кластеров

1. Руководствуются практическими и теоретическими соображениями. Исходя из цели исследования может быть необходимо три кластера.

2. В иерархической кластеризации в качестве критерия можно использовать расстояния. Смотрим на коэффициент в протоколе объединения.

3. В иерархической кластеризации можно воспользоваться графиком зависимости отношения суммарной внутригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Скачок указывает на число кластеров.

Интерпретация и профилирование кластеров включает проверку кластерных центроидов.

Центроиды – средние значения объектов, содержащихся в кластере, по каждой из переменных. Позволяют описывать кластеры.

Неиерархические методы кластеризации, метод k-средних – (nonhierarchical clustering, k-means clustering) сначала определяется центр кластера, а затем группируют все объекты в пределах заданного от центра порогового значения.

Неиерархические методы кластеризации, метод k-средних – (nonhierarchical clustering, k-means clustering) сначала определяется центр кластера, а затем группируют все объекты в пределах заданного от центра порогового значения.

Дискриминантный анализ является разделом многомерного статистического анализа, позволяет изучать различия между двумя и более группами объектов по нескольким числовым характеристикам объекта одновременно. Задача дискриминации состоит в определении "вклада" каждой из числовых характеристик объекта в различение групп объектов, и построении дискриминантных функций. Дискриминантная функция есть функция от числовых характеристик объекта, значение которой дает возможность отнести объект к одной из групп. Другой целью применения диск-ного анализа является проведение классификации. Д. анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся естественно должно попасть в одну из названных категорий. Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути. Пример. Имеем две совокупности выпускников средней школы - тех, кто выбрал поступление в колледж, и тех, кто не собирается это делать. Вы можете собрать данные о намерениях учащихся продолжить образование в колледже за год до выпуска. Если средние для двух совокупностей (тех, кто в настоящее время собирается продолжить образование, и тех, кто отказывается) различны, то вы можете сказать, что намерение поступить в колледж, как это установлено за год до выпуска, позволяет разделить учащихся на тех, кто собирается и кто не собирается поступать в колледж (и эта информация может быть использована членами школьного совета для подходящего руководства соответствующими студентами).

Основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или линейной комбинации переменных), и затем использовать эту переменную, чтобы предсказать для новых членов их принадлежность к той или иной группе.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]