Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
otvety_smi.doc
Скачиваний:
4
Добавлен:
21.09.2019
Размер:
678.91 Кб
Скачать

Билет №45 Виды анализа массовой информации

Качественными видами анализа являются:

  • функциональный анализ по выявлению устойчивых инвариантных связей объекта;

  • структурный анализ по выявлению внутренних элементов объектов и способа их сочетания;

  • системный анализ — целостное изучение объекта.

  • Виды анализа с использованием методов статистики:

  • анализ средних величин;

  • вариационный (дисперсионный) анализ;

  • изучение колебаний признака относительно его среднего значения;

корреляционный анализ: установление зависимости между признаками; факторный анализ: многомерный статистический анализ признаков, установление внутренних взаимосвязей признаков;

регрессионный анализ: изучение изменений значений результатирующего признака в зависимости от изменений признаков-факторов;

кластерный (таксономический) анализ — классификация признаков и анализ связи классификационных единиц; латентный анализ — выявление скрытых признаков объекта; дискриминантный анализ — оценка качества экспертной классификации объектов социологического исследования; логлинейный анализ — поиск и оценка взаимосвязей в таблице, сжатое писание табличных данных.

Методы статистического анализа массовой информации (общая характеристика)

Методы статистического анализа массовой информации — совокупность статистических методов обработки, сравнения, классификации, моделирования и оценки данных, полученных в результате социологического исследования.

Они применяются на следующих этапах социологического анализа информации:

  • предварительный анализ и статистическая обработка для снижения размерности признакового поля;

  • отбор наиболее информативных признаков, удаление многомерных выбросов, не укладывающихся в распределение данных;

  • формирование таблиц промежуточных статистических показателей, необходимых для дальнейшего анализа;

По характеру решаемых задач и используемого математического аппарата методы статистического анализа социологической информации можно разделить на следующие основные группы:

Одномерный статистический анализ — позволяет анализировать эмпирическое распределение измеренных в социологическом исследовании признаков. Здесь вычисляются дисперсии и средние арифметические значения признаков, определяются частоты встречаемости различных градаций признаков. Поскольку измеренный в исследовании признак есть случайная величина, порожденная содержательной стороной исследуемого объекта, то анализируется степень близости значения эмпирического распределения к известным законам распределения случайных чисел, в частности, закону нормального распределения.

Анализ сопряженности и корреляции признаков предполагает использование совокупности статистических методов, связанных с вычислением парных корреляций между признаками, измеренных в количественных шкалах и анализ таблиц сопряженности для качественных признаков.

Основную роль здесь играет выбор меры связи между измеренными показателями и характер выходных показателей, определяющих содержательную сторону изучаемых объектов.

Кроме выраженности (силы) показателя взаимосвязи обязательно определяется его значимость (уровень доверительного интервала).

Проверка статистических гипотез. Эта группа методов позволяет подтвердить или опровергнуть определенную статистическую гипотезу, обычно связанную с содержательным выводом исследования.

Гипотеза подтверждается или опровергается при принятом уровне значимости (обычно 0,05) в соответствии с выбранным типом критерия (например, х2), при этом учитывается как выраженность (сила) статистического показателя связи, так и количество степеней свободы в распределении признака.

Многомерный статистический анализ, на основе которого анализируют количественные зависимости отдельных содержательных сторон исследуемого объекта от множества его признаков.

Конкретный вид применяемого анализа зависит от характера (качественного или количественного) измеренных признаков, а также цели исследования.

Наиболее часто применяются методы анализа совместного влияния признаков (регрессионный, дисперсионный), методы выявления и оценки скрытых факторов (факторный, логлинейный) и методы многомерной классификации (кластерный, дискриминантный).

Таблица сопряженности признаков — форма представления данных об объектах социологического исследования на основе группировки двух или более признаков по принципу их сочетаемости.

Таблица сопряженности признаков формируется после определения взаимной частоты встречаемости градаций признаков (вариантов ответа на вопрос анкеты).

Таблица сопряженности признаков наглядно представима лишь в виде набора двумерных срезов и служит для определения значений мер связи признаками, а также процентного представления распределения градаций признака в выборке.

Важная особенность таблицы сопряженности признаков — возможность поградационного анализа влияния какого-либо признака на другие, а также визуального экспресс-анализа взаимовлияния двух признаков.

Таблицы сопряженности признаков, образованные двумя признаками, называется двумерными. Наиболее часто встречаются двухмерные таблицы, образованные альтернативными признаками, измеренными в дихотомической шкале (2x2 таблица). Для таких форм разработано большинство мер связи, они более удобны для анализа и дают корректные и значимые результаты.

Анализ любых многомерных таблиц сопряженности признаков в основном сводится к анализу составляющих ее маргинальных двумерных таблиц.

Таблицы сопряженности признаков заполняются данными о частотах со-вместной встречаемости признаков в абсолютном или процентном выражениях.

Признаки, образующие таблицу, должны быть измерены только в качественной (номинальной) или порядковой шкале.

Процентное выражение может быть представлено в трех видах:

  • общем, когда проценты подсчитываются по отношению к сумме частостей по всей таблице;

  • построчном, когда проценты подсчитываются по отношению к суммам частостей по каждой строке таблице;

  • постолбцовом, когда проценты просчитываются по отношению к суммам частостей по каждому столбцу.

Существует два основных класса статистических выводов, которые делаются при анализе таблиц сопряженности:

  • проверка гипотезы о независимости признаков;

  • проверка гипотезы о связи между признаками.

В отношении двумерных таблиц рекомендуется применять:

• коэффициенты Юла и Ф.

В отношении многомерных таблиц рекомендуется применять:

• показатель взаимосвязи у} (хи-квадрат, коэффициент средней квадратической сопряженности С (Пирсона) и Т (Чупрова)).

Для таблиц сопряженности признаков, категории которых упорядочены, рекомендуется применять коэффициенты:

• Г (Гудмана), Т (Кендалла), S (Спирмена).

Логлинейный анализ представляет собой исследование таблиц сопряженности большого числа признаков, в основе которого лежит предположение о линейной зависимости логарифма частоты (частости, количества, процента) содержащейся в любой ячейке многомерной таблицы, от конкретных значений переменных, образующий данную таблицу.

Логлинейный анализ применяется для поиска и оценки силы и достоверности взаимосвязей в таблице:

  • для сжатого и аналитического описания структуры таблицы;

  • для детального анализа выявленных конкретных взаимосвязей.

  • Наиболее часто логлинейный анализ применяется для анализа

альтернативных переменных (дихотомических), т.к. он позволяет не только установить наличие взаимосвязи, но и исследовать ее направление и построить специальное уравнение, связывающее зависимый признак с независимым, подобно обычному регрессионному.

Критерием достоверности модели служат показатели хи-квадрат, оценивающие степень сходства реальной выборочной таблицы и таблицы, восстановленной по логлинейной модели для полученных параметров.

Все необходимые расчеты проводятся только на ЭВМ в связи со сложностью вычислений.

К недостаткам логлинейного анализа следует также отнести громоздкость вычислений, а, следовательно, и большой объем оперативной памяти ЭВМ, особенно, если исследуется таблица с большим количеством признаков или их градаций.

Кластерный анализ — метод классификации объектов (анкет, признаков, ячеек таблицы сопряженности) объединяющий способы классификации при отсутствии предварительных или экспертных данных о группировании информации.

Другие названия кластерного анализа:

  • таксономия,

  • распознавание образов.

С помощью кластерного анализа можно разделить совокупность данных на однородные группы таким образом, что различия между объектами одной группы оказываются значительно меньшими, чем между объектами разных групп.

Важнейшим свойством кластерного анализа, определяющим его широкое применение при анализе массовой информации, является то, что он не опирается на предположение о нормальном распределении исходных данных может оперировать с признаками, распределенными по любому закону.

В кластерном анализе используются, признаки, измеренные как в количественных (интервальная и отношений), так и в качественных (номинальная, ранговая) шкалах.

Для качественных показателей, особенно представленных в дихотомической шкале, чаще всего используются меры связи или подобия: хи-квадрат (х2) и родственные ему меры, различные коэффициенты сопряженности.

Для количественной информации это обычные коэффициенты корреляции; для данных, измеренных в ранговой шкале — коэффициенты ранговой корреляции Спирмена и Кендалла.

Кластерный анализ позволяет провести классификацию одновременно по совокупности многих признаков. Его также можно использовать для объединения в группу (кластер) как объектов, так и их признаков. В последнем случае кластерный анализ сходен с факторным анализом.

Большое значение для некоторых видов кластерного анализа имеет предварительная нормализация (стандартизация) исходных данных, в частности, для количественных переменных — выраже-

ние отклонения каждого конкретного значения признака от его среднего арифметического в долях среднеквадратического отклонения. Это необходимо для того, чтобы привести к одному масштабу переменные различного порядка либо различного диапазона вариабельности.

Основные виды кластерного анализа:

  • иерархический, в котором различают прямые, или объединительные (агломеративные) процессы кластеризации и обратные, или разделительные (дивизимные);

  • агломеративные виды кластерного анализа начинаются с объединения в одну группу двух наиболее близких между собой объектов; на следующих этапах объединяются следующие по близости объекты, причем уже полученные ранее группы также считаются объектами. Процесс продолжается до тех пор, пока все объекты, участвующие в кластерном анализе, не объединятся в одну группу (кластер);

  • дивизимные виды кластерного анализа начинаются с разбиения всей совокупности объектов на две группы и заканчиваются, когда количество групп достигнет количества объектов;

  • таксономический, цель классификации в котором состоит в получении кластеров с минимальной суммой квадратов расстояний между объектами и расстоянием внутри кластера относительно среднего;

  • факторный, предполагающий выполнение — техники факторного анализа методами главных компонент, главных факторов, максимального правдоподобия.

Корреляционный анализ — совокупность статистических методов анализа переменных, связанных по типу корреляции (соотношения), зависимости некоторых характеристик, полученных для одного и того же объекта.

Если две такие характеристики имеют тенденцию изменяться совместно так, что возникает возможность предсказать величину одной их них по значению другой, то говорят, что эти характеристики коррелируют друг друга. Коэффициент корреляции представляет собой число, знак и величина которого характеризуют направление и силу подобной взаимосвязи.

Значения коэффициента корреляции могут изменяться от —1,0 до +1,0 (включая 0,0). Знак коэффициента корреляции направление — прямое или обратное — взаимосвязи между двумя переменными.

Абсолютное значение коэффициента характеризует силу рассматриваемой взаимосвязи.

Коэффициент корреляции, равный плюс или минус единице, указывает на наличие строгой функциональной зависимости.

Коэффициент корреляции 0,0 свидетельствует об отсутствии какой бы то ни было взаимосвязи между рассматриваемыми переменными.

При измерении связи переменных числом категорий больше двух, применяют меры связи, основанные на критерии х2- Коэффициенты этой группы являются показателями двусторонней связи.

Если связь признаков является причиной, т.е. ясно, какая переменная может рассматриваться как зависимая, а какая как независимая, и зависимая переменная имеет всего две градации (т.е. размерность 2 х 2), то связь может быть измерена с помощью корреляционного отношения.

Между двумя порядковыми переменными связь измеряется с использованием коэффициентов ранговой корреляции (Спирме-на и Кендалла).

Если обе переменные измерены в интервальной шкале, то связь между ними измеряется с использованием коэффициента корреляции Пирсона.

При интерпретации коэффициентов корреляции необходимо учитывать следующее:

• Существуют т.н. ложные корреляции, которые определяются не взаимосвязью признаков, а случайным их совпадением в силу неучтенных факторов:

Например: Установлено, что с повышением должности число больничных дней у респондентов уменьшается. Это, однако, не означает, что повышение должности улучшает здоровье работников.

• Корреляционная связь не тождественна причинной, хотя последняя всегда выразится в значениях коэффициентов корреляции. Цель анализа — поиск причинных зависимостей. Корреляции, хотя прямо и не указывают на такую зависимость, являются ключом к ней.

Отсутствие корреляции (принятие нулевой гипотезы) столь же важно, как и ее наличие. Если между двумя переменными нет корреляции, то можно обоснованно предположить, что они не входят в число факторов, детерминирующих изменение каждой из них.

Факторный анализ — метод статистического анализа массовой информации, направленный на выявление значимых латентных переменных (факторов), оценки их связи с некоторыми признаками выраженности факторов у объектов исследования.

Если коэффициент корреляции близок к 1, то значит, данный признак не обладает новизной информации, а только дублирует другие признаки.

Если близок к нулю, то, значит, признак не связан существенно с другими призраками и также должен быть исключен из анализа.

Выявленные факторы обычно определяют основные направления, по которым группируются нормативные исходные признаки. В результате получается т.н. простая факторная структура, позволяющая зримо представить всю полноту данных конкретного исследования.

Факторный анализ осуществляется в 4 этапа:

  • на первом этапе осуществляется корреляционный анализ, или анализ матрицы корреляционных связей между исходными признаками, участвующими в факторном анализе;

  • на втором этапе находят первоначальные, или грубые факторы;

  • на третьем этапе осуществляется вращение первоначальных факторов с целью их уточнения и получения относительно простой факторной структуры;

  • на четвертом этапе находят значения факторных нагрузок.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]