Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
5. Булдык.Статистическое моделирование.doc
Скачиваний:
5
Добавлен:
01.05.2025
Размер:
3.27 Mб
Скачать
    1. Корреляция атрибутных признаков

Признаки взаимосвязанных явлений не всегда могут быть выражены количественно. Так, например, семейное и социальное положение, пол, профессия, форма собственности, административное подчинение предприятий являются признаками с качественной вариацией.

Для отражения связи между качественно варьирующими признаками явлений применяется термин “ассоциация”. Так, с помощью ассоциации можно исследовать, существует ли связь между разработкой подземным и открытым способом в горнодобывающей промышленности, между медицинскими заключениями “болен” и “здоров”. Удовлетворенность характером работы изучается с помощью взаимоисключающих ответов типа “да - нет”, “доволен - не доволен” и т.д. Если качественные признаки принимают более двух значений, то связь между ними называется контингенцией. При исследовании связи между такими признаками числовой материал располагают в виде таблицы. Наблюдаемые значения в этом случае - частоты, характеризующие появление отдельных признаков.

Рассмотрим различные методы, позволяющие оценить связь между качественными признаками.

Предположим, что признаки характеризуются альтернативной вариацией. Тогда результаты наблюдений можно представить в виде таблицы ассоциации (четырехклеточной таблицы), а для измерения связи между качественно варьирующими признаками можно воспользоваться коэффициентом ассоциации , предложенным К. Пирсоном:

. (2.34)

где i, j = 1, 2 - частоты отдельных значений признака:

Коэффициент принимает значения из промежутка . Если , то коэффициент , а при коэффициент . Так как

,

то с помощью критерия можно оценить, существует ли вообще связь между изучаемыми явлениями.

Указанный коэффициент ассоциации может быть вычислен только при альтернатив­ной

группировке числового материала (да - нет, хорошо - плохо и т.д.). При этом ожидаемая частота признака должна быть больше 5, а объем выборки - не менее 40. Если эти условия не выполнены, то для оценки силы связи между признаками применяется коэффициент Йетса:

. (2.35)

Если предполагается нормальное распределение исследуемых случайных величин, то при альтернативной (дихотомической) группировке числового материала для оценки связи между качественными признаками применяется тетрахорический коэффициент

Значения принадлежат промежутку . В качестве оценки связи между качественно варьирующими признаками может быть использован коэффициент ассоциации Q, предложенный Г.У. Юлом:

.

Коэффициент Q принимает значения из промежутка . При этом если , то , если же , то .

В некоторых исследованиях социально-экономических явлений вариация качественного признака разбивается на несколько групп. Тогда числовой материал располагают в виде таблицы с несколькими строками и столбцами, которая называется таблицей контингенции или -таблицей. Для проверки гипотезы о связи между такими признаками применяется критерий  (cм. § 2.2):

, (2.36)

где - наблюдаемые частоты значений в i-й строке и j-м столбце; - теоретические частоты, вычисленные по формулам:

Величина, вычисляемая по формуле (2.36), имеет - распределение с степенями свободы. Вычисленное значение сравнивается с табличным, найденным по таблице - распределения при заданном уровне значимости и соответствующем числе степеней свободы. Если , то с вероятностью можно принять гипотезу о наличии связи между исследуемыми признаками.

Силу связи оценивают с помощью коэффициента контингенции

или

где . Значения C и K принадлежат промежутку [0; 1].

Чтобы получить значение C, не зависящее от числа строк и столбцов таблицы контингенции, вычисляют исправленный коэффициент контингенции

где при или вычисляют как среднее арифметическое двух максимальных значений C соответствующих квадратных таблиц размерности m и k.

В cоциально-экономических исследованиях наблюдаются явления, когда значения одного признака количественно измеряются по нескольким ступеням, а другой признак обладает только альтернативной вариацией в форме “да - нет”, “правильно - ошибочно”, “согласен - не согласен”. Связь между указанными признаками называется двухстрочечной или бисериальной корреляцией. При этом если признак Y разбивается на две альтернативные группы лишь условно, то связь между X и Y называется непрерывной двухстрочечной корреляцией. Если же признак Y дихотомический, то связь между X и Y называется дискретной двухстрочечной (точечно-бисери­альной) корреляцией.

При изучении корреляции обоих типов предполагается, что переменная X имеет нормальное распределение. Если о распределении переменной Y ничего не известно, то вычисляют коэффициент точечно-бисериальной корреляции

(2.37)

или

,

где n - общий объем наблюдений; - объем наблюдений в столбце с наименьшим (наибольшим) числом элементов; - среднее значение признака X, вычисленное по данным столбца с наименьшим (наибольшим) числом элементов; - стандартное отклонение значений признака X относительно .

Если предполагается нормальное распределение переменной Y, то вычисляют коэффициент бисериальной корреляции

, (2.38)

где - среднее арифметическое значение признака X, вычисленное по всей совокупности;   - значение плотности нормального распределения в точке с абсциссой , для которой имеет место соотношение :

.

Значения коэффициентов и принадлежат промежутку .

Пример 2.4. В § 2.1 мы исследовали существование связи между двумя качественными признаками (см. табл. 2.5). Для измерения выявленной связи между видом обучения рабочих и удельным весом рабочих, которые дали брак на производстве, воспользуемся коэффициентом ассоциации (2.34). Предварительно результаты наблюдений представим в виде четырехклеточ­ной таблицы 2.25.

Т а б л и ц а 2.25

Вид обучения

Профессионально- ! курсы на произ-

технические учи- ! водстве

лища !

Рабочие, давшие брак

Рабочие, не давшие брак

211 96

49 59

307

108

260 155

Подставив данные из табл.. 2.25 в формулу (2.34), получим

.

По значению можно предположить, что между видом обучения и количеством рабочих, которые давали брак, существует лишь слабая корреляционная связь. Для проверки этого вывода применим критерий . Для рассматриваемого примера

По таблице - распределения для уровня значимости и числа степеней свободы находим критическое значение . Так как , между изучаемыми показателями существует значимая корреляционная связь, хотя и слаба (как показывает коэффициент Ф).

Проверим вывод о силе связи с помощью коэффициента ассоциации Q:

.

Следовательно, по значению коэффициента ассоциации Юла можно сделать вывод о том, что между изучаемыми показателями существует заметная корреляционная связь.

Пример 2.5. Исследуем, зависит ли сохранность моркови от условий хранения. Было заложено на хранение 1000 кг моркови, в том числе 200 кг с использованием мха, 500 кг моркови, обработанной мелом, и 300 кг в обычных условиях. Затем по степени сохраняемости морковь была разбита на группы (плохая, средняя, хорошая и очень хорошая сохраняемость). Результаты исследования приведены в табл. 2.26.

Т а б л и ц а 2.26

Способ хранения

Сохраняемость моркови

плохая ! средняя ! хорошая ! очень хорошая

В обычных условиях

Обработка мелом

С использованием мха

  1. 175 74 –

45 210 191 54

2 47 121 30

300

500

200

98 432 386 84

Вначале проверим, существует ли связь между признаками с помощью критерия . Теоретические частоты вычислим по формуле . Например,

Тогда

.

По таблице - распределения находим критическое значение для уровня значимости и числа степеней свободы . Так как, с вероятностью можно утверждать, что существует связь между условиями хранения и сохранностью моркови.

Силу установленной статистической связи оценим с помощью коэффициентов контингенции:

.

Значения обоих коэффициентов контингенции указывают на существование умеренной корреляционной зависимости между условиями хранения и сохранностью моркови.

Так как число строк и столбцов табл. 2.26 мало, вычислим исправленный коэффициент контингенции , предварительно определив . Для этого найдем сначала , а затем . Тогда исправленное значение коэффициента C

Исправленное значение C подтверждает сделанный вывод.

Пример 2.6. Исследуем связь между уровнями заработной платы, выраженными в условных единицах, и удовлетворенностью ею рабочих и служащих Министерства жилищного и коммунального хозяйства Республики Беларусь. Заработную плату разобьем на шесть уровней. Результаты опроса 240 рабочих и служащих представлены в табл. 2.27.

Таблица 2.27

Уровень заработной платы

Удовлетворенность заработной платой

нет ! да

1,0—1,5

1,5—2,0

2,0—2,5

2,5—3,0

3,0—3,5

3,5—4,0

24 –

25 12

38 28

18 42

10 30

- 13

24

37

66

60

40

13

115 125

Для исследования бисериальной корреляции вычислим коэффициенты и . Для нашего примера n = 240, . По таблице нормального распределения находим , чему соответствует значение плотности нормального распределения . Подставив данные в формулы (2.37) и (2.38), получим:

Для проверки значимости коэффициентов и вычислим t-статистику:

и сравним вычисленное значение с критическим значением, определен­ным по таблице распределения Стьюдента для и : . Так как с вероятностью можно утверждать, что коэффициенты и статистически значимы. Следовательно, связь между признаками значима.

По данным примера можно сделать вывод о том, что между уровнями заработной платы и удовлетворенностью ею рабочих и служащих существует тесная корреляционна связь.