
- •Булдык г.М. Статистическое моделирование и прогнозирование: учебник для вузов
- •Глава 2. Статистические методы моделирования и прогнозирования связей
- •2.1. Статистические методы выявления наличия корреляционной связи
- •2.2. Методы проверки существенности статистических связей
- •2.3. Однофакторные регрессионные модели
- •2.4. Многофакторные регрессионные модели
- •2.5. Ранговая корреляция
- •Корреляция атрибутных признаков
- •Вопросы для самопроверки
- •Явлений на основе факторных регрессионных моделей
Корреляция атрибутных признаков
Признаки взаимосвязанных явлений не всегда могут быть выражены количественно. Так, например, семейное и социальное положение, пол, профессия, форма собственности, административное подчинение предприятий являются признаками с качественной вариацией.
Для отражения связи между качественно варьирующими признаками явлений применяется термин “ассоциация”. Так, с помощью ассоциации можно исследовать, существует ли связь между разработкой подземным и открытым способом в горнодобывающей промышленности, между медицинскими заключениями “болен” и “здоров”. Удовлетворенность характером работы изучается с помощью взаимоисключающих ответов типа “да - нет”, “доволен - не доволен” и т.д. Если качественные признаки принимают более двух значений, то связь между ними называется контингенцией. При исследовании связи между такими признаками числовой материал располагают в виде таблицы. Наблюдаемые значения в этом случае - частоты, характеризующие появление отдельных признаков.
Рассмотрим различные методы, позволяющие оценить связь между качественными признаками.
Предположим,
что признаки характеризуются альтернативной
вариацией. Тогда результаты наблюдений
можно представить в виде таблицы
ассоциации (четырехклеточной таблицы),
а для измерения связи между качественно
варьирующими признаками можно
воспользоваться коэффициентом
ассоциации
,
предложенным К. Пирсоном:
.
(2.34)
где i, j = 1, 2 - частоты
отдельных значений признака:
Коэффициент
принимает значения из промежутка
.
Если
,
то коэффициент
,
а при
коэффициент
.
Так как
,
то с помощью критерия можно оценить, существует ли вообще связь между изучаемыми явлениями.
Указанный коэффициент ассоциации может быть вычислен только при альтернативной
группировке числового материала (да - нет, хорошо - плохо и т.д.). При этом ожидаемая частота признака должна быть больше 5, а объем выборки - не менее 40. Если эти условия не выполнены, то для оценки силы связи между признаками применяется коэффициент Йетса:
.
(2.35)
Если предполагается нормальное распределение исследуемых случайных величин, то при альтернативной (дихотомической) группировке числового материала для оценки связи между качественными признаками применяется тетрахорический коэффициент
Значения
принадлежат промежутку
.
В качестве оценки связи между качественно
варьирующими признаками может быть
использован коэффициент ассоциации
Q, предложенный Г.У. Юлом:
.
Коэффициент
Q принимает значения из промежутка
.
При этом если
,
то
,
если же
,
то
.
В
некоторых исследованиях социально-экономических
явлений вариация качественного признака
разбивается на несколько групп. Тогда
числовой материал располагают в виде
таблицы с несколькими строками и
столбцами, которая называется таблицей
контингенции или
-таблицей.
Для проверки гипотезы о связи между
такими признаками применяется критерий
(cм. § 2.2):
,
(2.36)
где
-
наблюдаемые частоты значений в i-й
строке и j-м столбце;
- теоретические частоты, вычисленные
по формулам:
Величина,
вычисляемая по формуле (2.36), имеет
- распределение с
степенями свободы. Вычисленное значение
сравнивается
с табличным, найденным по таблице
-
распределения при заданном уровне
значимости
и соответствующем числе степеней
свободы. Если
,
то с вероятностью
можно принять гипотезу о наличии связи
между исследуемыми признаками.
Силу связи оценивают с помощью коэффициента контингенции
или
где
.
Значения C
и K
принадлежат промежутку [0; 1].
Чтобы получить значение C, не зависящее от числа строк и столбцов таблицы контингенции, вычисляют исправленный коэффициент контингенции
где
при
или
вычисляют
как среднее арифметическое двух
максимальных значений C соответствующих
квадратных таблиц размерности m и
k.
В
cоциально-экономических исследованиях
наблюдаются явления, когда значения
одного признака
количественно
измеряются по нескольким ступеням, а
другой признак
обладает
только альтернативной вариацией в форме
“да - нет”, “правильно - ошибочно”,
“согласен - не согласен”. Связь между
указанными признаками называется
двухстрочечной или бисериальной
корреляцией. При этом если признак Y
разбивается на две альтернативные
группы лишь условно, то связь между X
и Y называется непрерывной
двухстрочечной корреляцией. Если же
признак Y дихотомический, то связь
между X и Y называется дискретной
двухстрочечной (точечно-бисериальной)
корреляцией.
При изучении корреляции обоих типов предполагается, что переменная X имеет нормальное распределение. Если о распределении переменной Y ничего не известно, то вычисляют коэффициент точечно-бисериальной корреляции
(2.37)
или
,
где
n
- общий объем наблюдений;
- объем наблюдений в столбце с наименьшим
(наибольшим) числом элементов;
- среднее значение признака X,
вычисленное по данным столбца с наименьшим
(наибольшим) числом элементов;
- стандартное отклонение значений
признака X относительно
.
Если предполагается нормальное распределение переменной Y, то вычисляют коэффициент бисериальной корреляции
,
(2.38)
где
- среднее арифметическое значение
признака X, вычисленное по всей
совокупности;
- значение плотности нормального
распределения в точке с абсциссой
,
для которой имеет место соотношение
:
.
Значения
коэффициентов
и
принадлежат
промежутку
.
Пример 2.4. В § 2.1 мы исследовали существование связи между двумя качественными признаками (см. табл. 2.5). Для измерения выявленной связи между видом обучения рабочих и удельным весом рабочих, которые дали брак на производстве, воспользуемся коэффициентом ассоциации (2.34). Предварительно результаты наблюдений представим в виде четырехклеточной таблицы 2.25.
Т а б л и ц а 2.25
|
Вид обучения |
|
---|---|---|
|
Профессионально- ! курсы на произ- технические учи- ! водстве лища ! |
|
Рабочие, давшие брак Рабочие, не давшие брак |
211
49
|
307
108
|
|
260
|
|
Подставив данные из табл.. 2.25 в формулу (2.34), получим
.
По значению можно предположить, что между видом обучения и количеством рабочих, которые давали брак, существует лишь слабая корреляционная связь. Для проверки этого вывода применим критерий . Для рассматриваемого примера
По
таблице
- распределения для уровня значимости
и числа степеней свободы
находим критическое значение
.
Так как
,
между изучаемыми показателями существует
значимая корреляционная связь, хотя и
слаба (как показывает коэффициент Ф).
Проверим вывод о силе связи с помощью коэффициента ассоциации Q:
.
Следовательно, по значению коэффициента ассоциации Юла можно сделать вывод о том, что между изучаемыми показателями существует заметная корреляционная связь.
Пример 2.5. Исследуем, зависит ли сохранность моркови от условий хранения. Было заложено на хранение 1000 кг моркови, в том числе 200 кг с использованием мха, 500 кг моркови, обработанной мелом, и 300 кг в обычных условиях. Затем по степени сохраняемости морковь была разбита на группы (плохая, средняя, хорошая и очень хорошая сохраняемость). Результаты исследования приведены в табл. 2.26.
Т а б л и ц а 2.26
Способ хранения
|
Сохраняемость моркови |
|
плохая ! средняя ! хорошая ! очень хорошая |
||
В обычных условиях Обработка мелом С использованием мха |
45 210 191 54 2 47 121 30 |
300 500 200 |
|
98 432 386 84 |
|
Вначале
проверим, существует ли связь между
признаками с помощью критерия
.
Теоретические частоты вычислим по
формуле
.
Например,
Тогда
.
По
таблице
- распределения находим критическое
значение
для уровня значимости
и числа степеней свободы
.
Так как, с вероятностью
можно утверждать, что существует связь
между условиями хранения и сохранностью
моркови.
Силу установленной статистической связи оценим с помощью коэффициентов контингенции:
.
Значения обоих коэффициентов контингенции указывают на существование умеренной корреляционной зависимости между условиями хранения и сохранностью моркови.
Так
как число строк и столбцов табл. 2.26 мало,
вычислим исправленный коэффициент
контингенции
,
предварительно определив
.
Для этого найдем сначала
,
а затем
.
Тогда исправленное значение коэффициента
C
Исправленное значение C подтверждает сделанный вывод.
Пример 2.6. Исследуем связь между уровнями заработной платы, выраженными в условных единицах, и удовлетворенностью ею рабочих и служащих Министерства жилищного и коммунального хозяйства Республики Беларусь. Заработную плату разобьем на шесть уровней. Результаты опроса 240 рабочих и служащих представлены в табл. 2.27.
Таблица 2.27
Уровень заработной платы |
Удовлетворенность заработной платой |
|
нет ! да |
||
1,0—1,5 1,5—2,0 2,0—2,5 2,5—3,0 3,0—3,5 3,5—4,0 |
24 – 25 12 38 28 18 42 10 30 - 13 |
24 37 66 60 40 13 |
|
115 125 |
|
Для
исследования бисериальной корреляции
вычислим коэффициенты
и
.
Для нашего примера n = 240,
.
По таблице нормального распределения
находим
,
чему соответствует значение плотности
нормального распределения
.
Подставив данные в формулы (2.37) и (2.38),
получим:
Для проверки значимости коэффициентов и вычислим t-статистику:
и сравним вычисленное
значение с критическим значением,
определенным по таблице распределения
Стьюдента для
и
:
.
Так как
с вероятностью
можно
утверждать, что коэффициенты
и
статистически значимы. Следовательно,
связь между признаками значима.
По данным примера можно сделать вывод о том, что между уровнями заработной платы и удовлетворенностью ею рабочих и служащих существует тесная корреляционна связь.