Скачиваний:
110
Добавлен:
01.05.2014
Размер:
1.19 Mб
Скачать

2.11. Проблема интерпретации значений коэффициентов связи

Применение различных мер связи даже к одним и тем же данным часто приводит к трудностям интерпретации интенсивности связи. Пусть, например, для некоторых трех мер связи получены значения 0.3, 0.45 и 0.55. Очевидно, что различные значения данных мер связи, полученные для одних и тех же данных, измеряют одну и ту же связь. Хотя меры связи и нормированы в пределах от 0 до 1, их поведение внутри единичного интервала различно, так как меры связи имеют разный смысл. Поэтому, получив значение 0.5 некоторой меры связи, затруднительно однозначно определить измеренную связь как сильную, умеренную или слабую. Поэтому часто выбор меры трудно обосновать, а результаты измерений при помощи разных мер трудно сравнивать.

Следовательно, возникает задача исследования поведения мер связи внутри их интервала изменения. Как правило, поведение мер связи в предельных ситуациях - около 0 и 1- хорошо исследовано, так как стандартное значение меры должно соответствовать стандартному виду матрицы сопряженности. Аналитическое исследование поведения мер связи внутри интервала их изменения связано со значительными трудностями. Наиболее приемлемым методом исследования является численное моделирование матриц сопряженности с заранее заданной интенсивностью связи между признаками методом Монте-Карло и построение экспериментальных усредненных зависимостей значений мер связи от ее интенсивности. Как правило, строгость выводов и вид зависимости значений мер связи от ее интенсивности в значительной мере определяются видом модели матрицы сопряженности и методикой проведения экспериментов. Но, как правило, эксперименты с разными моделями показывают общую тенденцию в поведении каждой меры связи

Идея моделирования матрицы сопряженности заключается в следующем. Известно, что коэффициент корреляции служит мерой линейной связи между двумя количественными переменными. При ослаблении корреляционной связи от максимальной (линейной зависимости) до минимальной (статистической независимости) изменяется характер совместного распределения значений в плоскости данных двух признаков. А именно, вид совместного распределения значений изменяется от вырожденного случая в виде линии через постепенно расширяющийся эллипс рассеивания (в котором содержится 99.73% наблюдений) до предельного эллипса рассеивания в виде окружности при условии, что признаки распределены нормально с одинаковыми дисперсиями. Будем считать коэффициент корреляции характеристикой интенсивности связи При исследовании мер связи номинальных признаков следует задаться числом и интервалами градаций каждого признака. Тогда совместное распределение значений признаков позволит сформировать матрицу сопряженности, соответствующую данному распределению.

Можно поступить по-другому. Пусть два признака распределены равномерно в единичном интервале, а величина 1-характеризует ширину интервала равномерного распределения значений одного признака относительно другого. Тогда призначения второго признака равномерно распределены в единичном интервале независимо от значений первого признака, а приширина интервала равномерного разброса значений равна нулю, то есть значения признаков совпадают. Следует также ввести градации признаков и получить матрицу сопряженности.

Матрицу сопряженности можно сформировать по-разному. При справедливости гипотезы независимости выполняется соотношение , то есть матожидание частотысовместного появленияэлемента матрицы зависит только от маргинальных частот и объема выборки. При фиксированном объеме выборки можно сформировать маргинальные частоты тремя способами. Во-первых, маргинальные частоты задаются заранее и не изменяются при изменении интенсивности связи. Во-вторых, маргинальные частоты только одного признака задаются заранее, а у другого изменяются при изменении интенсивности связи. В-третьих, маргинальные частоты заранее не задаются и изменяются при изменении интенсивности связи.

Например, исследование коэффициента Гудмена-Крускала при нормальном распределении значений признаков и заданных маргинальных частотах одного признака показывает, что значениясоответствуют интенсивности связи выше средней, а значениясоответствуют сильной связи(рис. 2.5).

Рис. 2.5. Коэффициент а) нормальная, б) равномерная модели.

Исследование того же коэффициента при равномерном распределении значений признаков и не заданных заранее маргинальных частотах обоих признаков показывает, что при интенсивность связи выше средней, а значениясоответствуют сильной связи. Поэтому можно сделать вывод, что значениесоответствует сильной связи, а поведение данной меры связи внутри интервала изменения описывается кривой, проходящей ниже биссектрисы первого квадранта системы координат.

Соседние файлы в папке Методы анализа больших массивов данных