
9.3. Измерение тесноты связи.
Измерение тесноты связи может быть решено посредством расчета теоретического корреляционного отношения.
Тремя основными целями анализа двумерных данных, представленных парами (х, у), являются: (1) описание и понимание взаимосвязи, (2) прогнозирование и предсказание нового наблюдения и (3) корректировка и управление процессом.
Корреляционный анализ позволяет сделать вывод о силе взаимосвязи, а регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, у на основании х).
Двумерные данные анализируют
с использованием диаграммы
рассеяния в
координатах у
и х,
которая дает визуальное представление
о взаимосвязи в данных. Корреляция,
или точнее линейный
коэффициент корреляции
(r),
представляет собой безразмерное (не
имеющее единиц измерения) число в
диапазоне от -1
до 1,
которое характеризует силу взаимосвязи.
Равенство коэффициента корреляции 1
свидетельствует об идеальной взаимосвязи
в виде прямой линии с наклоном вверх.
Равенство коэффициента корреляции -1
свидетельствует об идеальной взаимосвязи
в виде наклоненной вниз (отрицательно)
прямой линии. Коэффициент корреляции
говорит о том, насколько близко к этой
наклоненной прямой линии расположены
точки диаграммы, однако он не характеризует
крутизну наклона этой линии. В случае
линейной связи корреляционное отношение
может быть заменено линейным коэффициентом
корреляции (),
вычисленным посредством формул, которые
тождественны между собой:
(9.3)
(9.4)
(9.5)
где – коэффициент регрессии в уравнении
связи
– соответственно среднее квадратичное
отклонение в ряду
и
;
– средние соответствующих величин;
– количество наблюдений;
–стандартные отклонения.
(9.6)
Ковариация х и у представляет собой числитель в формуле (9.5) для коэффициента корреляции. Поскольку единицы измерения ковариации трудно интерпретировать, удобнее работать с коэффициентом корреляции.
При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшей, с точки зрения анализа, является линейная взаимосвязь, которая выражается в том, что точки на диаграмме рассеяния с постоянным разбросом группируются случайным образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии взаимосвязи, если точки размещены случайно и при перемещении слева направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз). Двумерная диаграмма рассеяния характеризуется нелинейной взаимосвязью, если точки на ней группируются вдоль кривой, а не прямой линии. Поскольку количество видов кривых практически безгранично, анализ нелинейной взаимосвязи оказывается намного сложнее, однако взаимосвязь можно приблизить к линейной, применив к данным соответствующее преобразование. Проблема неравной вариации возникает тогда, когда при перемещении по горизонтали на диаграмме рассеяния вариация точек по вертикали сильно меняется. Неравная вариация приводит к снижению надежности коэффициента корреляции и регрессионного анализа. Проблему неравной вариации можно решить с помощью соответствующих преобразований данных или с помощью, так называемой взвешенной регрессии. Проблема кластеринга (разделение совокупности на группы более однородных объектов) возникает в случае образования на диаграмме рассеяния отдельных, ярко выраженных групп точек. В таких случаях каждую группу следует анализировать отдельно. Некоторая точка данных является выбросом (резко отклоняющимся значением), если она не соответствует взаимосвязи между остальными данными; резко отклоняющиеся значения могут исказить статистические характеристики двумерной совокупности данных.
Корреляцию нельзя рассматривать как причинную обусловленность. Коэффициент корреляции характеризует связь между числами, но не объясняет ее. Корреляция может быть вызвана тем, что переменная х влияет на у, или тем, что переменная у влияет на х. Кроме того, корреляция может быть вызвана также тем, что на х и у влияет некий скрытый "третий фактор", что создает впечатление связи между х и у Термином ложная корреляция обозначают высокую корреляцию, которая возникает благодаря действию некоторого третьего фактора.