Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МатСтГл4-2.doc
Скачиваний:
113
Добавлен:
01.06.2015
Размер:
410.62 Кб
Скачать

4.5. Выборочный коэффициент корреляции

Коэффициент корреляции вводится как величина, которая служит мерой тесноты (силы) линейной корреляционной зависимости признаков.

Рассмотрим сначала эксперименты, в которых одновременно измеряются только две величины (обозначим их Y иX ). Пусть проведеноn независимых совместных измерений признаковY иX , в результате которых полученоnпар чисел:

(x1, y1), (x2, y2), (x3, y3), …, (xi , yi ), …, (xn, yn). (4.7)

Такую совокупность пар чисел можно рассматривать как случайную выборку из генеральной совокупности всех возможных значений пары (Y ,X). Поэтому получаемое по этим данным значение коэффициента корреляции называют выборочным.

Выборочный коэффициент корреляции определяется равенством

, (4.8)

где yi - экспериментальное значение величиныY , соответствующееxi ;

n – объем выборки;

- выборочные средние признаковX иY ;

-выборочныесредние квадратичные отклонения признаковX иY .

Если вместо выборочных использовать исправленныесредние квадратичные отклоненияsx,sy , то вычисление выборочного коэффициента корреляции производится по формуле

. (4.9)

Почему введенное таким образом выражение для rв способно служить мерой тесноты корреляционной связи? Дело в том, что выражение дляrв является суммой произведений так называемых нормированных отклонений. Нормированное отклонениеt(xi) вариантыxiесть разность между значениемxiварианты и ее средним значением, отнесенная к среднему квадратичному отклонению этой варианты:. Аналогичноесть нормированное отклонение вариантыyi . Используя нормированные отклонения, выражение дляrвможно представить в видеrв=. При коррелированности (т.е. наличии сопряженности изменения) признаковX иY величиныt(xi) иt(yi) принимают положительные и отрицательные значения некоторым регулярным образом, поэтому произведенияt(xi) t(yi) входят вбольшей частью с одинаковым знаком, что обеспечивает отличиеrв от нуля. Кроме того, при коррелированности признаковX иY и модули величинt(xi) иt(yi) меняются согласованно: например, в случае линейной корреляции большим по модулю значениямt(xi) соответствуют, как правило, большие по модулю значения t(yi), что также приводит к отличиюrв от нуля. Наоборот, при отсутствии корреляции знаки величинt(xi) иt(yi) будут меняться чисто случайным образом, из-за чего число положительных слагаемых в суммебудет примерно равно числу отрицательных, что приведет к их взаимному сокращению и равенствуrв = 0.

Существует много различных рабочих формул для вычисления rв прямым способом, т.е. при непосредственном использовании полученных в результате измерений значенийxi иyi . Здесь приведены лишь наиболее употребимые из них. Выражение

(4.10)

получается из (4.8) заменой ивыражениямиив соответствии с их определением. В этом выражении используются только отклонения вариант от средних.

Еще одна формула для вычисления rвполучается в результате преобразования числителя в выражении (4.9):

Отсюда получаем

(4.11)

или

. (4.12)

Формулы (4.8 ), (4.9) и (4.10 ) для вычисления выборочного коэффициента корреляции применимы и в случаях, когда данные измерений не могут быть сгруппированы, из-за того, что различные значения xi иyi величинX иY наблюдаются по одному разу, и в тех случаях, когда данные могли бы быть сгруппированы, но решено группировку не делать.

Если данные n экспериментов по совместному измерению значений величинY иX сгруппированы и представлены в виде корреляционной таблицы (типа приведенной в 4.4.2.), то выборочный коэффициент корреляции удобно вычислять по формуле

, (4.13)

где x,y – варианты (наблюдавшиеся значения) признаковX иY ;

nxy - частота (число появлений) наблюдавшейся пары вариант (x ,y );

n – объем выборки ();

- выборочные средние признаковX иY ;

- выборочные средние квадратичные отклонения признаковX иY .

Если использовать исправленныесредние квадратичные отклоненияsx,sy , то

. (4.14)

Важно отметить, что выборочный коэффициент корреляции rв и угловой коэффициентk прямой линии регрессии (4.4) связаны между собой соотношением

(4.15)

или

. (4.16)

Это выражение не только дает еще один способ вычисления коэффициента корреляции, но и явно указывает на то, что rв является мерой именно линейной корреляционной связи.

Пример 4.3. Проверить прямым вычислением справедливость формулы (4.15) по данным примера 4.2.

Решение. По данным примера 4.2.

Выборочные дисперсии равны

,

.

Выборочные средние квадратичные отклонения равны

Отсюда

.

С другой стороны

Если вместо выборочных использовать исправленные средние квадратичные отклонения, которые оказываются в данном случае равными sx =,sy = , то

Е

Какие значения rв можно считать большими, а какие средними или малыми? Оказывается, что при наличии корреляции степень влияния изменений одного признака на изменения другого может быть выражена квадратом коэффициента корреляции. Это значит, что приrв = 0,9 81% вариации одного признака обусловлен вариацией другого признака, в остальных же 19% случаев совпадение или несовпадение вариаций признаков по знаку и величине является чисто случайным. Приrв = 0,3 такая обусловленность имеет место менее, чем для 10% вариаций. Таким образом, корреляцию (связь) принято считать: очень тесной, если; тесной, если; средней (значительной), если; умеренной, если; слабой, если

Изучаемые признаки X иYчасто имеют различную размерность, но коэффициент корреляцииrвесть всегда величинабезразмерная.