Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика. 6 лекция.doc
Скачиваний:
36
Добавлен:
15.04.2015
Размер:
334.34 Кб
Скачать

Лекция 6 Основы корреляционного анализа

Основные вопросы лекции:

  1. Понятие о функциональных, стохастических, статистических и корреляционных связях.

  2. Определение формы связи.

  3. Поле корреляции.

  4. Линейная регрессия.

  5. Способ наименьших квадратов.

[Править] Корреляция и регрессия.

Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами XиYприменяют корреляционный анализ. Если совместное распределениеXиYявляется нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков — критерий хи-квадрат.

Регрессионный анализ применяют для изучения функциональной зависимости количественного признака Yот количественных признаковx(1),x(2),...,x(k). Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случаеk= 1) использует в качестве исходной информации набор пар результатов наблюдений (xi,yi),i= 1,2,...,n, и имеет вид

,

где εi— ошибки наблюдений. Иногда предполагают, что εi— независимые случайные величины с одним и тем же нормальным распределениемN(0,σ2). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке, то есть при произвольном распределении εi.

Основная задача регрессионного анализа состоит в оценке неизвестных параметров aиb, задающих линейную зависимостьyотx. Для решения этой задачи применяют разработанный еще К.Гауссом в 1794 г. метод наименьших квадратов, то есть находят оценки неизвестных параметров моделиaиbиз условия минимизации суммы квадратов

по переменным aиb.

Теория регрессионного анализа описана и расчетные формулы даны в специальной литературе [2],[11],[19]. В этой теории разработаны методы точечного и интервального оценивания параметров, задающих функциональную зависимость, а также непараметрические методы оценивания этой зависимости, методы проверки различных гипотез, связанных с регрессионными зависимостями. Выбор планов эксперимента, то есть точекxi, в которых будут проводиться эксперименты по наблюдениюyi— предмет теории планирования эксперимента[20].

Лабораторная работа №10. Изучение коэффициентов корреляции Спирмена и Кэнделла

Пусть некоторые объекты обладают парой признаков каждый и гипотеза об их взаимосвязи не отвергается. Если признаки оказались взаимосвязаны, исследователя интересует сила их связи. Для описания такой связи было предложено много различных коэффициентов, называемых мерами связи. В порядковых (ординальных) шкалах реальным содержанием измерений является тот порядок, в котором выстраиваются объекты (по степени выраженности измеряемого признака) и вместо значений чисел рассматривают их ранги. Здесь проверка нулевой гипотезы ведётся методом Спирмена. Пусть признаков два и каждый из n объектов характеризуется парой чисел (xi, yj) - своими значениями признаков А и В. От чисел переходим к их рангам (ri, sj). Cчитаем, что среди чисел xi и yj нет повторяющихся. Если признаки взаимосвязаны, то порядок, в котором следуют числа xi влияет на порядок, в котором следуют числа yj. Чем более тесно связаны эти признаки, тем в большей степени последовательность ri предопределяет последовательность sj. Если же признаки такой связи не проявляют, то порядок среди игреков случаен по отношению к порядку среди иксов. В этом случае все n! перестановок чисел 1, 2, ..., n, которые могут выступать как ранги, оказываются равновероятными при любом порядке чисел ri. По предложению Спирмена, близость двух рядов рангов ri и sj можно характеризовать статистикой:

Она принимает наименьшее возможное значение S = 0 тогда и только тогда, когда последовательности полностью совпадают. Наибольшее возможное значение величина S принимает, когда эти последовательности полностью противоположны. При этом искомая сумма есть сумма квадратов последовательных нечётных чисел:

Smax = (n - 1)² + [(n - 1) - 2)]² +… + 1² = (n³ - n)/3

Принято, что коэффициент корреляции должен изменяться от (-1) до 1. Поэтому нормированный и центрированный коэффициент связи Спирмена:

Крайние значения ±1 он принимает в случаях полной предсказуемости одной ранговой последовательности по другой. Значение S не зависит от первоначальной нумерации объектов. Поэтому обычно упорядочивают данные по одному из признаков. Последовательность рангов по этому признаку: 1, 2,..., n. Другой коэффициент ранговой корреляции получил популярность после работ М. Кендэлла. В качестве меры сходства между двумя ранжировками, используется минимальное число перестановок соседних объектов, которые надо сделать, чтобы одно упорядочение объектов превратить в другое. Пусть один ряд упорядочен, а второй состоит из чисел sj. Тогда K равно числу инверсий в последовательности {sj}. Пусть, например, n = 4 и (sj) = (4, 3, 1, 2). Инверсии (нарушения порядка) суть: - первый элемент последовательности дает три инверсии: 4 прежде 3, 4 прежде 1, 4 прежде 2. - второй элемент дает три инверсии: 3 прежде 1, 3 прежде 2. Всего инверсий в данном случае K = 5 = 3 + 2. Наименьшее возможное значение K = 0, наибольшее K = n(n - 1)/2. Как и для S, эти значения получаются при полном совпадении и полной противоположности ранговых последовательностей. Коэффициент ранговой корреляции по Кендэллу:

Распределение обоих коэффициентов корреляции строится при нулевой гипотезе, когда все n! возможных значений расположений рангов {sj} равновероятны. Составлены таблицы. Для небольших n эти таблицы точные, для других значений - приближенные. Если Н0 верна, распределение коэффициентов симметрично и концентрируется около нуля тем сильнее, чем больше n. Если признаки зависимы, распределение вероятностей может быть иным. Поведение коэффициентов ранговой корреляции в этом случае легко проследить лишь для наиболее простого вида связи - монотонной (положительной или отрицательной). Для монотонной положительной связи значение одного признака тем больше, чем больше значение другого. При отрицательной - наоборот. Такая альтернатива независимости легко обнаруживается с помощью коэффициента ранговой корреляции, абсолютное значение которого в этом случае должно быть близко к единице. Если же зависимость между признаками более сложная, ее влияние на ранжировки может быть не столь простым. Поэтому с помощью коэффициентов ранговой корреляции далеко не всякую зависимость можно отличить от независимости. Все же появление в эксперименте больших (по модулю) наблюдаемых значений коэффициентов ранговой корреляции свидетельствует против гипотезы независимости в пользу связи между признаками (положительной либо отрицательной, смотря по знаку коэффициента). Для проверки Н0 надо вычислить выборочное значение коэффициента ранговой корреляции и сравнить его с критическим значением для данного уровня значимости, которое следует извлечь из таблиц. Гипотезу Н0 надо отвергнуть (на выбранном уровне значимости), если полученное в опыте значение коэффициента ранговой корреляции превосходит критическое (по модулю). При больших n и при Н0 нормированные статистики распределены (приближенно) по стандартному нормальному закону: