
- •Тема: корреляционный анализ
- •1. Корреляционная зависимость двух случайных переменных величин X и y
- •2. Формы представления выборочных данных для корреляционного анализа
- •3. Парная линейная регрессия
- •4. Корреляционный анализ как один из приемов прогнозирования
- •5. Уравнение множественной линейной регрессии
Тема: корреляционный анализ
1. Корреляционная зависимость двух случайных переменных величин X и y
Корреляционный анализ – один из методов исследования статистической зависимости переменных случайных величин на основе выборочных данных.
Пусть Х – рост, Y – масса человека. Несмотря на возможные значительные различия массы человека одного и того же роста можно утверждать, что для данного роста существует некоторая средняя (оптимальная) масса. Отсюда и формулы для эталонов, т.е. рекомендации «веса» для человека определенного роста, начиная с новорожденных. Изменяется рост – изменяется и рекомендуемый средний «вес» (масса) человека. Обратно, задавая массу тела, можно указать соответствующий ей «эталонный» рост.
Данный пример иллюстрирует взаимосвязь системы двух случайных переменных величин. Однако между Х и Y может существовать только односторонняя связь: Y – степень обученности юриста-практиканта, измеряемая числом различных видов правонарушений за период его практики, Х – уровень преступности за период практики. Между Х и Y может вообще отсутствовать статистическая зависимость: Х – количество осадков, выпавших за год, Y – число абитуриентов, поступивших в СГУ за этот год. Хотя кажущаяся зависимость в определенные годы и может наблюдаться: и то и другое может расти или уменьшаться одновременно.
Если изменение одной случайной величины Х приводит к функциональному изменению среднего значения другой случайной переменной Y, т.е. если М(Y) = f(х), то связь между Х и Y называется корреляционной зависимостью. Функция f(х) называется регрессией (в вольном толковании «откликом») Y на Х. Возможна и регрессия Х на Y, т.е. М(Х) = (y). График y = f(х) называется линией регрессии Y на Х, график x = (y) – линией регрессии Х на Y.
Регрессия случайной зависимой переменной может иметь место и в случае, когда независимая переменная не является случайной величиной, т.е. принимает заданные значения.
2. Формы представления выборочных данных для корреляционного анализа
И
сследование
предположения о существовании
корреляционной зависимости двух
случайных переменных величин и формы
линии регрессии обычно проводится по
диаграмме рассеяния или по корреляционной
таблице и называется регрессионным
анализом.
После проведения регрессионного анализа,
для уточнения числовых параметров
уравнения регрессии и выявления степени
влияния изменения одной случайной
переменной на другую (тесноты
статистической связи случайных
переменных)
проводится корреляционный
анализ.
Диаграмма рассеяния –
точечный график значений пар
(Х; Y) случайных величин по
данным выборки. Недостатком
диаграммы рассеяния является
отсутствие информации о час-
тоте
значений (хi,
yi).
Достоинство – наглядность распределения
выборочных данных. При этом форма линии
регрессии y
= y(x)
устанавливается по точкам yi*
=
,
т.е. график функции y
=
y(x)
проходит через точки (хi,
),
где
– условное
выборочное среднее
случайной величины Y.
К
орреляционная
таблица
–
матрица частот значений (хi, yi).
Достоинство – полная инфор-
мация о выборке, недостаток –
отсутствие наглядности.