Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции Теория вероятностей и мат.статистика.doc
Скачиваний:
551
Добавлен:
17.04.2014
Размер:
4.46 Mб
Скачать

A. Понятие о корреляционном анализе

Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между наблюдаемыми переменными. Знание взаимосвязей отдельных признаков дает возможность прогнозировать развитие ситуации при изменении конкретных характеристик объекта исследования. Основное содержание экономической политики, в конечном счете, может быть сведено к регулированию экономических переменных, осуществляемому на базе выявленной информации об их взаимовлиянии. Поэтому проблема изучения взаимосвязей показателей является одной из важнейших в статистическом анализе экономических систем.

Корреляция в широком смысле слова означает связь, соотношение между объективно существующими явлениями. Если случайные переменные причинно обусловлены, то имеется корреляция.

Корреляция может быть:

  • положительной или отрицательной;

  • в зависимости от числа переменных – простой или множественной;

  • в зависимости от формы связи – линейной или нелинейной.

Важнейшими задачами корреляционного анализа являются:

  • измерение силы связи двух или более факторов;

  • отбор факторов, оказывающих существенное влияние на результативный признак (зависимую переменную) на основании измерения тесноты связи между факторами.

В случае лишь одной независимой переменой Xв качестве меры связи между ней и зависимой переменнойYслужиткоэффициент корреляции. Он оценивается по выборке объемаnсвязанных пар наблюдений (xi,yi). В случаенесколькихпеременных необходимо последовательно вычислять коэффициенты корреляции по нескольким рядам числовых данных. Полученные коэффициенты сводят в таблицы, называемыекорреляционными матрицами.

Корреляционная матрицапредставляет собой квадратную матрицу, на пересечении строки и столбца которой находится коэффициент корреляции между соответствующими переменными.

Если в результате испытанийсистема двух случайных величинприняла значения, то коэффициент корреляции равен

где - средние значения , а- средние квадратические отклонения случайных величинсоответственно.

Для многомернойвыборки (т. е. в случае более двух факторов) необходимо рассчитатькорреляционную матрицу,которая является симметричной относительно главной диагонали.

Пример

Имеютсяежемесячные данные наблюдений за состоянием погоды и посещаемостью музея и парка, приведенные в таблице

Число ясных дней

(X1)

Количество посетителей музея

(X2)

Количество посетителей парка

(X3)

8

495

132

14

503

348

20

380

643

25

305

865

20

348

743

15

465

541

Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков. В результате расчета получим корреляционную матрицу

Из корреляционной матрицы видно, что корреляция между состоянием погоды и посещаемостью музея равна -0,921, а между состоянием погоды и посещаемостью парка 0,975. Таким образом, выявлена отрицательная корреляция между посещаемостью музея и количеством солнечных дней и практически линейная положительная корреляция между посещаемостью парка и состоянием погоды.

B. Понятие о регрессионном анализе

При рассмотрении взаимосвязей, как правило, рассматривают одну из величин (X) как независимую (объясняющую), а другую (Y) как зависимую (объясняемую). При этом изменение первой из них может служить причиной изменения другой. Например, рост дохода ведет к увеличению потребления; рост цены – к снижению спроса; снижение процентной ставки увеличивает инвестиции и т.д. Эта зависимость не является однозначной в том смысле, что каждому конкретному значению объясняющей переменойXможет соответствовать не одно, амножествозначенийY. Другими словами, каждому конкретному значению независимой переменной соответствует некотороевероятностное распределениезависимой переменной. Поэтому анализируют, как объясняющая переменная (или переменные) влияет (или влияют) на зависимую переменную "в среднем". Зависимость такого типа, выражаемая соотношениемназываетсяфункцией регрессииYнаX. При рассмотрении зависимости двух случайных величин говорят опарной регрессии.

Зависимость несколькихпеременных, выражаемую функциейназываютмножественной регрессией.

Под регрессиейпонимается функциональная зависимость между объясняющими переменными иусловным математическим ожиданием(средним значением) зависимой переменнойY, которая строится с целью предсказания (прогнозирования) среднего значенияYпри некоторых значениях независимых переменных.

Установление формы зависимости и оценка параметров функции регрессии являются задачами регрессионного анализа.

Так как реальные значения зависимой переменной могут быть различными при данном X(или), зависимость должна быть дополнена некоторым слагаемымe, которое, по существу, являетсяслучайной величиной. Получающиеся в результате соотношенияили

называются регрессионнымиуравнениями (илимоделями).

Построение уравнения регрессии, описывающего эмпирические данные, включает три этапа:

  • выбор формулыуравнения регрессии;

  • определение параметроввыбранного уравнения;

  • анализ качества уравненияи проверкаадекватностиуравнения эмпирическим данным и, при необходимости,совершенствование уравнения.

В случае парнойрегрессии выбор уравнения обычно осуществляется по графическому изображению реальных статистических данных -корреляционному полю.

Рис.1 Корреляционные поля. А) – линейная регрессия; Б) – квадратичная регрессия; В) – отсутствие выраженной связи YиX.

Выборочные уравнения регрессии.

Для определения значений теоретических коэффициентов, входящих в уравнения регрессии, необходимо знать и использоватьвсезначения переменных генеральной совокупности, что практически невозможно. В связи с этимпо выборке ограниченного объемастроится так называемоевыборочное (эмпирическое) уравнение регрессии. Из-заограниченности выборкиоценки коэффициентов, входящих в выборочное уравнение регрессии, отличаются от истинных (теоретических) значений, что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к отличающимся друг от друга оценкам. Задача состоит в том, чтобы по конкретной выборкенайти оценки неизвестных параметров так, чтобы построенная линия регрессии являлась наилучшей среди всех других линий.