Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций по теории вероятности.doc
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
4.53 Mб
Скачать

A. Понятие о корреляционном анализе

Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между наблюдаемыми переменными. Знание взаимосвязей отдельных признаков дает возможность прогнозировать развитие ситуации при изменении конкретных характеристик объекта исследования. Основное содержание экономической политики, в конечном счете, может быть сведено к регулированию экономических переменных, осуществляемому на базе выявленной информации об их взаимовлиянии. Поэтому проблема изучения взаимосвязей показателей является одной из важнейших в статистическом анализе экономических систем.

Корреляция в широком смысле слова означает связь, соотношение между объективно существующими явлениями. Если случайные переменные причинно обусловлены, то имеется корреляция.

Корреляция может быть:

  • положительной или отрицательной;

  • в зависимости от числа переменных – простой или множественной;

  • в зависимости от формы связи – линейной или нелинейной.

Важнейшими задачами корреляционного анализа являются:

  • измерение силы связи двух или более факторов;

  • отбор факторов, оказывающих существенное влияние на результативный признак (зависимую переменную) на основании измерения тесноты связи между факторами.

В случае лишь одной независимой переменой X в качестве меры связи между ней и зависимой переменной Y служит коэффициент корреляции. Он оценивается по выборке объема n связанных пар наблюдений (xi, yi). В случае нескольких переменных необходимо последовательно вычислять коэффициенты корреляции по нескольким рядам числовых данных. Полученные коэффициенты сводят в таблицы, называемые корреляционными матрицами.

Корреляционная матрица представляет собой квадратную матрицу, на пересечении строки и столбца которой находится коэффициент корреляции между соответствующими переменными.

Если в результате испытаний система двух случайных величин приняла значения , то коэффициент корреляции равен

где - средние значения , а - средние квадратические отклонения случайных величин соответственно.

Для многомерной выборки (т. е. в случае более двух факторов) необходимо рассчитать корреляционную матрицу ,которая является симметричной относительно главной диагонали.

Пример

Имеются ежемесячные данные наблюдений за состоянием погоды и посещаемостью музея и парка, приведенные в таблице

Число ясных дней

(X1)

Количество посетителей музея

(X2)

Количество посетителей парка

(X3)

8

495

132

14

503

348

20

380

643

25

305

865

20

348

743

15

465

541

Необходимо определить, существует ли взаимосвязь между состоянием погоды и посещаемостью музеев и парков. В результате расчета получим корреляционную матрицу

Из корреляционной матрицы видно, что корреляция между состоянием погоды и посещаемостью музея равна -0,921, а между состоянием погоды и посещаемостью парка 0,975. Таким образом, выявлена отрицательная корреляция между посещаемостью музея и количеством солнечных дней и практически линейная положительная корреляция между посещаемостью парка и состоянием погоды.

B. Понятие о регрессионном анализе

При рассмотрении взаимосвязей, как правило, рассматривают одну из величин (X) как независимую (объясняющую), а другую (Y) как зависимую (объясняемую). При этом изменение первой из них может служить причиной изменения другой. Например, рост дохода ведет к увеличению потребления; рост цены – к снижению спроса; снижение процентной ставки увеличивает инвестиции и т.д. Эта зависимость не является однозначной в том смысле, что каждому конкретному значению объясняющей переменой X может соответствовать не одно, а множество значений Y. Другими словами, каждому конкретному значению независимой переменной соответствует некоторое вероятностное распределение зависимой переменной. Поэтому анализируют, как объясняющая переменная (или переменные) влияет (или влияют) на зависимую переменную "в среднем". Зависимость такого типа, выражаемая соотношением называется функцией регрессии Y на X. При рассмотрении зависимости двух случайных величин говорят о парной регрессии.

Зависимость нескольких переменных, выражаемую функцией называют множественной регрессией.

Под регрессией понимается функциональная зависимость между объясняющими переменными и условным математическим ожиданием (средним значением) зависимой переменной Y, которая строится с целью предсказания (прогнозирования) среднего значения Y при некоторых значениях независимых переменных.

Установление формы зависимости и оценка параметров функции регрессии являются задачами регрессионного анализа.

Так как реальные значения зависимой переменной могут быть различными при данном X (или ), зависимость должна быть дополнена некоторым слагаемым e, которое, по существу, является случайной величиной. Получающиеся в результате соотношения или

называются регрессионными уравнениями (или моделями).

Построение уравнения регрессии, описывающего эмпирические данные, включает три этапа:

  • выбор формулы уравнения регрессии;

  • определение параметров выбранного уравнения;

  • анализ качества уравнения и проверка адекватности уравнения эмпирическим данным и, при необходимости, совершенствование уравнения.

В случае парной регрессии выбор уравнения обычно осуществляется по графическому изображению реальных статистических данных - корреляционному полю.

Рис.1 Корреляционные поля. А) – линейная регрессия; Б) – квадратичная регрессия; В) – отсутствие выраженной связи Y и X.

Выборочные уравнения регрессии.

Для определения значений теоретических коэффициентов, входящих в уравнения регрессии, необходимо знать и использовать все значения переменных генеральной совокупности, что практически невозможно. В связи с этим по выборке ограниченного объема строится так называемое выборочное (эмпирическое) уравнение регрессии. Из-за ограниченности выборки оценки коэффициентов, входящих в выборочное уравнение регрессии, отличаются от истинных (теоретических) значений, что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к отличающимся друг от друга оценкам. Задача состоит в том, чтобы по конкретной выборке найти оценки неизвестных параметров так, чтобы построенная линия регрессии являлась наилучшей среди всех других линий.