Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Tetrad_po_statistike.doc
Скачиваний:
122
Добавлен:
30.04.2015
Размер:
694.27 Кб
Скачать

Тема 8. Корреляционно – регрессионный анализ

Корреляция– это статистическая зависимость между случайными величинами, не имеющая строгого функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

Корреляционная статистическая связь – не полная связь между признаками при большом числе наблюдений (при сравнении средних значений).

Задачи корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак.

Задачами регрессионного анализаявляются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчетных значений зависимой переменной (функции регрессии).

Виды корреляционной связи в зависимости от количества признаков подразделяются на:

1.простую (парную) корреляцию, при которой измеряется связь между двумя признаками, один из которых является факторным признаком, а другой – результативным.

2.множественную корреляцию, при которой связь измеряется между тремя и более признаков, один из которых является результативным, а другие – факторными.

Как при простой корреляции, так и при множественной – связь имеет линейный характер (выражена линейным уравнением) или криволинейный характер (когда связь выражается любым другим математическим уравнением). Исходя из этого различают:

  1. линейную корреляцию

  2. криволинейную корреляцию.

Схематично корреляционно-регрессионный анализ складывается из следующих последовательно решаемых вопросов:

1. Установление причин связи (предшествует корреляционному анализу, который основывается на количественном измерении связей).

2. Отбор наиболее существенных признаков для анализа (сопоставление предположительно взаимосвязанных статистических рядов, построение таблиц и их графиков, применение статистических группировок простых и комбинированных).

3. Определение формы связи и подбор математического уравнения для выражения существующих связей (характер взаимосвязи между зависимой переменной и фактором). Например: если существует связь между двумя признаками – парная корреляция, взаимосвязаны они линейно, можно применить уравнение прямой х001х1, где а0и а1– параметры уравнения связи, х0и х1– зависимая (результативный признак) и не зависимая (факторный признак) переменные.

4. Расчет числовых характеристик корреляционной связи.

5. Статистическая оценка выборочных показателей связи.

Парная линейная корреляция

После того как определено принципиальное содержание корреляционной модели – комплекс показателей и форма связи, выраженные через соответствующие математические уравнения, задача сводится к определению показателей связи.

В основе отыскания показателей корреляционных уравнений лежит метод наименьших квадратов. Его суть заключается в том, что наилучшие оценки а0и а1получают, когда, где х1есть х0.

Сумма квадратов отклонений является функцией параметров а0и а1. Ее минимизация осуществляется решением системы уравнений

na0+a1Σx1=Σx0

a0Σx1+a1Σx12=Σx0x1

По данным статистического наблюдения необходимо вычислить Σx0, Σx1,Σx0x1, но прежде х0х1, затем х12иΣx12.

Подставим их в уравнение и определим неизвестные параметры а0и а1узнав их заменим в уравнение х0 01х1.

х0 – значение зависимой переменной, исчисленной по уравнению связи (подстрочные знаки указывают переменные, включенные в анализ)

а0– начало отсчета или значение х0 , когда х1=0

а1- коэффициент пропорциональности или коэффициент регрессии, он показывает, как изменяется х0при изменении х1на единицу.

Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции(r) икоэффициент детерминации(r2).

Если заданны значения переменных х0 и х1, то он вычисляется по формуле

Коэффициент корреляции принимает значения в интервале от –1 до +1. Принято считать, что если /r/<0,30, то связь слабая, при /r/=(0,3÷0,7)- средняя, при /r/>0,70– сильная, или тесная. Если жеr~0, то можно говорить об отсутствии линейной связи между х0и х1. Если при /r/=1, то можно говорить о функциональной связи.

Множественная линейная корреляция

Определение числовых значений параметров уравнения множественной корреляции (регрессии), как и парной корреляции (регрессии), обычно производится методом наименьших квадратов, для чего строится и решается система нормальных уравнений. Для линейной множественной корреляции у12….s= а11х1+ а2 х2+….+аsхsсистема нормальных уравнений такова:

а0n+ а1 Σх1+ а2Σх2+ …..+ аsΣхs=Σх0

а0Σх1+ а1Σх12+ а2Σх1х2+….+ аsΣх1х2= Σх0х1

………………………………………………….

а0Σхs+ а1Σх1хs+ а2Σх2хs+ ……+ аsΣхs2= Σх0хs

Коэффициенты при хiв уравнении множественной линейной корреляции показывают, на сколько в среднем изменяется результативный признак при увеличении соответствующего фактора на единицу и при фиксированном (постоянном) значении других факторов, входящих в уравнение регрессии.

Например: при нахождении а0, а1 и а2получим к примеру уравнение в виде

х0= 26,02 + 4,52 х1+ 5,74 х2, х0- урожайность; 4,52 х1– внесение удобрения; 5,74 х2– количество прополок. а0показывает регрессию х0на х1при фиксированном х2, а а2– регрессию х0на х2при фиксированном х1. Полученное уравнение регрессии показывает, что изменение внесения удобрений под основную обработку на единицу приводит к изменению урожайности на 4,5 ц при том условии, что число прополок фиксируется на определенном уровне. Повышение или понижение числа прополок приведет соответственно к росту или падению урожайности на 5,7ц при фиксированном значении х1.

При оценке линейной множественной связи рассчитывают коэффициент множественной корреляции. По смыслу он отражает тесноту связи между вариацией зависимой переменной и вариациями всех включенных в анализ независимых переменных. Обычно с начало строится линейная множественная регрессия, а затем оценивается сам коэффициент множественной корреляции, его формула такая:

, коэффициент детерминации R2– квадрат коэффициента множественной корреляции.

σ2ост =,

σ2общ=, где σ2общ– общая дисперсия фактических данных результативного признака, σ2ост– остаточная дисперсия характеризующая вариацию х0за счет факторов, не включенных в уравнение регрессии.

Коэффициент множественной корреляции изменяется от 0 до 1. Чем ближе Rк 1, тем более сильная связь между х0и множеством хn. ЕслиRне значительна по величине (как правило,R< или = 0,3), то можно утверждать, что не все важные факторы взаимосвязаны, учтены, либо выбрана неподходящая форма уравнения.

Коэффициент множественной корреляции, так же как и коэффициент парной корреляции, можно рассчитать на основе параметров уравнения связи:

.

Задание 1.Имеются следующие данные по десяти однородным предприятиям (таблица). Найдите уравнение корреляционной связи между электровооруженностью труда и выпуском продукции на одного работающего (связь линейная). Проанализируйте параметры уравнения регрессии. Определите парный коэффициент корреляции различными способами. Сделайте вывод.

Номер завода

Электровооруженность труда на одного работающего, кВт/ч (х1)

Выпуск готовой продукции на 1 работающего,.руб. (х0)

х1х0

х12

х02

Теорети-ческие

значения

х0

1

2

3

2

5

6

3

3

4

4

7

6

5

2

4

6

6

8

7

4

6

8

9

9

9

8

9

10

4

5

итого

В среднем

Методика расчета:

Вывод:

Задание 2. Имеются следующие данные по семи однородным семьям (таблица). Найдите уравнение множественной регрессии, выражающее зависимость расходов на питание от дохода и размера семьи (связь линейная). Проанализируйте параметры уравнения множественной регрессии. Определите коэффициент множественной корреляции. Сделайте выводы.

Методика расчета:

Номер семьи

Доход на душу за месяц, тыс. руб. х1

Число членов семьи

х2

Расход на питание за месяц, тыс. руб.

х0

х0х1

х0х2

х0²

х1²

х1х2

х2²

Теоретические значения

х0

1

4

1

1,5

2

5

1

2

3

8

2

4

4

7,5

2

3

5

9

3

4

6

10

3

5,5

7

10,5

4

6

Итого

В среднем

Методика расчета:

Вывод:

41