Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭКОНОМЕТРИКА-МЕТОДИЧКА.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
2.93 Mб
Скачать

1 Линейный парный регрессионный анализ

Все существующие связи между признаками классифицируют по степени тесноты, направлению, форме, числу факторов.

По степени тесноты связи делят на статистические и функциональные.

Статистическая связь - это такая связь между при­знаками, при которой для каждого значения признака-фактора X признак-результат может в определенных пределах принимать любые значения с некоторыми вероят­ностями; при этом его статистические (массовые) характе­ристики (например, среднее значение) изменяются по опре­деленному закону.

Статистическая связь обусловлена тем, что:

1) на результативный признак оказывают влияние не только факторы, учтенные в модели (которые мы исследуем), но и неучтенные или неконтролируемые факторы;

2) неизбежностью ошибок измерения значений при­знаков.

Модель статистической связи может быть представлена в общем виде уравнением:

где - зависимая переменная (предиктор, результативный признак), фактическое значение результативного признака;

Х – независимая переменная (регрессор);

- детерминированная составляющая - часть результативного признака, сформировав­шаяся под воздействием учтенных известных факторных признаков;

U – случайная составляющая (случайный остаток).

Противоположной статистической связи является функциональная. Функциональной называется такая связь, когда каждо­му возможному значению признака-фактора соответст­вует одно или несколько строго определенных значений ре­зультативного признака . Определение функциональной связи может быть легко обобщено для случая многих при­знаков Модель функциональной связи в общем виде можно представить уравнением:

По направлению изменений результативного и факторного признаков связи делят на прямые и обратные.

По форме связи (виду функции f) связи делят на пря­молинейные (линейные) и криволинейные (нелинейные).

По количеству факторов в модели связи подразделяют на однофакторные (парные) и многофакторные.

Одним из методов изучения стохастических связей между признаками является регрессионный анализ.

Регрессионный анализ представляет собой установле­ние аналитической зависимости между признаками. Он включает следующие этапы:

1) выбор формы связи (вида аналитического уравнения регрессии);

2) оценка параметров уравнения;

3) оценка качества аналитического уравнения регрес­сии.

Наиболее часто для описания статистической связи признаков используется линейная форма. Внимание к ли­нейной связи объясняется четкой экономической интерпре­тацией ее параметров, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму.

Линейная парная регрессия сводится к нахождению уравнения вида:

где и – параметры уравнения регрессии;

- часть результативного признака, сформировавшаяся под воздействием неконтролируемых или неучтенных факторов, а также ошибок измерения признаков.

Оценка параметров линейной регрессии проводиться по пространственной выборки (Yi Хi) . Для получения оценок наиболее часто используют метод наименьших квадратов (МНК).

Метод наименьших квадратов дает наилучшие (эффективные и несмещенные) оценки параметров уравнения рег­рессии. Но только в том случае, если выполняются опреде­ленные предпосылки относительно случайного члена и независимой переменной .

МНК позволяет получить такие оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака Y – от расчетных (тео­ретических) значений —Ŷ минимальна:

S=Σ(Y-Ŷ)2 → min.

Проиллюстрируем суть данного метода графически. Для этого построим точечный график по данным наблюдений в прямоугольной системе координат (такой точечный график называют корреляционным полем). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.

Y

Ŷ

Y

X

X

Рисунок 1 - Корреляционное поле зависимости между X и Y.

В случае линейной парной зависимости:

.

Значения и нам известны, это данные на­блюдений. В функции S они представляют собой констан­ты. Переменными в данной функции являются искомые оценки параметров – и . Чтобы найти минимум функции двух переменных необходимо вычислить частные произ­водные данной функции по каждому из параметров и приравнять их к нулю, т.е.

В результате получим систему из 2-ух нормальных линейных уравнений:

или

Решая данную систему, найдем искомые оценки параметров:

,

,

где , и - средние значения факторов Х, Y и их произведения.

В системе нормальных уравнений индексы опущены для облегчения запоминания .

Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм ΣY=ΣŶ (при этом возможно некоторое расхождение из-за округления расчетов).

Знак коэффициента регрессии указывает направле­ние связи (если , связь прямая, если , то связь обрат­ная). Величина показывает, на сколько единиц изменится в среднем признак-результат –Y при изменении признака-фактора – Х на 1 единицу своего измерения.

Формально значение параметра - среднее значение Y при X равном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трак­товка параметра не имеет смысла.

Оценка тесноты связи между признаками осуществляется с помощью коэффициента линейной парной корреляции - . Он может быть рассчитан по формуле: ,

Для качественной оценки тесноты связи можно использовать следующую классификацию:

0.1- 0.3- слабая связь

0.3-0.5 – умеренная связь

0.5-0.7- заметная связь

0.7-0.9- тесная связь

0.9-0.99- весьма тесная (Здесь значения взять по модулю).

где - среднее квадратическое отклонение факторного признака, которое определяется по формуле:

.

- среднее квадратическое отклонение результативного признака, которое определяется по формуле:

.

Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии .

Область допустимых значений линейного коэффици­ента парной корреляции от -1 до +1. Знак коэффициента корреляции указывает направление связи. Если , то связь прямая; если , то связь обратная.

Если данный коэффициент по модулю близок к еди­нице, то связь между признаками может быть интерпрети­рована как довольно тесная линейная. Если его модуль ра­вен единице , то связь между признаками функцио­нальная линейная. Если признаки X и Y линейно независи­мы, то близок к 0.

Для оценки качества полученного уравнения регрессии рассчитывают теоретический коэффициент детерминации - . Коэффициент детерминации характеризует долю ва­риации (дисперсии) результативного признака Y, объясняе­мую регрессией (а, следовательно, и фактором Х), в общей вариации (дисперсии) Y. Коэффициент детерминации принимает значения от 0 до 1. Соответственно величина характеризует долю дисперсии Y, вызванную влиянием прочих неучтенных в модели факторов и ошибками специ­фикации.

δ2 Σ(Ŷ- )2

R2yx= ____ = _____________

σ2y Σ(Y- )2

где - объясненная уравнением регрессии дисперсия Y;

- общая (полная) дисперсия Y.

В силу теоремы о сложении дисперсий общая дисперсия результативного признака равна сумме объясненной уравнением регрессии и остаточной (необъясненной) дисперсий:

.

Поэтому коэффициент детерминации может быть рассчитан через остаточную и общую дисперсии:

ε2 Σ(Y-Ŷ)2

R2=1- ____ = 1 - _____________

σ2y Σ(Y- )2

где - остаточная (необъясненная уравнением регрес­сии) дисперсия Y.

При парной линейной регрессии .

Оценка статистической значимости параметров уравнения регрессии.

С помощью МНК можно получить лишь оценки параметров уравнения регрессии. Чтобы проверить, значимы ли параметры (т.е. значимо ли они отличаются от нуля в истинном уравнении регрессии) используют статистические ме­тоды проверки гипотез. В качестве основной гипотезы вы­двигают гипотезу о незначимом отличии от нуля параметра регрессии или коэффициента корреляции. Альтернативной гипотезой, при этом является гипотеза обратная, т.е. о неравенстве нулю параметра или коэффициента корреляции. Для проверки гипотезы используется t-критерий Стьюдента.

Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактиче­ским) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (ко­торые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Табличное значение оп­ределяется в зависимости от уровня значимости и числа степеней свободы, которое в случае линейной парной рег­рессии равно , n-число наблюдений.

Если фактическое значение t-критерия больше таб­личного (по модулю), то считают, что с вероятностью параметр регрессии (ко­эффициент корреляции) значимо отличается от нуля.

Если фактическое значение t-критерия меньше таб­личного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр регрессии (коэффициент корреля­ции) незначимо отличается от нуля при уровне значимости .

Фактические значения t-критерия определяются по формулам:

,

,

где .

Для проверки гипотезы о незначимом отличии от нуля коэффициента линейной парной корреляции используют критерий:

,

где r - оценка коэффициента корреляции, полученная по наблюдаемым данным.

Прогноз ожидаемого значения результативного признака Y по линейному парному уравнению регрессии.

Пусть требуется оценить прогнозное значение призна­ка-результата для заданного значения признака-фактора . Прогнозируемое значение признака-результата с дове­рительной вероятностью равной принадлежит интервалу прогноза:

,

где - точечный прогноз;

t - коэффициент доверия, определяемый по таблицам распределения Стьюдента в зависимости от уровня значимости α и числа степеней свободы ;

- средняя ошибка прогноза.

Точечный прогноз рассчитывается по линейному уравнению регрессии, как:

.

Средняя ошибка прогноза определяется по формуле:

.

Пример 1.

На основе данных, приведенных в Приложении и соответствующих варианту 100, требуется:

  1. Построить уравнение линейной парной регрессии одного признака от другого. Один из признаков, соответствующих Вашему варианту, будет играть роль факторного (Х), другой - результативного . Причинно-следственные связи между признаками установить самим на основе экономического анализа. Пояснить смысл параметров уравнения.

  2. Рассчитать линейный коэффициент парной корреляции и коэффициент детерминации. Сделать выводы.

  3. Оценить статистическую значимость параметров регрессии и коэффициента корреляции с уровнем значимости 0,05.

  4. Выполнить прогноз ожидаемого значения признака-результата Y при прогнозном значении признака-фактора X, составляющим 105% от среднего уровня X. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал с вероятностью 0,95.

Решение:

В качестве признака-фактора в данном случае выберем курсовую цену акций, так как от прибыльности акций зависит величина начисленных дивидендов. Таким образом, результативным будет признак дивиденды, начисленные по результатам деятельности.

Для облегчения расчетов построим расчетную таблицу, которая заполняется по ходу решения задачи. (Таблица 1)

Для наглядности зависимости Y от X представим графически. (Рисунок 2)

Таблица 1 - Расчетная таблица

  1. Построим уравнение регрессии вида: .

Для этого необходимо определить параметры уравнения и .

Определим ,

где - среднее из значений , возведенных в квадрат;

- среднее значение в квадрате.

Определим параметр а0:

Получим уравнение регрессии следующего вида:

Параметр показывает, сколько составили бы дивиденды, начисленные по результатам деятельности при отсутствии влияния со стороны курсовой цены акций. На основе параметра можно сделать вывод, что при изменении курсовой цены акций на 1 руб. произойдет изменение дивидендов в ту же сторону на 0,01 млн. руб.

  1. Рассчитаем линейный коэффициент парной корреляции и коэффициент детерминации.

Линейный коэффициент парной корреляции определим по формуле:

,

Определим и :

Тогда

Коэффициент корреляции, равный 0,708, позволяет судить о тесной связи между результативным и факторным признаками .

Коэффициент детерминации равен квадрату линейного коэффициента корреляции:

Коэффициент детерминации показывает, что на вариации начисленных дивидендов зависит от вариации курсовой цены акций, и на - от остальных неучтенных в модели факторов.

  1. Оценим значимость параметров уравнения регрессии и линейного коэффициента корреляции по t-критерию Стьюдента. Необходимо сравнить расчетные значения t-критерия для каждого параметра и сравнить его с табличным.

Для расчета фактических значений t-критерия определим :

Тогда

Далее определим . при уровне значимости и числе степеней свободы равном :

Сравним и с : , следовательно, оба параметра уравнения регрессии признаются значимыми.

Проверим значимость линейного коэффициента корреляции:

Сравниваем с уже известным нам значением , следовательно, линейный коэффициент корреляции существенен.

  1. Выполним прогноз ожидаемого значения признака-результата Y при прогнозном значении признака-фактора X, составляющим от среднего уровня X.

Точечный прогноз рассчитывается по линейному уравнению регрессии:

,

В нашем случае

Тогда

Оценим ошибку прогноза:

После этого определим интервал, к которому с вероятностью 0,95 принадлежит прогнозное значение признака Y:

,

где – табличное значение t-критерия при и числе степеней свободы

.

В данном случае интервал будет такой:

То есть, с вероятностью 0,95 прогнозируемая величина дивидендов при курсовой стоимости акций равной 101,43 руб. будет принадлежать интервалу от 19,8 до 20,7 млн. руб.