- •3.1. Простая линейная регрессия.
- •Пример построения линейной регрессии.
- •3.1.1. Определение параметров уравнения регрессии с помощью метода наименьших квадратов.
- •3.1.2. Критерии значимости коэффициентов и в уравнении регрессии.
- •Коэффициент детерминации .
- •Гетероскедастичность.
- •Автокорреляция.
- •Мультиколлинеарность.
- •Фиктивные переменные.
- •Исходные данные
- •Результаты вычислений.
- •3.4. Использование регрессии для прогнозирования.
- •Матрица коэффициентов парной корреляции
- •Множественный коэффициент корреляции
- •Частный коэффициент корреляции
- •Исходные данные.
- •Результаты расчета.
- •Проверка точности.
- •Проверка адекватности и оценка точности модели парной линейной регрессии.
- •Проверка адекватности.
- •Курс доллара сша и предположительно влияющие на него факторы.
- •Корреляционная матрица системы показателей.
- •Параметры модели зависимости курса доллара от цены золота и ее статистические характеристики.
- •Параметры модели зависимости курса доллара от цены золота и dj-индекса и ее статистические характеристики.
- •Параметры модели зависимости курса доллара от цены золота, dj-индекса и тn-индекса и ее статистические характеристики.
- •Результаты моделирования зависимости курса доллара от цены золота и dj-индекса.
- •Исходные данные.
- •Коэффициенты корреляции.
- •Исходные данные.
- •Исходные данные.
3.4. Использование регрессии для прогнозирования.
Регрессионные модели могут быть использованы для прогнозирования. Например, предположим, что мы хотим предсказать уровень индекса FТSЕ 100 при росте индекса S&Р 500 до 550 за данный день. Если коэффициенты и составленного уравнения регрессии соответственно равны 196.32 и 5.964, то прогнозное значение индекса FТSЕ 100 составит
Y = 196.32 + (5.964 • 550) = 3477.
Когда мы используем регрессионную модель для прогноза величины Y (в данном случае это уровень индекса РТ8Е 100), располагая величиной X (уровень индекса S&Р 500), мы хотим знать степень доверия к оцениваемому значению. Для этой цели рассчитываются стандартная ошибка оценки, а затем интервал прогнозирования.
Стандартная ошибка оценки, также известная как стандартная ошибка уравнения регрессии, определяется следующим образом:
(3.16).
Фактически это среднее квадратическое отклонение всех . Интервал прогнозирования рассчитывается так:
(3.17),
где
- это значение Х, используемое для
прогноза, т.е. 550 для приведенного выше
примера.
В сфере экономики и финансов, как это уже неоднократно подчеркивалось выше, действуют разнообразные связи, которые могут осуществляться, например, в виде материальных и финансовых потоков между элементами системы, потоков информации между органами и объектами управления. Весьма привлекателен для практика особый тип связей - причинно-следственные.
Причинная связь между парой показателей проявляется в форме изменения значений результативного показателя у (зависимой переменной) под влиянием изменения значений показателя-фактора х (независимой переменной). В экономике причинно-следственные связи обычно носят стохастический характер, т.е. зависимость между показателями проявляется на фоне случайности, содёржит некоторый элемент неопределенности. Это объясняется тем, что обычно на результативный показатель у оказывает влияние большое число факторов, действующих в разных направлениях с различной силой. Переплетением этих взаимовлияний и обусловлена неопределенность в проявлении причинно-следственных связей.
В терминах математической статистики стохастическая зависимость переменной «у» от переменной «х» определяется как изменение закона распределения случайной величины у при изменении значений случайной величины х.
При такой постановке вопроса для статистического изучения стохастической зависимости необходимо располагать достаточно большими совокупностями наблюдений переменной «у» для каждого значения переменной «х». Обычно в практических исследованиях не удается собрать такую информацию в полном объеме. Поэтому ставится задача изучения и моделирования частного случая стохастической связи - связи статистической.
Статистическая связь определяется как изменение математического ожидания М(у) случайной величины у при изменении значений случайной величины х. При такой постановке задачи изучения причинно-следственных связей не учитываются возможные изменения формы закона распределения у при изменении значений случайной величины х. Вместо этого априорно принимается предположение о нормальном законе распределения у при каждом значении х. Это положение является одной из важнейших предпосылок использования статистических методов моделирования взаимосвязей, в частности корреляционно-регрессионных методов.
В корреляционно-регрессионном анализе в соответствии с положениями математической статистики считается, что в качестве оценки математического ожидания при нормальном законе распределения может быть принято эмпирическое среднее значение случайной величины, поскольку для нормального закона распределения оно является и наиболее вероятным. Исходя из этого корреляционная связь определяется как изменение условного среднего значения у(х) случайной величины у при изменении значений случайной величины х. При этом для установления факта наличия такой связи между парой показателей и построения ее модели достаточно в качестве исходной информации располагать данными о значениях переменных х и у по соответствующим единицам статистической совокупности (пространственные ряды наблюдений) или в последовательные моменты времени (временные ряды наблюдений). Достаточно надежные результаты моделирования удается получить, если число наблюдений, составивших его информационную базу, не менее 20.
Если каждому значению х соответствует точно определенное значение у, то связь между показателями не является стохастической, а носит детерминированный характер. Такая связь называется функциональной и является предельным случаем корреляционной. Изучение функциональных связей не требует использования статистических методов и в данной главе не рассматривается.
Описание именно корреляционной связи лежит в основе статистического моделирования причинно-следственных зависимостей и поэтому при интерпретации результатов моделирования следует учитывать все предпосылки и допущения, принятые в корреляционно-регрессионном анализе.
Статистическое моделирование причинно-следственных связей с использованием методов корреляционно-регрессионного анализа предполагает выполнение следующих этапов:
выявление наличия корреляционной связи между показателями;
подбор аналитической зависимости для описания взаимосвязи и оценка параметров модели регрессии;
определение направления и измерение тесноты взаимосвязи между показателями;
проверка адекватности полученной модели, оценка величины возможной ошибки;
интерпретация результатов моделирования, определение возможностей использования модели для анализа и прогнозирования показателя у в зависимости от значений х.
В данной лекции рассмотрим лишь подробнее первый пункт этих этапов.
3.5. Выявление наличия корреляционной связи между парой показателей и оценка ее тесноты.
Первоначально предположение о наличии причинной связи между показателями обычно базируется на результатах логического анализа финансово-экономических явлений и процессов. Обоснованность этого предположения можно проверить, используя специальные статистические методы и приемы. Наиболее простым из них является метод сравнения параллельных рядов. Суть метода заключается в сравнении соответствующих значений показателей: если возрастанию (убыванию) значении одного показателя соответствует возрастание (убывание) другого, то между ними возможна прямая взаимосвязь. Так, в табл. 3.4 приведены значения показателей, между которыми можно предположить причинную зависимость. На эту гипотезу наводит сопоставление динамики этих показателей: чем больше значения х, тем больше у.
Таблица 3.4.
Исходные данные для анализа взаимосвязи между парой показателей.
Предприятие |
Уставный капитал, млн руб. (X) |
Число акций, выставленных к продаже (У) |
1 |
2954 |
856 |
2 |
2605 |
720 |
3 |
4102 |
1540 |
4 |
2350 |
760 |
5 |
2625 |
790 |
6 |
1795 |
645 |
7 |
2813 |
824 |
8 |
1751 |
575 |
9 |
1700 |
470 |
10 |
2264 |
697 |
Представим данные табл. 3.4 графически, для чего будем откладывать значения переменных х и у в соответствии с номерами предприятий (рис. 3.3). На графике хорошо видно, как изменениям одного показателя соответствуют изменения другого.
Рис. 3.3. Сравнение параллельных динамических рядов.
Еще более наглядное представление о корреляционной зависимости, к тому же непосредственно связанное с понятием о ее модели, дает другой график. На нем в прямоугольной системе координат точками представлены данные наблюдений. Координаты точек графика соответствуют значениям показателей: абсцисса - независимой переменной х, ордината - зависимой переменной у. Такой график называется корреляционным полем. На рис. 3.4 корреляционное поле отображает зависимость между показателями, приведенными в табл. 3.4. В этом случае точки графика достаточно близки к некоторой линии.
Линия, прослеживающаяся в расположении точек корреляционного поля, является моделью корреляционной зависимости и называется линией регрессии. В обсуждаемом примере в качестве линии регрессии может быть принята прямая. Она отражает изменение показателя у, соответствующее изменению показателя-фактора х. Однако далеко не всегда на графике корреляционного поля так четко и однозначно прослеживается связь между переменными.
Рис.
3.4. Корреляционное поле.
Если точки на графике корреляционного поля расположились таким образом, что прослеживается некоторая линия либо их расположение похоже на наклонный эллипс, то между исследуемыми показателями существует корреляционная связь, хаотичное расположение точек свидетельствует об отсутствии связи между показателями. В нашем случае точки графика (см. рис. 3.4) достаточно близки к некоторой линии.
Могут встретиться случаи, когда показатели варьируются независимо друг от друга в достаточно широком диапазоне, и это проявляется в хаотичном расположении точек на графике. Компактное расположение точек параллельно оси ординат свидетельствует о том, что сравнительно большая вариация переменной у не может быть обусловлена практически постоянными значениями х. Аналогичный вывод об отсутствии зависимости можно сделать и в третьем случае: несмотря на существенное изменение показателя-фактора х, показатель у остается практически неизменным. Могут встретиться более сложные зависимости между показателями x и y, чем в примере, представленном на рис. 3.4. Они могут отражать обратную линейную зависимость, когда с ростом одного из показателей другой убывает; прямую нелинейную зависимость, когда изменение показателей не строго пропорционально, и наиболее сложный случай с точки зрения разработки модели - неоднородность исходной совокупности, когда внутри изучаемого явления действуют различные закономерности, которые, следовательно, некорректно описывать одной моделью. В этом случае исходную совокупность наблюдений необходимо предварительно сгруппировать, а затем уже для каждой группы строить собственную модель, иначе модель, построенная для всей совокупности в целом, будет отражать не различные реально существующие закономерности, а нечто среднее между ними.
Графический метод выявления взаимосвязей между парой показателей дает наглядное представление о зависимости между ними, но не позволяет дать ее количественную оценку.
Для измерения тесноты статистической взаимосвязи, например между показателями у и х, наиболее часто используется линейный (парный) коэффициент корреляции:
(3.18).
Линейный коэффициент корреляции изменяется в пределах от -1 до +1. Его положительные значения свидетельствуют о прямой связи между переменными, отрицательные - об обратной. Близость коэффициента корреляции к нулю свидетельствует о слабой связи между переменными и о нецелесообразности ее моделирования. В практических исследованиях принято считать связь между переменными слабой, если |rxy|<0.3; сильной, если | rxy | > 0.7. Значение линейного коэффициента корреляции для пары показателей, рассматриваемых в табл. 3.4, составляет 0.95, т.е. связь между переменными признается сильной.
Для качественной оценки коэффициента корреляции применяются различные шкалы, наиболее часто - шкала Чеддока. В зависимости от значения коэффициента корреляции связь может иметь одну из оценок:
0.1 - 0.3 - слабая;
0.3 - 0.5 - заметная;
0.5 - 0.7 - умеренная;
0.7 - 0.9 - высокая;
0.9 - 1.0 - весьма высокая.
Следует отметить, что величина коэффициента корреляции не является доказательством того, что между исследуемыми признаками существует причинно-следственная связь, а представляет собой оценку степени взаимной согласованности в изменениях признаков. Для того чтобы установить причинно-следственную зависимость, необходим анализ качественной природы явлений.
Так как оценка тесноты связи с помощью коэффициента корреляции проводится, как правило, на основе более или менее ограниченной информации об изучаемом явлении, то возникает вопрос: насколько правомерно наше заключение по выборочным данным о наличии корреляционной связи в той генеральной совокупности, из которой была извлечена выборка?
В связи с этим и возникает необходимость оценки существенности (значимости) линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность. В зависимости от объема выборочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляций.
Оценка значимости коэффициента корреляции при малых объемах выборки выполняется с использованием t-критерия Стьюдента. При этом фактическое (наблюдаемое) значение этого критерия определяется по формуле
(3.19).
Вычисленное по этой формуле значение tнабл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t-критерия Стьюдента с учетом заданного уровня значимости и числа степеней свободы (n - 2).
Если tнабл > tтаб, то полученное значение коэффициента корреляции признается значимым (т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод, что между исследуемыми переменными есть тесная статистическая взаимосвязь.
Если
значение
близко
к нулю, связь между переменными слабая.
Если корреляция между случайными
величинами:
• положительная, то при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать;
• отрицательная, то при возрастании одной случайной величины другая имеет тенденцию в среднем убывать.
