Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Метод_ЭМММ_ГК_ч2_р1_3.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
7.25 Mб
Скачать

МЕТОДЫ И МОДЕЛИ В ЭКОНОМИКЕ

Часть 2

ПОСТРОЕНИЕ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

МНОГОКРИТЕРИАЛЬНАЯ ОПТИМИЗАЦИЯ

Программа, методические указания и контрольные задания для студентов всех форм обучения специальности 311100

САНКТ-ПЕТЕРБУРГ

2005

Федеральное агентство по образованию

Санкт-Петербургский государственный горный институт им Г.В. Плеханова

(технический университет)

Кафедра информатики и компьютерных технологий

МЕТОДЫ И МОДЕЛИ В ЭКОНОМИКЕ

Часть 2

ПОСТРОЕНИЕ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

МНОГОКРИТЕРИАЛЬНАЯ ОПТИМИЗАЦИЯ

Программа, методические указания и контрольные задания студентов всех форм обучения специальности 311100

САНКТ-ПЕТЕРБУРГ

2005

УДК 519.86:622.3.012 (075.83)

МЕТОДЫ И МОДЕЛИ В ЭКОНОМИКЕ:

Программа, методические указания и контрольные задания. / Санкт-Петербургский горный ин-т. Сост.: В.В.Беляев, Т.А.Виноградова, Г.Н.Журов, Т.Р.Косовцева, СПб, 2005 . 50 с.

Методические указания содержат необходимые теоретические сведения и примеры решения типовых задач по многокритериальной оптимизации и построению и анализу уравнения множественной регрессии.

Предназначены для студентов специальности 311100 всех форм обучения.

Табл. 5. Рис. 24. Библиогр. 5 назв.

Научный редактор ст.преп. Е.В.Быкова

© Санкт-Петербургский горный

институт им. Г.В.Плеханова, 2005 г.

Цель контрольной работы №2

Выполнение контрольной работы №2 по курсу «Экономико-математические методы и модели» имеет целью закрепить и углубить знания, полученные студентами при изучении указанного курса, в области построения моделей множественной регрессии и решении задач многокритериальной оптимизации .

Тема 2. Построение уравнения множественной регрессии

Программа. Модель множественной регрессии. Спецификация переменных в моделях множественной регрессии. Процедура пошагового отбора переменных. Отбор факторов при построении множественной регрессии. Матрица парных корреляций. Понятие мультиколлинеарности. Выбор формы уравнения множественной регрессии. Частные уравнения регрессии. Уравнение регрессии в стандартизованном масштабе. Свойства, экономическая интерпретация и оценка коэффициентов уравнения множественной регрессии. Коэффициент эластичности. Определение оценки надежности результатов множественной регрессии и корреляции. Проверка общего качества уравнения регрессии и выполнимости предпосылок применения метода наименьших квадратов. Понятие гетероскедастичности и автокорреляции. Метод Гольдфельда-Квандта. Статистика Дарбина-Уотсона. Фиктивные переменные в множественной регрессии. Нелинейные модели множественной регрессии. Прогнозирование в моделях множественной регрессии.

Основные понятия и определения.

При аналитическом исследовании влияния набора факторов (предикторов) на величину (отклик) y производят ряд наблюдений, и в результате получается таблица значений:

Таблица 2.1

Таблица значений

y

 - объем выборки, - количество факторов (независимых переменных, или предикторов).

Множественная регрессия – уравнение связи зависимой переменной с независимыми переменными :

Линейное уравнение множественной регрессии имеет вид

(2.1)

где - параметры уравнения.

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений:

(2.2)

Для ее решения может быть применен любой известный метод решения системы линейных уравнений.

Другой вид уравнения множественной регрессии - уравнение регрессии в стандартизованном масштабе:

(2.3)

где - стандартные переменные;

-стандартизованные коэффициенты регрессии.

К уравнению множественной регрессии в стандартизованном масштабе применим МНК. Стандартизованные коэффициенты регрессии ( -коэффициенты) определяются из следующей системы уравнений:

(2.4)

Связь коэффициентов множественной регрессии bi со стандартизованными коэффициентами описывается соотношением. Параметр a определяется как

Средние коэффициенты эластичности для линейной регрессии рассчитываются по формуле

(2.5)

Введем величину - отклонение наблюдаемого значения от вычисленного теоретического значения , где - значение факторов в i-ой точке. Набор значений можно рассматривать как случайную величину , для которой можно вычислить все характеристики.

Тесноту совместного влияния факторов на результат показывает индекс множественной корреляции:

(2.6)

Значение этого коэффициента лежит в пределах от 0 до 1.

Также выполняется следующее соотношение: для , где - парный индекс корреляции.

При линейной зависимости коэффициент множественной корреляции можно определить через матрицу парных коэффициентов корреляции:

(2.7)

где - определитель матрицы парных коэффициентов корреляции;

- определитель матрицы межфакторной корреляции.

Обозначим через частный коэффициент (или индекс) корреляции между y и xi . Этот коэффициент отражает влияние фактора xi на величину отклика y при неизменном уровне других факторов x1,x2,x3,…,xi-1,xi+1,…xp . Частный коэффициент (или индекс) корреляции между y и xi можно определить по формуле

(2.8)

где - множественный коэффициент детерминации всех факторов x1,x2,x3,…,xi-1,xi+1,…xp с откликом y;

- множественный коэффициент детерминации факторов x1,x2,x3,…,xi-1,xi+1,…xp с откликом y (без введения в модель фактора xi).

Коэффициент частной корреляции может быть вычислен по рекуррентной формуле

.

Частные коэффициенты корреляции изменяются в пределах от –1 до 1. Может быть частный случай для двух факторов.

Качество построенной модели в целом оценивает коэффициент (индекс) детерминации (детерминированности). Коэффициент множественной детерминации определяется как квадрат индекса множественной корреляции: . Коэффициент детерминации можно вычислить иначе. Для этого рассмотрим следующие величины.

- общая сумма квадратов отклонений, где среднее значение .

Для линейной регрессии можно доказать следующее равенство .

Первое слагаемое, равное и называемое остаточной суммой квадратов отклонений, характеризует отклонение экспериментальных данных от теоретических.

Второе слагаемое, равное и называемое факторной суммой квадратов отклонений, объясненной регрессией, характеризует разброс данных относительно среднего значения.

Очевидно, что справедливо следующее равенство

.

Коэффициент детерминированности (детерминации) определяется по формуле:

. (2.9)

Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента детерминированности , который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y. Коэффициент детерминированности всегда не превосходит корреляционное отношение. В случае, когда выполняется равенство , можно считать, что построенная эмпирическая формула наиболее точно отражает эмпирические данные.

Коэффициент детерминированности служит показателем тесноты связи между независимой переменной и предиктором. Показателям тесноты связи можно дать качественную оценку (шкала Чеддока):

Таблица 2.2

Шкала Чеддока

Количественная мера тесноты связи

Качественная характеристика силы связи

0,1-0,3

Слабая

0,3-0,5

Умеренная

0,5-0,7

Заметная

0,7-0,9

Высокая

0,9-0,99

Весьма высокая

Любая сумма квадратов отклонений связана с числом степеней свободы , т.е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности и с числом определяемых по ней констант. Поскольку при заданном объеме наблюдений по и регрессионная сумма квадратов при линейной регрессии зависит только от одной константы, то данная сумма квадратов имеет одну степень свободы. Существует равенство между числом степеней свободы общей, регрессионной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет . Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. .

Итак, имеем два равенства:

(2.10)

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы

(2.11)

(2.12)

(2.13)

где - число параметров при переменных .

Для линейной и экспоненциальной аппроксимации , для квадратичной аппроксимации .

Скорректированный индекс множественной детерминации содержит поправку на число степеней свободы и рассчитывается по формуле

(2.14)

где n – число наблюдений; m – число факторов.

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя регрессионную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерий):

, (2.15)

где F - критерий для проверки нулевой гипотезы

Если нулевая гипотеза справедлива, то регрессионная и остаточная дисперсии не отличаются друг от друга. Для опровержения гипотезы  необходимо, чтобы регрессионная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия  это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае и нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи.

Если же величина окажется меньше табличной ( ), то вероятность нулевой гипотезы выше заданного уровня значимости (например, 0.05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым.

Для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера величина  может быть вычислена как по формуле (2.15), так и через коэффициент детерминированности по формуле:

(2.16)

где - коэффициент детерминированности; - число наблюдений; - число параметров при переменных .

Величина характеризует число степеней свободы для факторной суммы квадратов, а - число степеней свободы для остаточной суммы квадратов.

Частный F-критерий оценивает статистическую значимость каждого из факторов в уравнении. В общем виде для фактора xi частный F-критерий определится как

(2.17)

В уравнениях регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров, с этой целью по каждому из параметров определяется его стандартная ошибка .

Величина стандартной ошибки совместно с t-распределением Стьюдента при степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Выдвигается нулевая гипотеза: . Для оценки существенности коэффициента регрессии его величина сравнивается с его стандартной ошибкой , т.е. определяется наблюдаемое значение t-критерия Стьюдента: , которое затем сравнивается с табличным значением при определенном уровне значимости и числе степеней свободы . Если гипотеза отклоняется и делается вывод, что коэффициент значим.

Значение t -критерия Стьюдента ( )может быть также вычислено по формуле.

(2.18)

Средняя квадратическая ошибка коэффициента регрессии bi , может быть определена по следующей формуле:

(2.19)

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов, их тесной линейной связанности. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора xi остатки i имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность. При нарушении гомоскедастичности имеем неравенства

При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта (Goldfeld-Quandt). Основная идея теста Гольдфельда-Квандта состоит в следующем:

    1. упорядочение n наблюдений по мере возрастания переменной x.

    2. исключение из рассмотрения C центральных наблюдений; при этом (n-C) : 2 > p , где p – число оцениваемых параметров;

    3. разделение совокупности из (n - C) наблюдений на две группы (соответственно с малыми и большими значениями x) и определение по каждой уравнений регрессии;

    4. определение остаточной суммы квадратов для первой S1 и второй S2 групп и их отношения при S1>S2 или при SS2.

При выполнении нулевой гипотезы о гомоскедастичности отношение F будет удовлетворять F-критерию со степенями свободы (n - C-2p)/2 для каждой остаточной суммы квадратов. Чем больше величина F превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин. Если отношение F не будет удовлетворять F-критерию, то следует помнить:

  1. стандартные ошибки будут занижены, что может привести к ложному выводу о значимости коэффициентов;

  2. полученные оценки коэффициентов являются несмещенными оценками, поэтому их можно использовать в уравнении;

  3. на практике стандартные ошибки пересчитываются с помощью известных методов Уайт (White), Ньюи-Вест (Newey-West).

Для исследования поведения остатков их упорядочивают по возрастанию фактора. Остатки индексируются величиной t. Наименьшему значению фактора соответствует t=1 и остаток 1 , следующему значению фактора соответствует t=2 и остаток 2, и т.д. до значения t=n. Индекс t можно рассматривать как время и говорить о текущем и предшествующих моментах времени.

Автокорреляция в остатках – корреляционная зависимость между значениями остатков t за текущий и предыдущий моменты времени. Для определения автокорреляции остатков используют критерий Дарбина-Уотсона (Durbin-Watson) и расчет величины:

, . (2.20)

где t-1 - остаток предыдущего уровня.

По таблицам находят два критических значения (табличных уровня): нижний - DL и верхний - DU, значения которых зависят от количества наблюдений n, сложности модели (количества параметров) и выбранного уровня значимости. Если dнабл превышает 2, то это свидетельствует об отрицательной корреляции и перед сравнением его величину надо преобразовать:

d'набл = 4 - dнабл.

Если  - модель неадекватна, уровни ряда остатков сильно автокоррелированы.

Если  - остатки некоррелированы, модель адекватна.

 Если  - однозначного вывода сделать нельзя и необходимо применять другие критерии.

Известны следующие свойства dнабл , если:

  • в остатках полная положительная автокорреляция, то dнабл =0,

  • полная отрицательная автокорреляция, то dнабл=4,

  • автокорреляция остатков отсутствует, то dнабл =2.

Если обнаружена автокорреляция, то, как и в случае с гетероскедастичностью, следует помнить:

  1. стандартные ошибки будут занижены, что может привести к ложному выводу о значимости коэффициентов;

  2. на практике стандартные ошибки может быть пересчитаны с помощью метода Ньюи-Веста (Newey-West).

Уравнения множественной регрессии могут включать в качестве независимых переменных качественные признаки (например, профессия, образование и т.д.). Чтобы ввести такие переменные в регрессионную модель, их необходимо упорядочить и присвоить им те или иные значения, т.е. качественные переменные преобразовать в количественные. Такого вида сконструированные переменные принято называть фиктивными переменными. Например, включить в модель фактор «пол» в виде фиктивной переменной можно в следующем виде:

(2.21)

Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории (женский пол) к другой (мужской пол) при неизменных значениях остальных параметров.