
- •Часть 2
- •Часть 2
- •Цель контрольной работы №2
- •Тема 2. Построение уравнения множественной регрессии
- •Основные понятия и определения.
- •Задание 1. Построение уравнения множественной регрессии методом включения
- •Пример.
- •Тема 3. Многокритериальная оптимизация
- •Основные понятия и определения.
- •Количественные методы решения многокритериальных задач
- •Аддитивная и мультипликативная функции ценности
- •Нормированные значения критериев
- •Метод главного критерия
- •Метод идеальной точки
- •Задание 2
- •Оформление контрольной работы
- •Рекомендательный библиографический список
- •Содержание
- •Тема 2. Построение уравнения множественной регрессии 7
- •Тема 3. Многокритериальная оптимизация 33
МЕТОДЫ И МОДЕЛИ В ЭКОНОМИКЕ
Часть 2
ПОСТРОЕНИЕ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
МНОГОКРИТЕРИАЛЬНАЯ ОПТИМИЗАЦИЯ
Программа, методические указания и контрольные задания для студентов всех форм обучения специальности 311100
САНКТ-ПЕТЕРБУРГ
2005
Федеральное агентство по образованию
Санкт-Петербургский государственный горный институт им Г.В. Плеханова
(технический университет)
Кафедра информатики и компьютерных технологий
МЕТОДЫ И МОДЕЛИ В ЭКОНОМИКЕ
Часть 2
ПОСТРОЕНИЕ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
МНОГОКРИТЕРИАЛЬНАЯ ОПТИМИЗАЦИЯ
Программа, методические указания и контрольные задания студентов всех форм обучения специальности 311100
САНКТ-ПЕТЕРБУРГ
2005
УДК 519.86:622.3.012 (075.83)
МЕТОДЫ И МОДЕЛИ В ЭКОНОМИКЕ:
Программа, методические указания и контрольные задания. / Санкт-Петербургский горный ин-т. Сост.: В.В.Беляев, Т.А.Виноградова, Г.Н.Журов, Т.Р.Косовцева, СПб, 2005 . 50 с.
Методические указания содержат необходимые теоретические сведения и примеры решения типовых задач по многокритериальной оптимизации и построению и анализу уравнения множественной регрессии.
Предназначены для студентов специальности 311100 всех форм обучения.
Табл. 5. Рис. 24. Библиогр. 5 назв.
Научный редактор ст.преп. Е.В.Быкова
© Санкт-Петербургский горный
институт им. Г.В.Плеханова, 2005 г.
Цель контрольной работы №2
Выполнение контрольной работы №2 по курсу «Экономико-математические методы и модели» имеет целью закрепить и углубить знания, полученные студентами при изучении указанного курса, в области построения моделей множественной регрессии и решении задач многокритериальной оптимизации .
Тема 2. Построение уравнения множественной регрессии
Программа. Модель множественной регрессии. Спецификация переменных в моделях множественной регрессии. Процедура пошагового отбора переменных. Отбор факторов при построении множественной регрессии. Матрица парных корреляций. Понятие мультиколлинеарности. Выбор формы уравнения множественной регрессии. Частные уравнения регрессии. Уравнение регрессии в стандартизованном масштабе. Свойства, экономическая интерпретация и оценка коэффициентов уравнения множественной регрессии. Коэффициент эластичности. Определение оценки надежности результатов множественной регрессии и корреляции. Проверка общего качества уравнения регрессии и выполнимости предпосылок применения метода наименьших квадратов. Понятие гетероскедастичности и автокорреляции. Метод Гольдфельда-Квандта. Статистика Дарбина-Уотсона. Фиктивные переменные в множественной регрессии. Нелинейные модели множественной регрессии. Прогнозирование в моделях множественной регрессии.
Основные понятия и определения.
При
аналитическом исследовании влияния
набора факторов (предикторов)
на величину (отклик) y
производят ряд наблюдений, и в результате
получается таблица значений:
Таблица 2.1
Таблица значений
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y |
|
|
|
|
|
|
-
объем выборки,
-
количество факторов (независимых
переменных, или предикторов).
Множественная
регрессия – уравнение связи зависимой
переменной
с
независимыми переменными
:
Линейное уравнение множественной регрессии имеет вид
(2.1)
где
-
параметры уравнения.
Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений:
(2.2)
Для ее решения может быть применен любой известный метод решения системы линейных уравнений.
Другой вид уравнения множественной регрессии - уравнение регрессии в стандартизованном масштабе:
(2.3)
где
-
стандартные переменные;
-стандартизованные
коэффициенты регрессии.
К
уравнению множественной регрессии в
стандартизованном масштабе применим
МНК. Стандартизованные коэффициенты
регрессии (
-коэффициенты)
определяются из следующей системы
уравнений:
(2.4)
Связь
коэффициентов множественной регрессии
bi со стандартизованными
коэффициентами
описывается соотношением.
Параметр
a определяется
как
Средние коэффициенты эластичности для линейной регрессии рассчитываются по формуле
(2.5)
Введем
величину
- отклонение наблюдаемого значения
от вычисленного теоретического значения
,
где
- значение факторов в i-ой
точке. Набор значений
можно рассматривать как случайную
величину
,
для которой можно вычислить все
характеристики.
Тесноту совместного влияния факторов на результат показывает индекс множественной корреляции:
(2.6)
Значение этого коэффициента лежит в пределах от 0 до 1.
Также
выполняется следующее соотношение:
для
,
где
- парный индекс корреляции.
При линейной зависимости коэффициент множественной корреляции можно определить через матрицу парных коэффициентов корреляции:
(2.7)
где
- определитель матрицы парных коэффициентов
корреляции;
- определитель
матрицы межфакторной корреляции.
Обозначим
через
частный
коэффициент (или индекс) корреляции
между y и xi
. Этот коэффициент отражает влияние
фактора xi на
величину отклика y при неизменном
уровне других факторов x1,x2,x3,…,xi-1,xi+1,…xp
. Частный коэффициент (или индекс)
корреляции между y и
xi
можно определить по формуле
(2.8)
где
- множественный коэффициент детерминации
всех факторов x1,x2,x3,…,xi-1,xi+1,…xp
с откликом y;
- множественный
коэффициент детерминации факторов
x1,x2,x3,…,xi-1,xi+1,…xp
с откликом y
(без введения в модель фактора xi).
Коэффициент частной корреляции может быть вычислен по рекуррентной формуле
.
Частные коэффициенты корреляции изменяются в пределах от –1 до 1. Может быть частный случай для двух факторов.
Качество
построенной модели в целом оценивает
коэффициент (индекс) детерминации
(детерминированности). Коэффициент
множественной детерминации определяется
как квадрат индекса множественной
корреляции:
.
Коэффициент детерминации можно вычислить
иначе. Для этого рассмотрим следующие
величины.
- общая сумма
квадратов отклонений, где
среднее значение
.
Для
линейной регрессии можно доказать
следующее равенство
.
Первое
слагаемое, равное
и называемое остаточной суммой квадратов
отклонений, характеризует отклонение
экспериментальных данных от теоретических.
Второе
слагаемое, равное
и
называемое факторной суммой квадратов
отклонений, объясненной регрессией,
характеризует разброс данных относительно
среднего значения.
Очевидно, что справедливо следующее равенство
.
Коэффициент детерминированности (детерминации) определяется по формуле:
. (2.9)
Чем
меньше остаточная сумма квадратов по
сравнению с общей суммой квадратов, тем
больше значение коэффициента
детерминированности
,
который показывает, насколько хорошо
уравнение, полученное с помощью
регрессионного анализа, объясняет
взаимосвязи между переменными. Если он
равен 1,
то имеет место полная корреляция с
моделью, т.е. нет различия между фактическим
и оценочным значениями y.
В противоположном случае, если коэффициент
детерминированности равен 0,
то уравнение регрессии неудачно для
предсказания значений y.
Коэффициент детерминированности всегда
не превосходит корреляционное отношение.
В случае, когда выполняется равенство
,
можно считать, что построенная эмпирическая
формула наиболее точно отражает
эмпирические данные.
Коэффициент детерминированности служит показателем тесноты связи между независимой переменной и предиктором. Показателям тесноты связи можно дать качественную оценку (шкала Чеддока):
Таблица 2.2
Шкала Чеддока
-
Количественная мера тесноты связи
Качественная характеристика силы связи
0,1-0,3
Слабая
0,3-0,5
Умеренная
0,5-0,7
Заметная
0,7-0,9
Высокая
0,9-0,99
Весьма высокая
Любая
сумма квадратов отклонений связана с
числом степеней свободы
,
т.е. с числом свободы независимого
варьирования признака. Число степеней
свободы связано с числом единиц
совокупности
и с числом определяемых по ней констант.
Поскольку при заданном объеме наблюдений
по
и
регрессионная сумма квадратов при
линейной регрессии зависит только от
одной константы, то данная сумма квадратов
имеет одну степень свободы. Существует
равенство между числом степеней свободы
общей, регрессионной и остаточной
суммами квадратов. Число степеней
свободы остаточной суммы квадратов при
линейной регрессии составляет
.
Число степеней свободы для общей суммы
квадратов определяется числом единиц,
и поскольку мы используем среднюю
вычисленную по данным выборки, то теряем
одну степень свободы, т.е.
.
Итак, имеем два равенства:
(2.10)
Разделив
каждую сумму квадратов на соответствующее
ей число степеней свободы, получим
средний квадрат отклонений, или, что то
же самое, дисперсию на одну степень
свободы
(2.11)
(2.12)
(2.13)
где
- число параметров при переменных
.
Для
линейной и экспоненциальной аппроксимации
,
для квадратичной аппроксимации
.
Скорректированный
индекс множественной детерминации
содержит поправку на число степеней
свободы и рассчитывается по формуле
(2.14)
где n – число наблюдений; m – число факторов.
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя регрессионную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерий):
, (2.15)
где
F
- критерий
для проверки нулевой гипотезы
Если
нулевая гипотеза справедлива, то
регрессионная и остаточная дисперсии
не отличаются друг от друга. Для
опровержения гипотезы
необходимо, чтобы регрессионная дисперсия
превышала остаточную в несколько раз.
Английским статистиком Снедекором
разработаны таблицы критических значений
F-отношений
при разных уровнях существенности
нулевой гипотезы и различном числе
степеней свободы. Табличное значение
F-критерия
это максимальная величина отношения
дисперсий, которая может иметь место
при случайном их расхождении для данного
уровня вероятности наличия нулевой
гипотезы. Вычисленное значение F-отношения
признается достоверным (отличным от
единицы), если оно больше табличного. В
этом случае
и нулевая гипотеза
об отсутствии связи признаков отклоняется
и делается вывод о существенности этой
связи.
Если
же величина
окажется меньше табличной (
),
то вероятность нулевой гипотезы
выше заданного уровня значимости
(например, 0.05)
и она не может быть отклонена без
серьезного риска сделать неправильный
вывод о наличии связи. В этом случае
уравнение регрессии считается
статистически незначимым.
Для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера величина может быть вычислена как по формуле (2.15), так и через коэффициент детерминированности по формуле:
(2.16)
где - коэффициент детерминированности; - число наблюдений; - число параметров при переменных .
Величина
характеризует число степеней свободы
для факторной суммы квадратов, а
-
число степеней свободы для остаточной
суммы квадратов.
Частный F-критерий оценивает статистическую значимость каждого из факторов в уравнении. В общем виде для фактора xi частный F-критерий определится как
(2.17)
В
уравнениях регрессии обычно оценивается
значимость не только уравнения в целом,
но и отдельных его параметров, с этой
целью по каждому из параметров определяется
его стандартная ошибка
.
Величина
стандартной ошибки совместно с
t-распределением Стьюдента при
степенях свободы применяется для
проверки существенности коэффициента
регрессии
и для расчета его доверительных
интервалов.
Выдвигается
нулевая гипотеза:
.
Для оценки существенности коэффициента
регрессии
его величина сравнивается с его
стандартной ошибкой
,
т.е. определяется наблюдаемое значение
t-критерия
Стьюдента:
,
которое затем сравнивается с табличным
значением
при определенном уровне значимости
и числе степеней свободы
.
Если
гипотеза
отклоняется и делается вывод, что
коэффициент
значим.
Значение
t -критерия Стьюдента (
)может
быть также вычислено по формуле.
(2.18)
Средняя квадратическая ошибка коэффициента регрессии bi , может быть определена по следующей формуле:
(2.19)
При
построении уравнения множественной
регрессии может возникнуть проблема
мультиколлинеарности факторов, их
тесной линейной связанности. Считается,
что две переменные явно коллинеарны,
т.е. находятся между собой в линейной
зависимости, если
Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора xi остатки i имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность. При нарушении гомоскедастичности имеем неравенства
При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта (Goldfeld-Quandt). Основная идея теста Гольдфельда-Квандта состоит в следующем:
упорядочение n наблюдений по мере возрастания переменной x.
исключение из рассмотрения C центральных наблюдений; при этом (n-C) : 2 > p , где p – число оцениваемых параметров;
разделение совокупности из (n - C) наблюдений на две группы (соответственно с малыми и большими значениями x) и определение по каждой уравнений регрессии;
определение остаточной суммы квадратов для первой S1 и второй S2 групп и их отношения
при S1>S2 или
при S1 < S2.
При выполнении нулевой гипотезы о гомоскедастичности отношение F будет удовлетворять F-критерию со степенями свободы (n - C-2p)/2 для каждой остаточной суммы квадратов. Чем больше величина F превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин. Если отношение F не будет удовлетворять F-критерию, то следует помнить:
стандартные ошибки будут занижены, что может привести к ложному выводу о значимости коэффициентов;
полученные оценки коэффициентов являются несмещенными оценками, поэтому их можно использовать в уравнении;
на практике стандартные ошибки пересчитываются с помощью известных методов Уайт (White), Ньюи-Вест (Newey-West).
Для исследования поведения остатков их упорядочивают по возрастанию фактора. Остатки индексируются величиной t. Наименьшему значению фактора соответствует t=1 и остаток 1 , следующему значению фактора соответствует t=2 и остаток 2, и т.д. до значения t=n. Индекс t можно рассматривать как время и говорить о текущем и предшествующих моментах времени.
Автокорреляция в остатках – корреляционная зависимость между значениями остатков t за текущий и предыдущий моменты времени. Для определения автокорреляции остатков используют критерий Дарбина-Уотсона (Durbin-Watson) и расчет величины:
,
. (2.20)
где t-1 - остаток предыдущего уровня.
По таблицам находят два критических значения (табличных уровня): нижний - DL и верхний - DU, значения которых зависят от количества наблюдений n, сложности модели (количества параметров) и выбранного уровня значимости. Если dнабл превышает 2, то это свидетельствует об отрицательной корреляции и перед сравнением его величину надо преобразовать:
d'набл = 4 - dнабл.
Если
- модель неадекватна, уровни ряда
остатков сильно автокоррелированы.
Если
- остатки некоррелированы, модель
адекватна.
Если
- однозначного вывода сделать нельзя
и необходимо применять другие критерии.
Известны следующие свойства dнабл , если:
в остатках полная положительная автокорреляция, то dнабл =0,
полная отрицательная автокорреляция, то dнабл=4,
автокорреляция остатков отсутствует, то dнабл =2.
Если обнаружена автокорреляция, то, как и в случае с гетероскедастичностью, следует помнить:
стандартные ошибки будут занижены, что может привести к ложному выводу о значимости коэффициентов;
на практике стандартные ошибки может быть пересчитаны с помощью метода Ньюи-Веста (Newey-West).
Уравнения множественной регрессии могут включать в качестве независимых переменных качественные признаки (например, профессия, образование и т.д.). Чтобы ввести такие переменные в регрессионную модель, их необходимо упорядочить и присвоить им те или иные значения, т.е. качественные переменные преобразовать в количественные. Такого вида сконструированные переменные принято называть фиктивными переменными. Например, включить в модель фактор «пол» в виде фиктивной переменной можно в следующем виде:
(2.21)
Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории (женский пол) к другой (мужской пол) при неизменных значениях остальных параметров.