- •Содержание
- •Введение
- •РазделI. Статистические методы обработки данных
- •Глава 1. Вариационные ряды и их характеристики
- •1.1. Первичная обработка результатов наблюдений
- •1.2. Графическое представление статистических данных
- •1.3. Расчет выборочных характеристик статистического распределения
- •1.4. Интервальные (доверительные) оценки параметров распределения
- •Контрольные вопросы
- •Глава 2. Проверка статистических гипотез
- •2.1. Построение кривой нормального распределения
- •2.2. Классический метод проверки гипотез
- •2.3. Проверка гипотез о законе распределения
- •Критерий Пирсона
- •Критерий Колмогорова
- •Контрольные вопросы
- •Глава 3. Парная регрессия и корреляция
- •3.1. Понятие функциональной, статистической и корреляционной зависимости
- •3.2. Линейная модель парной регрессии и корреляции
- •3.3. Нелинейные модели парной регрессии и корреляции
- •Контрольные вопросы
- •Глава 4. Множественная регрессия и корреляция
- •4.1.Спецификация модели. Отбор факторов при построении уравнения множественной регрессии
- •4.2. Метод наименьших квадратов (мнк). Свойства оценок на основе мнк
- •4.3. Проверка существенности факторов и показатели качества регрессии
- •Контрольные вопросы
- •Раздел II. Лабораторный практикум
- •Выполнение работы
- •Лабораторная работа № 2. Построение модели линейной регрессии (случай несгруппированных данных)
- •Выполнение работы
- •Лабораторная работа № 3. Построение уравнения модели линейной регрессии (случай сгруппированных данных)
- •Выполнение работы
- •Лабораторная работа № 4. Изучение модели нелинейной регрессии
- •Выполнение работы
- •Лабораторная работа № 5. Построение модели множественной регрессии
- •Выполнение работы
- •Лабораторная работа № 6. Прогнозирование. Анализ аддитивной модели
- •Выполнение работы
- •Варианты индивидуальных заданий Варианты заданий к лабораторной работе № 1.
- •Варианты заданий к лабораторной работе № 2.
- •Варианты заданий по лабораторной работе № 3
- •Варианты заданий по лабораторной работе № 4
- •Варианты заданий к лабораторной работе № 5.
- •Варианты заданий к лабораторной работе № 6.
- •Тестовые задания
- •Список литературы
- •Приложения
- •Статистические методы обработки данных
- •Библиотечно-издательский комплекс
- •625000, Тюмень, ул. Володарского, 38. Типография библиотечно-издательского комплекса.
- •625039, Тюмень, ул. Киевская, 52.
4.3. Проверка существенности факторов и показатели качества регрессии
Практическую значимость уравнения множественной регрессии оценивают при помощи показателя множественной корреляции и его квадрата – показателя детерминации.
Показатель множественной корреляции оценивает тесноту совместного влияния набора факторов на результат.
Показатель множественной корреляции может быть определен как индекс множественной корреляции:
,
(1.90)
где
– общая дисперсия результативного
признака;
– остаточная
дисперсия.
Изменение
индекса множественной корреляции
находится в границах от 0 до 1. Чем ближе
его значение к 1, тем теснее связь
результативного признака со всем набором
исследуемых факторов. Величина индекса
множественной корреляции должна быть
больше или равна максимальному парному
индексу корреляции:
.
При правильном включении факторов в регрессионную модель величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции. Следовательно, сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности включения в уравнение регрессии того или иного признака-фактора.
Расчет индекса множественной корреляции предполагает определение уравнения множественной регрессии и на его основе остаточной дисперсии:
.
(1.91)
Можно пользоваться следующей формулой индекса множественной детерминации:
.
(1.92)
При линейной зависимости признаков формула индекса множественной корреляции может быть представлена следующим выражением:
,
(1.93)
где – стандартизованные коэффициенты регрессии;
– парные коэффициенты корреляции результата с каждым фактором.
Формула индекса множественной корреляции для линейной регрессии называется линейным коэффициентом множественной корреляции или совокупным коэффициентом корреляции.
В рассмотренных показателях множественной корреляции используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений . Если число параметров при равно и приближается к объему наблюдений, то остаточная дисперсия будет близка к нулю и коэффициент (индекс) корреляции приблизятся к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможного преувеличения тесноты связи, используется скорректированный индекс (коэффициент) множественной корреляции.
Скорректированный
индекс множественной корреляции содержит
поправку на число степеней свободы, а
именно остаточная сумма квадратов
делится на число степеней свободы
остаточной вариации
,
а общая сумма квадратов отклонений
на число степеней свободы в целом по
совокупности
.
Скорректированный индекс множественной детерминации определяется на основании формулы:
,
(1.94)
где – число параметров при переменных ;
– число наблюдений.
Ввиду
того, что
,
величину скорректированного индекса
детерминации можно представить в виде:
.
(1.95)
Чем
больше величина
,
тем сильнее различия между
и
.
Ранжирование факторов, участвующих в моделях множественной линейной регрессии, можно провести с помощью частных коэффициентов корреляции (для линейных связей). Частные показатели корреляции часто используют при решении вопросов отбора факторов - целесообразность включения того или иного фактора в модель можно доказать величиной показателя частной корреляции.
Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.
В общем виде при наличии факторов для уравнения регрессии:
коэффициент частной корреляции, измеряющий влияние фактора на , при неизменном уровне других факторов, можно определить при двух факторах по формулам:
;
.
(1.96)
Порядок
частного коэффициента корреляции
определяется количеством факторов,
влияние которых исключается. Так,
– коэффициент частной корреляции
первого порядка. Коэффициенты частной
корреляции более высоких порядков можно
определить через коэффициенты частной
корреляции более низких порядков по
рекуррентной формуле. При двух факторах
данная формула примет вид:
;
.
(1.97)
Для уравнения регрессии с тремя факторами частные коэффициенты корреляции второго порядка определяются на основе частных коэффициентов корреляции первого порядка.
Частные коэффициенты корреляции, рассчитанные по рекуррентной формуле, изменяются в пределах от –1 до +1, а по формулам через множественные коэффициенты детерминации – от 0 до 1. Сравнение их друг с другом позволяет ранжировать факторы по тесноте их связи с результатом.
Частные
коэффициенты корреляции показывают
меру тесноты связи каждого фактора с
результатом в чистом виде. Если из
стандартизованного уравнения регрессии
следует, что
,
т.е. по силе влияния на результат порядок
факторов таков:
,
,
,
то этот же порядок факторов определяется
и по соотношению частных коэффициентов
корреляции, как
.
Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент корреляции. Так, для двухфакторного уравнения формула совокупного коэффициента корреляции принимает вид:
.
(1.98)
При
полной зависимости результативного
признака от исследуемых признаков-факторов
коэффициент совокупного их влияния
равен единице. Из единицы вычитается
доля остаточной вариации результативного
признака
,
обусловленная последовательно включенными
в анализ факторами. В результате
подкоренное выражение характеризует
совокупное действие всех исследуемых
признаков-факторов.
Значимость уравнения множественной регрессии в целом, так же как и в моделях парной регрессии, оценивается с помощью -критерия Фишера:
,
(1.99)
где
– факторная сумма квадратов на одну
степень свободы;
– остаточная сумма
квадратов на одну степень свободы;
– коэффициент (индекс) множественной детерминации;
– число параметров при переменных (в линейной регрессии совпадает с числом включенных в модель факторов);
– число наблюдений.
Оценивается
значимость не только уравнения в целом,
но также и признака-фактора, дополнительно
включенного в регрессионную модель.
Необходимость такой оценки обусловлена
тем, что не каждый фактор, вошедший в
модель, может существенно увеличивать
долю объясненной вариации результативного
признака. Кроме того, при наличии в
модели нескольких факторов они могут
вводиться в модель в разной
последовательности. Ввиду корреляции
между факторами значимость одного и
того же фактора может быть разной в
зависимости от последовательности его
введения в модель. Мерой для оценки
включения фактора в модель служит
частный
-критерий,
т.е.
.
Частный -критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом. Для двухфакторного уравнения частные -критерии имеют вид:
,
.
(1.100)
Фактическое
значение частного
-критерия
сравнивается с табличным при уровне
значимости
и числе степеней свободы: 1 и
.
Если фактическое значение
превышает
,
то дополнительное включение фактора
в модель статистически оправданно и
коэффициент чистой регрессии
при факторе
статистически значим. Если же фактическое
значение
меньше табличного, то дополнительное
включение в модель фактора
не увеличивает существенно долю
объясненной вариации признака
,
следовательно, нецелесообразно его
включение в модель. Коэффициент регрессии
при данном факторе в этом случае
статистически незначим.
С
помощью частного
-критерия
можно проверить значимость всех
коэффициентов регрессии в предположении,
что каждый соответствующий признак-фактор
вводится в уравнение множественной
регрессии последним. Частный
-критерий
оценивает значимость коэффициентов
чистой регрессии. Зная величину
,
можно определить и
-критерий
для коэффициента регрессии при
-м
факторе,
,
а именно:
.
(1.101)
Оценка значимости коэффициентов чистой регрессии по -критерию Стьюдента может быть проведена и без расчета частных -критериев. В данном случае, как и в парной регрессии, для каждого фактора используют формулу:
,
(1.102)
где – коэффициент чистой регрессии при факторе ,
– средняя
квадратическая ошибка коэффициента
регрессии
.
Для
уравнения множественной регрессии
среднюю квадратическую ошибку коэффициента
регрессии можно определить по следующей
формуле:
,
(1.103)
где
– среднее квадратическое отклонение
для признака
,
– среднее
квадратическое отклонение для признака
,
–
коэффициент
детерминации для уравнения множественной
регрессии,
– коэффициент
детерминации для зависимости фактора
со всеми другими факторами уравнения
множественной регрессии;
– число степеней свободы для остаточной суммы квадратов отклонений.
Чтобы
воспользоваться данной формулой,
необходимы матрица межфакторной
корреляции и расчет по ней соответствующих
коэффициентов детерминации
.
Так, для уравнения
оценка значимости коэффициентов
регрессии
,
,
предполагает расчет трех межфакторных
коэффициентов детерминации:
,
,
.
Взаимосвязь показателей частного коэффициента корреляции, частного -критерия и -критерия Стьюдента для коэффициентов чистой регрессии может быть использована в процедуре отбора факторов. Отсев факторов при построении уравнения регрессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением частного коэффициента корреляции, но и по величинам и . Частный -критерий широко используется и при построении модели методом включения переменных и шаговым регрессионным методом.
