- •Эконометрика
- •Введение
- •1. Модели статистической взаимосвязи
- •1.1. Типы взаимосвязи между явлениями
- •1.2. Типы данных
- •1.3. Типы моделей
- •Контрольные вопросы
- •2. Двухмерная модель линейной регрессии
- •2.1. Определение параметров млр. Метод наименьших квадратов
- •2.2. Матричная форма записи при определении параметров млр
- •2.3. Корреляционный анализ млр
- •2.4. Оценка ошибок моделирования
- •2.4.1. Основные условия (гипотезы) анализа ошибок
- •2.4.2. Ошибки оценок параметров модели
- •2.4.3. Оптимальность оценок мнк Теорема Гаусса-Маркова.
- •2.4.4. Оценка прогноза показателя и ошибок прогнозирования
- •2.5. Установление существенности связи на основе теории статистической проверки гипотез
- •2.5.1. Распределения случайных величин Нормальное распределение (Гаусса)
- •Распределение Пирсона (2-распределение)
- •Распределение Фишера
- •Распределение Стьюдента (t-распределение)
- •Статистическая проверка гипотез
- •Контрольные вопросы
- •3. Многомерная модель линейной регрессии
- •3.1. Определение параметров модели методом наименьших квадратов
- •3.2. Определение оценок параметров млр через отклонения (уменьшение числа уравнений системы до k – 1)
- •3.3. Статистические свойства оценок параметров млр
- •3.3.1. Условия анализа
- •3.3.2. Среднеквадратичные ошибки оценок параметров млр
- •3.3.3. Ошибки прогнозирования
- •3.4. Коэффициент детерминации многомерной млр
- •3.5. Определение существенности статистической связи между факторами и показателем
- •Контрольные вопросы
- •4. Мультиколлинеарность
- •4.1. Выражение для оценки параметров млр в стандартизованной форме
- •4.2. Тестирование на мультиколлинеарность методом Феррара-Глобера
- •4.2.1. Проверка на общую мультиколлинеарность
- •4.2.2. Проверка мультиколлинеарности между парами факторов
- •Контрольные вопросы
- •5. Автокорреляция
- •5.1. Обобщенный метод наименьших квадратов
- •5.2. Авторегрессионый процесс первого порядка
- •5.3. Тест Дарбина-Уотсона на автокорреляцию
- •Контрольные вопросы
- •6. Двухмерная модель нелинейной регрессии
- •6.1. Трехпараметрическая парабола
- •6.2. Двухпараметрическая парабола
- •6.3. Обзор двухпараметрических нелинейных моделей парной регрессии
- •Экспоненциальная модель
- •Логарифмическая модель
- •Гиперболическая модель
- •Контрольные вопросы
- •Литература
- •Приложение 1
- •Приложение 2
- •Приложение 3
- •Приложение 4
- •Приложение 5
Статистическая проверка гипотез
Теория статистической проверки гипотез в приложении к регрессионным моделям разработана английским математиком Фишером.
Пусть Н0 – гипотеза о том, что статистической связи между Х и Y нет (или она не существенна, статистически не значима), а Н1 – гипотеза о том, что связь есть (или она существенна, статистически значима). Предположим, что выполняется гипотеза Н0 об отсутствии связи. В этом случае истинное значение коэффициента регрессии = 0 и F-статистика (2.51) становится равной
(2.52)
Очевидно, что с ростом значения F (или коэффициента детерминации R2) увеличивается степень статистической связи между фактором и показателем (так как она пропорциональна коэффициенту регрессии и обратно пропорциональна случайным ошибкам модели). Зададим вероятность
(2.53)
как вероятность того, что при превышении расчетным значением (2.51) F некоторого критического значения Fкр гипотеза об отсутствии связи Н0 верна. Очевидно, с вероятностью 1 – она при том же условии неверна. Графически эта вероятность определяется как площадь под плотностью вероятности p(F) при F > Fкр, рис.2.15. Вероятность (ее иногда называют коэффициентом значимости) обычно выбирают малой (равной 0,05 или 0,01), после чего для заданных значений вероятности рассчитываются численно критические значения Fкр в соответствии с (2.53) или R2кр с учетом зависимости (2.52). Эти значения табулируются, т.е. заносятся в таблицы критических коэффициентов детерминации или критических значений F-статистики.
Рис.2.15
Определение существенности статистической связи для модели линейной регрессии осуществляется по следующей методике. На основе выборочных данных строится модель и определяется коэффициент детерминации R2, который затем сравнивается с критическим коэффициентом детерминации R2кр. Последний находится по таблице критических значений коэффициента детерминации (Приложение 1). Входными данными таблицы являются коэффициент значимости = 0,05 (или 0,01), номер столбца таблицы k1 = k – 1, номер строки k2 = n – k, где k – число параметров модели (для двухмерной модели k = 2 и используется первый столбец таблицы). Напомним, что параметр k1 – это число степеней свободы числителя F-статистики (2.51), k2 – число степеней свободы знаменателя F-статистики. Коэффициент детерминации можно пересчитать в F-статистику (критерий Фишера), в общем случае по формуле
k1 = k – 1 = 1, k2 = n – k = n – 2.
Для двухмерной модели она совпадает с (2.52). Рассчитанное для модели значение F сравнивается с критическим (Приложение 2). При F > Fкр (или R2 > R2кр) делается вывод, что с вероятностью (1 – ) связь существенна (статистически значима). В противном случае говорят, что связь не установлена.
Пример 2.4. Определим существенность связи для построенной в параграфе 2.2 МЛР (пример 2.2). Согласно данным таблицы 2.2 и формулы (2.22) определяем коэффициент детерминации
R2 = 1 – = 0,9092.
Тот же результат можно получить и с помощью формулы (2.23)
.
По входным данным k1 = k – 1 = 1, k2 = n – k = 8 (k = 2, n = 10) таблицы (Приложение 1) находим критическое значение коэффициента детерминации при = 0,05
.
Так как R2 > , заключаем, что связь между товарооборотом и торговой площадью торгового предприятия существенна (статистически значима) с вероятностью 0,95.
Если доступными являются лишь таблицы критических значений распределения Фишера, то рассчитываем значение
.
Далее по таблице (Приложение 2) при тех же входных параметрах находим Fкр = 5,32. Так как F > Fкр, делаем тот же вывод о существенности связи между показателем и фактором.
Таким образом, при рассчитанных после построения модели значениях R2 или F, превышающих критические табличные значения для заданных (или ), можно с вероятностью (или ) утверждать, что статистическая связь существенна.
Задачи
1. Для выборки из 10 специалистов с тарифными разрядами от 2-го до 6-го их заработки составляли:
Тарифный разряд |
2 |
3 |
4 |
5 |
6 |
Заработок, у.е. |
150 |
200 280 |
300 400 460 |
350 420 |
500 700 |
Построить график модели линейной регрессии (вместе с диаграммой рассеяния), определить существенность корреляционной связи между уровнем квалификации и зарплатой (с вероятностью 0,95).
2. Возраст (xi, лет) и вес (yi, кг) 12 школьников описываются выборкой {xi, yi}(12) = {(10, 28), (10, 32), (11, 34), (11, 35), (11, 36), (12, 36), (13, 39), (14, 41), (14, 44), (15, 46), (15, 48), (15, 50)}.
Построить модель линейной регрессии веса детей в зависимости от возраста (вместе с диаграммой рассеяния), определить интервальные ошибки оценок параметров а и b модели с доверительной вероятностью 0,95, коэффициент корреляции между возрастом и весом, сделать выводы.
3. По результатам выборочного наблюдения с объемом выборки n = 40 определены значения
Построить график МЛР, определить коэффициенты детерминации, корреляции и существенность связи между фактором и показателем.
4. Пусть известны 2 точки выборки (0; 4) и (3; 1). Найти еще 3 точки выборки, при которых коэффициент детерминации будет равен 1.
5. Дисперсия оценки коэффициента регрессии b двухмерной МЛР равна 4,6; рассчитаны значения объем выборки n = 20.
Определить дисперсию и СКО оценки постоянной составляющей модели.
6. Для выборки парной регрессии рассчитаны суммы .
Определить оценку дисперсии ошибок двухмерной МЛР, при которой относительная среднеквадратичная ошибка оценки коэффициента регрессии b не превышает 1%.
7. Модель зависимости спроса у* (тыс. шт.) от цены х (грн.) описывается уравнением прямой у* = 28 – 0,12х, объем выборки n = 100, коэффициент детерминации
Определить доверительный интервал прогноза спроса при цене единицы товара 100 грн. с доверительной вероятностью 95,4%.