Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Все ответы.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.51 Mб
Скачать
  1. Метод наименьших квадратов – сущность и использование для оценки параметров парной линейной регрессии.

Решение парного линейного уравнения регрессии сводиться к нахождению его параметров a и b. Если мы имеем некоторое количество наблюдений, то в качестве грубого приближения можно отложить имеющиеся точки в системе координат и построить прямую, максимально приближенную к ним. Отрезок, отсекаемый прямой на оси у, представляет собой оценку а, а угловой коэффициент прямой представляет собой оценку b. При этом необходимо иметь ввиду, что истинные значения параметров таким образом рассчитать никогда не получится. Фактически можно получить только лишь оценки параметров. Иногда оценки могут быть абсолютно точными, но это возможно лишь в результате случайного совпадения.

В решении этой задачи широкое распространение получил метод наименьших квадратов (МНК), его сущность фактически заключается в оценке этих параметров

Суть. Метод наименьших квадратов дает несмещенные и эффективные оценки параметров уравнения регрессии.

Первым шагом является определение остатка е = (у - ), как разность между фактическим значением и расчетным для каждого наблюдения. За исключением случаев чистого совпадения, построенная линия регрессии не пройдет точно ни через одну точку наблюдения.

Очевидно, что мы хотим иметь такую линию регрессии, чтобы эти остатки (отклонения расчетных значений от фактических) были минимальными. При этом бесполезно минимизировать сумму остатков. Сумма будет автоматически равна нулю, если сделаеть равным , а равным нулю, получив горизонтальную линию . В этом случае положительные остатки точно уравновесят отрицательные, но строгой зависимости при этом не будет.

Решением поставленной проблемы является минимизации суммы квадратов остатков отклонений фактических значений результативного признака (у) от расчетных (теоретических): .

Эта сумма будет зависеть от выбора а и b, так как они определяют положение линии регрессии. В соответствии с этим критерием, чем меньше сумма квадратов отклонений, тем строже соответствие. Если она равна, то получено абсолютно точное соответствие, так как это означает, что все остатки равны нулю. В этом случае линия регрессии будет проходить через все точки, однако, вообще говоря, это невозможно из-за наличия случайного члена.

Таким образом построение уравнения регрессии с помощью МНК требует выполнения 2-х условий:

1 было рассмотрено выше: сумма квадратов отклонений остатков фактических значений результативного признака (у) от расчетных (теоретических) должна быть минимальна;

2 требованием применения МНК является максимальное значение коэффициента детерминации, то есть величина объясненной вариации в общей должна быть максимальна:

Параметры уравнения регрессии находятся по формулам, при этом минимальна.

,

  1. Оценка достоверности выборочного уравнения регрессии и его параметров.

Если уравнение регрессии построено по выборочным данным, то оно является лишь оценкой генерального уравнения.

Для парной линейной регрессии является оценкой .

Выборочные оценки параметров и уравнение в целом могут оказаться незначимыми для генеральной совокупности в силу ошибок выборки, поэтому необходима проверка их достоверности (значимости). Проверить достоверность уравнения регрессии – значит, установить: соответствует ли математическая модель, выражающая зависимость между переменными связям в генеральной совокупности и достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной

Достоверным (существенным) показателем связи называют тот, величина которого сформировалась под действием закономерности, имеющей место в генеральной совокупности; под достоверностью в математической статистике понимают вероятность того, что значение проверяемого показателя связи не равно нулю и не включает в себя величины противоположных знаков. Недостоверный (несущественный) показатель формируется под влиянием случайных причин.

Проверка достоверности уравнения в целом проводится на основе дисперсионного анализа по критерию F-Фишера.

Схема.

  1. Выдвигается рабочая гипотеза о равенстве генеральных дисперсий: дисперсии, воспроизведенной (σ2регр.) уравнением регрессии, и остаточной дисперсии (σ 2ост.), а также альтернативная ей:

Н0: σ 2регр. = σ 2ост.

Нa: σ 2регр. ¹ σ 2ост

  1. Выбирается уровень значимости критерия .

  2. Производится разложение общего объема вариации:

  1. Определяется число степеней свободы, которое обозначается d.f. или v:

vобщ.=n-1, где n – численность выборки;

vрегр.=m (m – число параметров без условного начала). Для парной линейной регрессии vрегр.=1

vост..=n-m-1. Для парной линейной регрессии vост.=n-2.

  1. Рассчитываются выборочные несмещенные оценки дисперсий путем деления вариации на число степеней свободы:

  1. О пределяется фактическое значение F-критерия Фишера:

  2. Определяется табличное значение критерия:

  3. Делается статистический вывод:

а) Fфакт.≤ Fтабл.ÞН02факт.= σ 2ост.)

б) Fфакт.> Fтабл.ÞНa 2факт. ¹ σ 2ост)

Делается заключение о значимости уравнения в целом, в случае принятия альтернативной гипотезы при выбранном уровне вероятности суждения , либо – о его недостоверности , если была принята нулевая гипотеза.

Если уравнение регрессии в целом значимо, то имеет смысл оценить значимость его параметров по t-критерию Стьюдента.

Схема t-теста:

  1. Формулируются рабочая и альтернативная гипотезы:

  1. Выбирается уровень значимости критерия (0,05).

  2. Рассчитываются средние ошибки выборочных характеристик:

,

где – выборочная дисперсия независимой переменной х.

  1. Определяются фактические значения t-критерия:

  1. Определяется критическое значение: .

  2. Фактические значения сравниваются с табличным. Тестируемые параметры будут значимыми, если:

Отметим, что парной линейной модели, поскольку в модели всего один регрессор:

.

Если параметры уравнения оказались значимыми, то возможна их интерпретация и распространение выводов на генеральную совокупность.

В этом случае возможна их интервальная оценка:

Нужно иметь ввиду, что существенные параметры регрессии не могут менять знаки на противоположные. Если нижняя граница у Вас получается отрицательной, а выборочный параметр при этом – положительный, то в качестве нижней границы следует взять ноль. Аналогично для коэффициента корреляции, к тому же нужно помнить, что он изменяется в пределах от -1 до 1, соответственно предельные границы в генеральной совокупности не могут превышать по модулю единицу.