Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Konspekt_lektsy_2_St.doc
Скачиваний:
61
Добавлен:
25.09.2019
Размер:
3.58 Mб
Скачать

Парная линейная регрессия

При регрессионном анализе изучается связь между зависимой пе­ременной и одной или несколькими независимыми перемен­ными .

Проведём анализ парной регрессии, когда независимая переменная одна. Предположим, что переменная (как прави­ло, неслучайная величина) принимает некоторые фиксирован­ные значения . Соответствующие значения зависимой переменной имеют разброс вследствие погрешности из­мерений и различных неучтенных факторов: . Пред­положим, что связь между переменными линейная (рис. 4.34), тогда соответствующая регрессионная модель имеет вид:

, (4.1)

где и - параметры линейной регрессии;

- случайная ошибка наблюдений.

Предполагается, что математическое ожидание равно нулю, а дисперсия постоянна: , .

Рисунок 4.34. Парная линейная регрессия

Задача регрессионного анализа сводится к оценке парамет­ров регрессии и , проверке гипотезы о значимости модели и оценке её адекватности: достаточно ли хорошо согласуется мо­дель (4.1) с результатами наблюдений?

Для оценки параметров регрессии используется метод наи­меньших квадратов: в качестве оценок принимаются такие зна­чения и , которые минимизируют сумму квадратов откло­нений наблюдаемых значений от расчетных:

. (4.2)

Приравнивая к нулю производные по и , получаем зависимости для оценивания параметров модели (4.1):

(4.3)

, (4.4)

где

; (4.5)

(4.6)

Прогнозируемое по модели (4.1) значение зависимой переменной:

.

Разности между наблюдаемыми и прогнозируемыми значениями называются остатками, а соответствующая сумма квадратов - остаточной суммой квадратов:

. (4.7)

Пусть

- (4.8)

общая сумма квадратов;

сумма квадратов, обусловленная регрессией:

. (4.9)

Тогда остаточную сумму квадратов можно вычислить, ис­пользуя основное тождество дисперсионного анализа:

. (4.10)

Парная линейная регрессионная модель называется незначимой, если параметр . Для проверки нулевой гипотезы : используется статистика

. (4.11)

При заданном уровне значимости она сравнивается с квантилью распределения Фишера с числами степеней свободы и . Если оказывается > , то нулевая гипотеза отклоняется: регрессионная модель статисти­чески значима.

Корреляционный анализ

Методами корреляционного анализа устанавливается степень тес­ноты взаимосвязи между случайными величинами. Если значе­ние одной величины однозначно определяет значение другой, такие величины связаны функциональной зависимостью. Если значение одной величины, напротив, не зависит от того, какое значение приняла другая, то это независимые величины. Если же известному значению одной величины соответствует не конкретное значение, а некоторое распределение другой величи­ны, то говорят, что такие величины связаны стохастической за­висимостью: такая связь имеет место в том случае, если эти вели­чины зависят не только от общих для них, но и от различных случайных факторов, и эта связь может быть более или менее тесной.

Для анализа степени тесноты связи между двумя случайны­ми величинами и вводится специальная характеристика, называемая ковариацией:

, (4.12)

где и - соответственно математические ожидания величин и .

Отношение ковариации к произведению стандартных от­клонений называется коэффициентом корреляции:

. (4.13)

Коэффициент корреляции не превышает по модулю едини­цы и характеризует степень тесноты линейной связи между переменными и . При корреляция называется положи­тельной (с увеличением значений в среднем происходит и рост значений ), при - отрицательной. Если , случайные величины и называются некоррелированными; это не озна­чает, что эти величины не связаны между собой, но линейной связи между ними нет. При переменные и связаны функциональной зависимостью вида .

На практике считается, что при < линейная связь между переменными практически отсутствует, при < < связь слабая, при < < - средняя, при < < - сильная. При > практически имеет место функ­циональная связь.

Пусть - двухмерная выборка объема из наблюдений за случайными величинами и . Изображая эле­менты выборки точками плоскости в декартовой системе координат, получаем диаграмму рассеяния.

Учитывая, что для выборки аналогом математического ожи­дания являются выборочные средние и , получаем из форму­лы (4.12) зависимость для расчета выборочной ковариации:

,

а из формулы (4.13) - зависимость для расчёта выборочного коэффициента корреляции

.

Часто при корреляционном анализе обращают внимание на коэффициент детерминации, являющийся квадратом коэффициента корреляции. Его интерпретацию поясним следующим примером: если имеется , то изменчивость значений переменной около линии регрессии составляет от исходной дисперсии; другими словами, 40 % от исходной изменчивости могут быть объяснены, а 60 % остаточной изменчивости остаются необъясненными. В идеале желательно иметь объяснение если не для всей, то хотя бы для большей части исходной изменчивости. Значение является индикатором степени подгонки модели к данным (значение , близкое к 1.0, показывает, что модель объясняет почти всю изменчивость соответствующих переменных).

При решении задачи требуется на заданном уровне значимости проверить нулевую гипотезу о равенстве нулю коэффициента корреляции для генеральной совокупности . Пусть - выборочный коэффициент корреляции, вычис­ленный по выборке объема из генеральной совокупности, имеющей нормальное распределение.

Если нулевая гипотеза будет отвергнута, то говорят о значи­мости коэффициента корреляции, т.е. о наличии корреляции между и . Если же нулевая гипотеза принимается, то корре­ляция незначима: и некоррелированы (несмотря на то, что выборочный коэффициент корреляции ).

Для проверки рассматриваемой гипотезы используется ста­тистика:

. (4.14)

Она имеет распределение Стьюдента с числом степеней свободы .

Напомним, что проверяемый коэффициент корреляции считается значимым, т. е. гипотеза отвергается с вероятностью ошибки , если по модулю будет больше, чем , определяемое по таблицам - распределения для заданного и .

Планирование экспериментов

При оценке или подтверждении представляющей интерес характеристики существует потребность убедиться, что полученные результаты не определяются только случайными факторами. Такая необходимость возникает при сравнении оценок, сделанных по какому-либо стандарту, и, даже в большей степени, при сравнении двух или более систем. Планирование экспериментов позволяет делать такие оценки с предписанным доверительным уровнем.

Главное преимущество планирования экспериментов - его относительная эффективность и экономичность при исследовании воздействия многочисленных факторов в одном процессе по сравнению с исследованием каждого отдельного фактора. Кроме того, его способность идентифицировать взаимодействие между некоторыми факторами может привести к более глубокому пониманию процесса. Такие достоинства становятся особенно явными при работе со сложными процессами, т.е. процессами, на которые потенциально может влиять большое количество факторов. УК

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]