Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Стат. обр. 4195-96. 2014 / Конспект лекции 6. Регрессионный анализ.doc
Скачиваний:
169
Добавлен:
12.03.2015
Размер:
1.36 Mб
Скачать

217

Лекция 5 регрессионный анализ

5.1. Общие положения

Регрессия – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких других величин. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной х соответствует одно определённое значение зависимой переменной у, при регрессионной связи одному и тому же значению независимой переменной (фактору) х могут соответствовать в зависимости от конкретного случая различные значения зависимой переменной (отклика) у. Если при каждом значении х=хi наблюдается ni значений yij; то зависимость средних арифметических значений:отxi и является регрессией в статистическом понимании этого термина. Изучение регрессии основано на том, что случайные величины Х и Y связаны между собой вероятностной зависимостью: при каждом конкретном значении Х=х величина Y является случайной величиной с вполне определённым распределением вероятностей. Зависимость зависимой переменной – отклика от одной независимой переменной – фактора или нескольких факторов называется уравнением регрессии. По количеству факторов выделяют парную (однофакторную) и множественную (многофакторную) регрессию. Для парной будем рассматривать следующие методы регрессии: линейную, показательную, экспоненциальную, гиперболическую и параболическую.

Регрессионный анализ – это раздел математической статистики, изучающий регрессионную зависимость между случайными величинами по статистическим данным. Цель регрессионного анализа состоит в определении общего вида уравнения регрессии, вычислении оценок неизвестных параметров, входящих в уравнение регрессии проверке статистических гипотез о регрессионной связи.

При проведении экспериментов рекомендуется подбирать переменные, участвующие в экспериментах так, чтобы они были случайными, количественными и непрерывными. В этом случае для обработки результатов рекомендуется применять регрессионный анализ, обладающий свойствами сравнительной простоты и конструктивности, которые заключаются в возможности использования регрессионных уравнений для генерации эффективных решений на основе оптимизационных методов. Отметим, что если переменные не количественные, а качественные, то рекомендуется использовать дисперсионный анализ. Если же часть переменных количественная, а часть качественная, то рекомендуется корреляционный анализ.

Регрессионный анализ основан на методе наименьших квадратов, который требует, чтобы сумма квадратов отклонений экспериментальных значений от вычисленных по аппроксимирующей зависимости была минимальной. Запишем это условие для однофакторной зависимости:

(5.1.1)

где xi* - i-ое экспериментальное значение фактора;

yi* - i-ое экспериментальное значение отклика;

f(xi*) – i-ое вычисленное значение отклика;

n – общее количество экспериментальных значений.

Запишем то же условие для многофакторной зависимости:

(5.1.2)

где xij* - i-ое экспериментальное значение j-го фактора;

yi* - i-ое экспериментальное значение отклика;

f(xi1*,xi2,…xim*) – i-ое вычисленное значение отклика;

m – количество факторов;

n – общее количество экспериментальных значений.

В лучшем случае при обработке результатов экспериментов нам известен вид математической зависимости между переменными и тогда следует вычислить только неизвестные коэффициенты. Чаще всего вид математической зависимости неизвестен. В этом случае рекомендуется использовать степенные полиномы, которые при повышении степени полинома позволяют получать аппроксимирующие зависимости с любой заданной точностью. Запишем степенной полином для однофакторной зависимости:

(5.1.3)

Запишем полином второго порядка для двухфакторной зависимости:

y = b0х0+b1x1+b2x2+b12x1x2+b11x12+b22x22 . (5.1.4)

Технология регрессионного анализа

Для проведения регрессионного анализа предлагается технология, состоящая из следующих четырёх этапов.

  1. Для однофакторных зависимостей строится система координат, по оси

абсцисс делается масштабирование для фактора x, по оси ординат – для отклика y. В принятой системе координат размещаются экспериментальные точки, по характеру размещения которых делается предположение о виде зависимости y=f(x). Для многофакторных зависимостей этот пункт не выполняется.

  1. Проводится корреляционный анализ. Если предполагается наличие ли-

нейной зависимости и нормальность распределения фактора и отклика то для оценки тесноты связи между переменными рекомендуется использовать коэффициент линейной корреляции, вычисляемый по формуле:

(5.1.5)

В формуле (5.1.5) оценки математических ожиданий переменных х, у и их произведения вычисляются по формулам:

(5.1.6)

Оценки вторых начальных моментов требуются для вычисления средних квадратических отклонений. Для этого используются следующие формулы:

(5.1.7)

(5.1.8)

Если коэффициент линейной корреляции близок к 1, то корреляционная связь между переменными положительная, близкая к линейной. Если коэффициент линейной корреляции близок к -1, то корреляционная связь между переменными отрицательная, близкая к линейной. Если коэффициент линейной корреляции близок к 0, то между переменными имеется слабая корреляционная связь. Для независимых переменных коэффициент линейной корреляции равен нулю.

Оценить существенность коэффициента линейной корреляции между случайными переменными по критерию Стьюдента можно при условии, что распределения этих случайных величин подчиняется нормальному закону и что они имеют совместное двумерное нормальное распределение.

В случае, если значение коэффициента линейной корреляции, вычисленное по (5.1.5), по абсолютной величине не меньше 0,8, то можно ожидать наличие между переменными линейной зависимости. Если значение коэффициента линейной корреляции по абсолютной величине меньше 0.8 то рекомендуется в качестве факторов попробовать использовать сравнительно несложные функции от факторов. Рекомендуется использовать следующие функции от факторов xi; : для увеличения масштаба факторах относительно результативного показателя эффективности у; - для уменьшения масштаба факторах относительно результативного показателя эффективности у; - для отображения обратной связи между фактором х и результативным показателем эффективности у. Естественно, что после вычисления коэффициента линейной корреляции для простых функций от факторов, для регрессионного анализа выбираются функции, коэффициент линейной корреляции которых с откликом имеет наибольшее значение. Таким образом, и выбирается вид регрессионной зависимости между переменными.

Эмпирическое корреляционное отношение может использоваться для любых распределений случайных величин без введения каких-либо ограничений. Оно вычисляется по формуле

(5.1.9)

где δ* – оценка межгруппового среднего квадратического отклонения;

σу*оценка среднего квадратического отклонения результативного

признака.

Оценка межгруппового среднего квадратического отклонения вычисляется по формуле:

. (5.1.10)

  1. Построение уравнения регрессии, т.е. фактически вычисление значений

коэффициентов равнения регрессии.

Для построения регрессионной зависимости применяется метод наименьших квадратов (МНК), требующий, чтобы сумма квадратов отклонений экспериментальных значений от вычисленных по аппроксимирующей зависимости была минимальной. Так как нам требуется найти некоторое количество коэффициентов, значения которых на данном этапе неизвестно, то по (5.1.3) запишем требование МНК в более общем виде с вводом в неё и искомых коэффициентов (5.1.11)

Найдём значения коэффициентов обеспечивающих минимальное значение левой части (5.1.11). Для этого продифференцируем её пои приравняем производные нулю. Получим систему уравнений, получивших название нормальных:

(5.1.12)

.

.

.

Составленная система нормальных уравнений (5.1.12) не решается в общем виде, далее по тексту лекций она будет решена для нескольких частных случаев.

Найти значения коэффициентов можно и другим наиболее часто используемым на практике методом решением системы уравнений в матричном виде.

(5.1.13)

  1. Оценка качества полученных уравнений регрессии.

Главный показатель качества аппроксимации – стандартная ошибка и

ещё более сильный показатель отношение стандартной ошибки к среднему значению. Стандартная ошибка для множественной регрессии вычисляется по формуле:

(5.1.14)

где xij* - i-ое экспериментальное значение j-го фактора;

yi* - i-ое экспериментальное значение отклика;

f(xi1*,xi2,…xim*) – i-ое вычисленное значение отклика;

m – количество факторов;

qколичество переменных в уравнении регрессии;

n – общее количество экспериментальных значений.

Отношение стандартной ошибки к среднему значению должно не превышать рекомендуемый уровень 0.05 (5 процентов)

(5.1.15)

Отметим, что воспользоваться рекомендацией (5.1.15) можно только в случаях, если

Применение дисперсионного анализа для оценки качества уравнений регрессии. Дисперсионный анализ основан на разложении общей изменчивости результативного показателя (общей дисперсии) на объяснённую дисперсию, которую удалось объяснить изменением переменных, вошедших в уравнение регрессии, и остаточную регрессию, которую объяснить не удалось. Для проведения дисперсионного анализа вычисляются.

  1. Объяснённая сумма квадратов:

(5.1.16)

с количеством степеней свободы:

среднее значение суммы квадратов:

(5.1.17)

  1. Остаточная сумма квадратов:

(5.1.18)

с количеством степеней свободы:

среднее значение суммы квадратов:

(5.1.19)

  1. Общая сумма квадратов:

(5.1.20)

с количеством степеней свободы:

Должно выполняться равенство:

  1. Критерий Фишера

(5.1.21)

с количеством степеней свободы:

  1. Коэффициент множественной детерминации, который показывает, какую

часть изменения результативного показателя удалось объяснить изменением переменных, вошедших в уравнение регрессии.

(5.1.22)

с количеством степеней свободы:

По статистическим таблицам для критерия Фишера и коэффициента множественной детерминации с вышеприведёнными количествами степеней свободы и рекомендуемого уровня значимости 0.05 находят их критические значения. Если вычисленные значения критерия Фишера и коэффициента множественной детерминации не меньше критических значений, то результаты аппроксимации признаются удовлетворительными.

  1. Ввиду того, что коэффициенты уравнения регрессии вычисляются по

случайным величинам, то они и сами являются случайными величинами. Поэтому можно вычислить их стандартные ошибки и по ним определить критерий Стьюдента и уровни их значимости.

(5.1.23)

где

- диагональный элемент матрицы

(5.1.24)

чем больше величина , тем лучше.

По статистическим таблицам для вычисления , дляn-1 степеней свободы, для рекомендованного уровня значимости вычисляем критическое значение критерия Стьюдента. Если вычисленное значениепревышает критическое, то считаем, что уровень значимостине превышает рекомендуемого значения, и поэтому вычисленные значения коэффициентов приемлемы для отображения экспериментальных данных. В противном случае рекомендуется подобрать другие значения переменных в аппроксимирующее уравнение регрессии, в виде каких-либо функций от аргументов.