
- •Корреляционный и регрессионный анализы Задание
- •1 Корреляционная зависимость и ее компоненты
- •2 Парная корреляция
- •2.1 Линейная регрессия. Метод наименьших квадратов
- •2.2 Выборочный коэффициент корреляции
- •2.3 Проверка значимости коэффициентов и адекватности уравнения регрессии
- •3 Содержание отчета по практической работе
- •1 Задание……………………………………………………............
- •2 Результаты измерений…………………………………………...
Практическая работа №3
Корреляционный и регрессионный анализы Задание
Цель работы: Для имеющихся экспериментальных данных построить корреляционную зависимость в виде уравнения линейной регрессии, рассчитать коэффициент корреляции и провести проверку значимости коэффициентов и адекватности уравнения регрессии.
1 Корреляционная зависимость и ее компоненты
Любой технологический процесс может быть охарактеризован определенным числом факторов или входных параметров, которые в различной мере влияют на выходные параметры, т.е. на количество продукта, его качественные или количественные характеристики, получаемые в ходе реализации процесса.
Целью исследования часто является установление количественной зависимости выходного параметра какого-либо процесса от одного или группы входных факторов в условиях колеблемости значений входных и выходных параметров, обусловленной влиянием случайных и в большинстве своем не поддающихся учету факторов.
Если взаимосвязь между двумя переменными величинами выражается некоторой функцией Y = f (X), то в математическом анализе такая зависимость называется функциональной. Это значит, что в соответствии с видом функции каждому значению независимой переменной X отвечает одно или несколько вполне определенных значений зависимой переменной Y.
При изучении взаимного влияния или связи случайных величин, какими являются практически все оцениваемые в исследовательской практике параметры, наблюдается иной вид связи. Особенность ее состоит в том, что одному значению переменной X может соответствовать некоторая совокупность значений зависимой переменной Y. Появление такой совокупности значений зависимой переменной Y вызвано влиянием множества побочных факторов, действующих одновременно или последовательно в разных направлениях. В этом случае связь между переменными X и Y в отличие от функциональной приобретает статистический характер и называется корреляционной, Корреляционная связь занимает промежуточное положение между строгой функциональной зависимостью и полным отсутствием ее между переменными.
Смещение корреляционной зависимости в ту или иную сторону обусловлено «конкурирующим» влиянием двух составляющих. Одна из них (стохастическая) определяется объективно действующими физическими или технологическими связями между переменными. Другая составляющая (случайная) является результатом влияния многочисленных неучитываемых факторов. Преобладание первой составляющей сдвигает корреляционную зависимость в сторону функциональной связи, а второй – в сторону полной независимости случайных величин.
2 Парная корреляция
2.1 Линейная регрессия. Метод наименьших квадратов
Если между независимой (входной) величиной X и зависимой (выходной) величиной Y имеется или предполагается корреляционная связь, то ее можно оценить и исследовать с помощью методов регрессионного анализа. Простейшей и весьма распространенной зависимостью между величинами X и Y является линейная регрессия, на основе которой можно оценивать линейную или парную корреляционную связь между этими величинами. Задача нахождения выборочного уравнения регрессии и последующей проверки значимости его коэффициентов решается методами регрессионного анализа. Оценка тесноты или силы связи между величинами X и Y осуществляется методами корреляционного анализа. Математический аппарат регрессионного и корреляционного анализа в значительной мере содержит общие элементы.
Рассмотрим линейную регрессию от одного параметра. Пусть для произвольного фиксированного значения х получено несколько значений у. Предполагается, что величина Y распределена нормально с математическим ожиданием:
mY = b0* + b1* x (2.1)
и дисперсией 2у, не зависящей от X. Из выражения (2.1) следует, что случайная величина Y в среднем линейно зависит от фиксированного значения х, а параметры b0*, b1* и 2у являются неизвестными параметрами генеральной совокупности.
Для оценки этих неизвестных величин по выборке объемом n сопряженных пар значений х1, у1; х2, у2; …; xn, yn в декартовой системе координат можно построить корреляционное поле, содержащее n точек (рис. 2.1). Расположение точек на корреляционном поле в общем оказывается не случайным и подчиняется определенной зависимости. Если нанести на поле средние значения <xi>, соответствующие всем значениям переменной хi в интервалах, ограниченных вертикальными линиями координатной сетки, то зависимость у от х может стать более очевидной. Ломаная линия, соединяющая точки <xi>, отнесенные к серединам интервалов xСРi, называется эмпирической линией регрессии. С увеличением числа опытов ломаная будет сглаживаться и, освобождаясь от случайных зигзагов, приближаться к некоторой предельной линии – теоретической линии регрессии. В общем случае форма линии регрессии определяется характером связи между х и у.
Для линейной зависимости линия регрессии задается уравнением прямой:
y = β0 + β1x , (2.2)
которая должна проходить максимально близко к точкам корреляционного поля. Это требование обычно реализуется применением метода наименьших квадратов и сводится к тому, чтобы расстояние по вертикали между опытными точками с координатами хi, уi и соответствующими точками, лежащими на искомой линии регрессии, было минимальным. Это условие можно записать в виде
(2.3)
Рисунок 2.1. Корреляционное поле зависимости y-x с эмпирической (1) и теоретической (2) линиями регрессии
Взяв частные производные (2.3) по 0 и 1 и приравняв их нулю, находим уравнения для оценок b0 и b1 неизвестных параметров 0 и 1:
(2.4)
откуда
(2.5)
и
(2.6)
откуда
(2.7)
Поскольку
и
то из (2.5) и (2.7) следует
(2.8)
(2.9)
Учитывая соотношение (2.8), выборочное уравнение линейной регрессии y относительно х можно записать в виде
(2.10)