Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Pract_Meshalkina_Samsonova

.pdf
Скачиваний:
90
Добавлен:
11.06.2015
Размер:
3.61 Mб
Скачать

Занятие 4. Регрессионный анализ

ЦЕЛЬ занятия - провести множественный линейный регрессионный анализ данных зависимости урожайности от почвенных признаков; определить переменные, влияющие на урожайность; оценить степень влияния каждой из переменных; исследовать качество аппроксимации зависимости.

Войдите в пакет STATISTICA (см. занятие №1). В программе STATISTICA создайте новый файл данных для своего варианта (см. занятие №3). Введите данные как показано на картинке ниже. Признаки – это столбцы, строки – это наблюдения.

Каждому наблюдению (точке на поле), соответствует урожай сельскохозяйственной культуры, указанный в пересчете на ц/га, (здесь переменная Yield) и почвенные свойства, измеренные в почвенном образце, в данном случае – это содержание гумуса, рН , содержание подвижного фосфора, калия и нитратов.

Щелкнув на кнопке Анализ (Statistics) откройте меню и затем выбери-

те раздел Множественная регрессия (Multiple Regression).

31

Назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) – в данном случае, почвенными свойствами и зависимой переменной – урожаем.

Выберите закладку Дополнительно (Advanced).

Щелкните по кнопке Переменные (Variables), задайте зависимые и независимые переменные. В нашем случае зависимой переменной (Dependent) будет урожай сельскохозяйственной культуры (Yield), независимые переменные (Independent)- почвенные свойства (например, P2O5, hum, pH, K2O, NO3). Обратите внимание, что вообще Файл данных (Input file) может содержать данные как в исходном виде, так и в виде корреляционной матрицы. Нажмите ОК, запустив тем самым анализ.

В результате работы программы появляется новая панель с расчетными характеристиками (см. стр. 33). На появившейся панели отображается множественный коэффициент корреляции (R), его квадрат (коэффициент детерминации), “скорректированный” коэффициент детерминации. Коэффициент множественной корреляции R определяет степень тесноты связи результирующего признака Y со всем набором независимых признаков X1,...,Xk. В случае парной регрессии (т.е. при наличии всего одного признака X1) R совпадает с коэффициентом корреляции Пирсона. По значению R-квадрат можно определить, насколько хорошо модель описывает данные, так как значение R рав-

32

но отношению дисперсии признака Y, объясненной регрессионной моделью, к общей дисперсии признака Y. Значение R-квадрат близкое к 1,0 показывает, что с помощью модели объясняется почти вся изменчивость Y.

На панели также приведены результаты дисперсионного анализа для проверки гипотезы об адекватности модели: величина F-критерия, соответствующее число степеней свободы для уравнения и уровень значимости (р), стандартная ошибка оценки (Standart error estimate), оценка свободного члена (intercept) и значение t-критерия для него с соответствующим уровнем значимости (р). Значимые (отличные от нуля) оценки высвечиваются красным цветом.

Для каждого признака приведены стандартизованные коэффициенты регрессии (см. далее), обозначенные бета (beta). Красным цветом обозначены значимые коэффициенты.

Результаты расчетов можно вывести в виде таблиц. На вкладке Допол-

нительно (Advanced) нажмите кнопку Дисперсионный анализ (ANOVAoverall goodness of fit).

В появившейся таблице дисперсионного анализа уравнение регрессии выступает в качестве влияющего фактора. Скопируйте таблицу в отчет в программе Excel.

33

Для продолжения анализа в нижнем левом углу нажмите на свернутую панель Множественная регрессия (Multiple Regression). На вкладке Дополнительно (Advanced) нажмите кнопку Итоговая таблица регрессии (Summary: regression results). Появится таблица, где суммированы результаты регрессионного анализа для каждой из независимых переменных. Скопируйте шапку и таблицу в отчет. Оцените отличие обычного и скорректированного коэффициентов детерминации.

Аппроксимирующая модель подбирается в виде:

Y=const+B1*X1+B2*X2 + …+ Bk*Xk,

где В1, В2 … BkB служат оценками генеральных параметров β1, β2…βk . Величина Вj показывает, насколько в среднем изменяется урожай (признак Y) при увеличении соответствующего независимого признака Xj на единицу (шкалы его измерения) при фиксированных значениях других признаков, входящих в уравнение регрессии. Эти коэффициенты – величины размерные. В таблице для каждого коэффициента B приведены их стандартные ошибки (Std. Err. of B), а также значения критерия Стьюдента (в скобках указано число степеней свободы) и уровень значимости (обозначен как p-уровень) для проверки гипотезы о равенстве коэффициентов нулю. Проверьте по скопированной таблице, какие из коэффициентов равны нулю, а какие отличны от нуля.

Исходя из этих данных, можно рассчитать доверительные интервалы для коэффициентов регрессии.

Bi ±SBi *tανR ,i =1,2,...k

Термином БЕТА (Beta) в таблице названы стандартизованные коэффициенты, связанные с обычными коэффициентами через соотношение:

Bi = Betai * σi

σ y

34

Как видно из уравнения коэффициенты бета - это безразмерные величины. По их значениям можно сравнивать вклады независимых переменных в урожай. Например, из таблицы видно, что наибольший вклад в урожай вносит фосфор, следующий по значению признак – гумус и т.п. Для значения рН уровень значимости для проверки гипотезы о равенстве коэффициента нулю больше значения 0,05, и, следовательно, нулевая гипотеза принимается. Коэффициент для значения рН неотличим от нуля. Вклад нитратов в данном случае практически тоже равен нулю.

Проверьте по скопированной таблице, какие из коэффициентов отличны от нуля. Выпишите окончательное уравнение регрессии. Например, в данном случае:

Yield [ц/га] = 4,29 [ц/га] + 0,91[ц/(га*%)] *Humus [%] + 0, 52 [(ц/га)/ мгэкв. / 100 г. почвы] * P2O5[мг-экв. / 100 г. почвы] + 0,31 [(ц/га)/ мг-экв. / 100 г.

почвы] *K2O[мг-экв. / 100 г. почвы].

Рассчитайте 95% доверительные интервалы для коэффициентов полученного уравнения. Например, для 90% -доверительного интервала и числа степеней свободы, равного 16 (число наблюдений 20 минус число переменных 4), значение двухстороннего t- критерия будет равно 1,75. Коэффициент регрессии для гумуса будет с вероятностью 90% изменяться в следующих преде-

лах: от 0,38 (0,91 – 0,30*1,75) до 1,44 (0,91 + 0,30*1,75), где точечная оценка коэффициента регрессии и его ошибки равны соответственно 0,91 и 0,30.

АНАЛИЗ НАЛИЧИЯ МУЛЬТИКОЛЛИНЕАРНОСТИ. Под термином мультиколлинеарность понимают наличие взаимосвязей между так называемыми независимыми признаками, по которым строиться регрессионное уравнение. При ее наличии снижается точность оценок регрессионных коэффициентов. Кроме того добавление небольшого числа наблюдений может привести к сильным сдвигам в значениях регрессионных коэффициентов.

Для продолжения работы перейдите на вкладку Остатки/ предсказан-

ные/ наблюдаемые значения (Residuals/assumptions/ prediction). Для по-

строения коэффициентов корреляции нажмите на кнопку Описательные статистики (Descriptive Statistics).

35

На появившейся панели перейдите на вкладку Дополнительно (Advanced) и выберите кнопку Корреляции (Correlations) для построения корреляционной таблицы между признаками. При построении таблицы корреляций выберите все признаки. Скопируйте таблицу в отчет. При анализе результатов нужно учесть, что при числе степеней свободы ν=19 значимыми (то есть отличными от нуля) можно считать коэффициенты, превышающие по модулю 0,45. А при ν=14 – 0,53. Если независимые переменные окажутся тесно связанными между собой (коэффициенты корреляции по модулю равны или более 0,85), то следует исключить коррелированные признаки, оставив один из них. Затем можно использовать алгоритмы пошаговой регрессии.

Humus

P2O5

K2O

Yield

36

Другой вариантом при наличии большего числа коррелированных признаков является проведение факторного анализа (метод главных компонент) и переход к новому набору переменных, которые будут не связаны между собой. Множественная регрессия строиться для этих новых переменных (компонент).

Для построения попарных графиков между переменными выберите кнопку Матричный график (Matrix plot of correlations). Сначала выберите все переменные и урожай. Рассмотрите график. Затем постройте график только для значимых переменных и для урожая. Для выделения нужных переменных используйте клавишу Ctrl. Скопируйте график в отчет.

АНАЛИЗ ОСТАТКОВ. Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком. Анализ остатков - важная составляющая регрессионного анализа, позволяющая проверить, насколько хорошо выполняются основные предположения множественной регрессии. Наличие выбросов (т.е. экстремальных наблюдений) может вызвать смещение оценок, "сдвинуть" линию регрессии и тем самым, вызывать смещение регрессионных коэффициентов. Часто исключение лишь одного экстремального наблюдения приводит к изменению результата.

Для того чтобы выполнить анализ остатков, в нижнем левом углу нажмите на свернутую панель Множественная регрессия (Multiple Regression). Появится размещенная выше таблица Просмотра описатель-

ных статистик (Review Descriptive Statistics). Чтобы подняться в меню на более высокий уровень, нажмите кнопку Отмена (Cancel).

Появится следующее меню. Выберите закладку Остатки/ предсказан-

ные/ наблюдаемые значения (Residuals/assumptions/ prediction).

Нажмите кнопку Анализ остатков (Perform residual analysis). Появит-

ся меню:

37

Выберите закладку Остатки (Residuals) и нажмите кнопку Гистограмма остатков (Histogram of residuals). В множественной регрессии предполагается, что остатки распределены нормально. Оцените, насколько это допущение выполняется в Вашем случае. Появившийся график скопируйте в отчет.

Вернитесь к меню.

Выберите закладку Диаграмма рассеяния (Scatterplots).

Для построения графика зависимости наблюдаемых значений урожая от предсказанных значений урожая используйте клавишу Предсказанные и наблюдаемые (Predicted vs. Observed). Скопируйте этот график в отчет. Чем лучше модель оценивает данные урожайности, тем ближе точки располагаются к прямой.

38

Для построения графика зависимости остатков от предсказанных значений используйте клавишу Предсказанные и остатки (Predicted vs. residuals). Скопируйте график в отчет. Чем меньше разброс значений вдоль линии, тем, очевидно, лучше прогноз. В случае хорошей аппроксимации остатки не должны зависеть от наблюдаемых и предсказанных величин.

39

Для построения нормального вероятностного графика остатков выберите закладку Вероятностные графики (Probability plots) и нажмите клавишу Нормальный (Normal plot of residuals). Скопируйте график в отчет. В случае хорошей аппроксимации остатки должны иметь нормальное распределение.

ПОШАГОВАЯ РЕГРЕССИЯ. Существует две схемы пошаговой регрессии: «с исключением» признаков и «с включением».

Первый алгоритм состоит в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов из модели исключают тот признак, коэффициент при котором незначим и имеет наименьшее значение t . После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают признак с наименьшим значением t -критерия. Процесс исключения признаков останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При использовании этой схемы негативные последствия мультиколлинеарности могут сказаться.

При реализации второго алгоритма первым в уравнение включается признак, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот признак, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. На каждом шаге получают новое значение множественного коэффициента корреляции (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного признака в объясненную дисперсию Y.

Нажмите в нижнем левом углу на свернутую панель Множественная регрессия (Multiple Regression). Чтобы вернуться назад, несколько раз нажимайте Отмена (Cancel) до тех пор, пока не появится следующее меню:

40