Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
методичка моделирование.doc
Скачиваний:
4
Добавлен:
24.11.2019
Размер:
874.5 Кб
Скачать

Задание для самостоятельной работы: Ваша задача состоит в том, чтобы:

  • построить доверительные интервалы для коэффициентов корреляции 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 при разных объемах выборки (25 испытуемых, 100 испытуемых, 500 испытуемых) и записать данные в тетради.

  • Сделать выводы о том, как изменяется точность оценивания коэффициента корреляции в зависимости от различных факторов и выводы записать в тетради.

Лабораторная работа №5

Прогнозная (регрессионная) модель значений показателя

С помощью корреляционного анализа мы можем установить наличие существенной связи между некоторыми переменными выборочных данных по изучаемому объекту. Однако, если необходимо использовать этот факт для предсказания одной переменной на основании значений другой, необходимо использовать регрессионный анализ. Одним из достоинств регрессионного анализа является возможность построения модели, в которой зависимая переменная (отклик) определяется значениями нескольких независимых переменных (предикторов). В данной работе мы построим самую простую модель парной линейной регрессии. Это уравнение, связывающее одну зависимую переменную и одну независимую.

Например, если в предыдущей лабораторной работе вами была установлена устойчивая значимая связь между свинцом и цинком. Теперь мы имеем возможность построить предсказательную модель изменения содержаний цинка по известным содержаниям свинца. Тем самым я могу оценить, не проводя анализа проб на цинк, его содержания в пределах изучаемого объекта.

Перед проведением регрессионного анализа имеет смысл изучить взаимосвязи между всеми интересующими нас переменными с помощью корреляционного анализа и диаграмм рассеивания. Корреляционный анализ подскажет нам наиболее перспективные предикторы, а диаграмма рассеивания поможет определить характер зависимости и наличие необычных наблюдений ("выбросов"). Дело в том, что регрессионный анализ (как и корреляционный) очень чувствителен к наличию выбросов, которые могут исказить модель взаимосвязи переменных настолько сильно, что она станет просто бесполезной.

Множественная регрессия – это уравнение многомерной связи одного из показателей (зависимая переменная) с остальными, имеющими с ним значимые корреляционные связи. Если связь между переменными нелинейная, то в этом случае также необходимо привести в соответствие регрессионную модель, используя нелинейную регрессию.

5.1 Парная линейная регрессия

Для проведения линейного регресионного анализа выберите в главном меню команду Statistics | Regression | Linear. В появившемся диалоговом окне необходимо определить два элемента управления — поле зависимой переменной (Dependent) и список независимых переменных (Independents). Вначале перенесите по одной переменной, имеющих наиболее тесную связь, в том и другом поле. Будет получено уравнение парной линейной регрессии и оценка его достоверности. Закажем сохранение двух новых переменных — предсказанных значений зависимой переменной и разницы между предсказанными и наблюдаемыми значениями, так называемых, "остатков". Для этого надо щелкнуть кнопку Save и в дополнительном окне установите флажок Ustandardized в группе Predicted Values и флажок Ustandardized в группе Residuals. Щелкните кнопку Continue, а затем — кнопку ОК, и в окне результатов появятся итоги регрессионного анализа:

Multiple R .67835

R Square .46016

Adjusted R Square .43017

Standard Error 1.67724

Analysis of Variance

DF Sum of Squares Mean Square

Regression 1 43.16346 43.16346

Residual 18 50.63654 2.81314

F = 15.34351 Signif F = .0010

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

Independent .644231 .164467 .678355 3.917 .0010

(Constant) 1.678846 .903821 1.857 .0797

Первые два блока распечатки описывают качество соответствия модели данным. Коэффициент Multiple R называется множественным коэффициентом корреляции и является корреляцией между наблюдаемыми и предсказанными значениями зависимой переменной. Чем больше величина множественного коэффициента, тем точнее удается предсказывать зависимую переменную на основании независимой. Если возвести множественный коэффициент корреляции в квадрат, то полученная величина, называемая "коэффициентом детерминации" и на распечатке обозначенная "R Square", будет характеризовать долю дисперсии зависимой переменной, объясненной при помощи независимых. Как видим в данном примере, нам удалось объяснить около 46% вариации. Вполне возможно, что оставшиеся 54% свободны от влияния независимой переменной и остатки можно объяснить связями с другими геолого-экологическими показателями.

Последней в блоке идет величина Standard Error — стандартная ошибка предсказания. Для ее объяснения представим себе, что нам необходимо предсказать значения зависимой переменной, когда независимая принимает какое-то конкретное значение — например, 2. Необходимо посмотреть на диаграмму рассеивания и отметить, сколько значений зависимой переменной в выборке соответствует значению независимой =2. Иными словами, для каждого значения независимой переменной существует некоторое распределение значений зависимой переменной. Чем больше отстоят точки от линии регрессии, тем хуже модель описывает данные, чем ближе к линии регрессии — тем точнее. Стандартное отклонение и является мерой этого разброса. В оценке точности регрессионной модели стандартная ошибка — это стандартное отклонение распределения остатков. По величине стандартной ошибки мы можем судить о том, насколько хорошо модель соответствует данным.

Второй блок распечатки, озаглавленный Analysis of Variance ("дисперсионный анализ") предназначен для проверки гипотезы о том, что в генеральной совокупности множественный коэффициент корреляции равен 0. В таблице дисперсионного анализа приведены данные о том, сколько дисперсии зависимой переменной объясняется регрессионной моделью, а сколько приходится на остаток. Отношение этих двух величин обозначается символом «F». Чем больше дисперсии зависимой переменной удается объяснить при помощи модели, тем больше величина F. В нашем случае ее значение равно 15,34351. Если бы наша нулевая гипотеза была верна, такое соотношение можно было бы случайно встретить очень редко — с вероятностью 0.0010 (Signif F = .0010). Таким образом, основываясь на значимости статистики F, мы приходим к выводу о том, что нулевую гипотезу следует отвергнуть. Следовательно, в генеральной совокупности действительно существует связь между зависимой и независимой переменными.

Наконец, третий блок распечатки представляет собой собственно регрессионную модель (уравнение). В столбце B приведены регрессионные коэффициенты при независимой переменной и константa.

Используя эти коэффициенты в данном примере, модель связи Y и X можно записать следующим образом: Y=0.64*X+1.68.

Коэффициент при X (B) означает: если X изменяется на единицу, Y будет изменяться на 0.64. Постоянная величина 1.68 характеризует несоответствие единиц измерения переменных. Если обе переменные перевести в одинаковую шкалу (Z баллы), то константа будет равна 0. Столбец озаглавленный Beta содержит регрессионные коэффициенты для случая, когда и зависимая, и независимая переменные стандартизированы (т.е. переведены в Z-баллы). Как видите, бета-коэффициент приведен в этом столбце только для X и отсутствует для константы.

Два столбца — T и Sig T предназначены для проверки гипотез о равенстве 0 регрессионных коэффициентов в генеральной совокупности. Критерий T подсчитывается как величина регрессионного коэффициента B, деленная на его стандартную ошибку, которая приведена в столбце SE B. Значимость критерия T приводится в столбце Sig T: если значимость меньше принятого уровня значимости (например, 0.05) мы отвергаем нулевую гипотезу. Значит мы утверждаем, что соответствующий регрессионный коэффициент не равен нулю в генеральной совокупности.

В приведенном примере это можно утверждать в отношении коэффициента при Х, но не в отношении константы.

Теперь необходимо перейти к интерпретации полученной модели. Какими эколого-геологическими особенностями объекта или процессами можно объяснить наличие связи между переменными? Характерна ли она для многих подобных объектов или определяется исключительно данными условиями исследования? Какую практическую ценность имеет полученная модель? На все эти вопросы необходимо ответить при оформлении отчета по лабораторной работе.

Задание для самостоятельной работы:

  1. Проанализируйте собственный файл данных, постройте регрессионную модель и дайте ей эколого-геологическую интерпретацию.

  2. Проанализируйте остатки модели. Остаток представляет собой разницу между наблюдаемым значением зависимой переменной и предсказанным на основании регрессионного уравнения. Большие остатки указывают на то, что данное наблюдение по каким-либо причинам не соответствует общей закономерности (отрицательная — переоценка, положительная — переоценка).

  3. Попробуйте использовать построенную модель для предсказания — подставьте различные значения в уравнение и посмотрите, как оно себя ведет.