Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
статан4.docx
Скачиваний:
0
Добавлен:
28.12.2024
Размер:
302.46 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Санкт-Петербургский государственный

электротехнический университет

«ЛЭТИ» им. В.И. Ульянова (Ленина)

Кафедра Алгоритмической математики

отчет

по лабораторной работе № 4

по дисциплине «Статистический анализ»

Тема: Проверка статистических гипотез

Вариант: Воронеж

Номер бригады: 6

Студенты гр.

Преподаватель

Бурков Е.А.

Доля вклада исполнителей:

Ответственный за подготовку отчета:

Дата сдачи отчёта: 13.12.2023

Санкт-Петербург

2023

Цель работы: построение модели простой линейной регрессии на основе анализа входных данных.

Задание:

  1. Отобрать исходные данные за последние 10 лет в выбранном городе:

Х – месяц (с января по сентябрь, т. е. численно от 1 до 9);

Y – ср. мес. температура;

привести таблицу с этими данными.

  1. Используя исходные данные построить диаграмму разброса

(с эффектом дрожания и без) Х и Y.

3. Вычислить коэффициент корреляции между Х и Y, а затем оценить его значимость с помощью критерия Стьюдента и сделать содержательный вывод на основании полученных результатов.

4. На основе исходных данных вычислить регрессионные коэффициенты наклона и сдвига (привести уравнение регрессии), а затем выполнить их содержательную интерпретацию.

5. На основе исходных данных вычислить SST, SSR, SSE, среднеквадратическую ошибку оценки и коэффициент детерминации.

6. Построить 90%-доверительный интервал для коэффициента наклона и использовать его как критерий для проверки гипотезы о наличии линейной зависимости между Х и Y, сделав по итогу содержательный вывод.

7. Привести полученное уравнение регрессии и отобразить полученную линию регрессии на диаграмме разброса, а также сделать вывод об адекватности линейной модели реальным данным на основе результатов пп. 3, 5 и 6.

8. Построить график зависимости остатков линейной модели от времени и оценить, имеется ли на этом графике выраженная закономерность (интерпретировать наличие/отсутствие такой закономерности на графике), а также оценить выполнение условия однородности дисперсии остатков.

9. Оценить выполнение условия нормальности распределения остатков.

10. Использовать критерий Дарбина-Уотсона для проверки наличия автокорреляции Y.

11. На основе всех проведенных исследований сделать вывод об адекватности применения МНК для исследованных данных (указав выполнение основных условий проведения регр.анализа на основе МНК).

Выполнение работы:

  1. Был выбран город Воронеж. Ниже приведена таблица с исходными данными.

Таблица 1 - исходные данные

XТаблица 1 - исходные данные

  1. С помощью исходных данных были построены диаграммы разброса (с эффектом дрожания и без).

Рисунок 1 - диаграмма с эффектом дрожания

Рисунок 2 - диаграмма без эффекта дрожания

  1. Было произведено вычисление коэффициента корреляции между двумя переменными X и Y. Полученное значение коэффициента корреляции составило 0.8604653.

Далее была оценена значимость этой связи с помощью критерия Стьюдента. Результаты теста показали, что p-value < 2.2e-16, что говорит о том, что нулевая гипотеза об отсутствии корреляции между X и Y может быть отвергнута в пользу альтернативной гипотезы о наличии значимой корреляции между этими переменными.

Следовательно, можно сделать вывод о том, что месяц (номер месяца) и среднемесячная температура имеют связь, причем эта связь является значимой.

  1. Было выполнено вычисление регрессионных коэффициентов наклона и сдвига на основе исходных данных.

Получаем коэффициент сдвига: -6.790556;

коэффициент наклона: 3.451667;

уравнение регрессии: -6.790556 + 3.451667x = y.

Из полученных данных можем увидеть, что коэффициент наклона положительный, что говорит о том, что с увеличением номера месяца (от начала года) температура также увеличивается.

  1. Были определены значения:

SST = 9654.777;

SSR = 7148.402;

SSE = 2506.375.

Среднеквадратическая ошибка оценки равна 27.84861.

Коэффициент детерминации равен 0.7404005.

  1. Для проверки гипотезы о наличии линейной зависимости

между Х и Y был построен 90%-доверительный интервал для коэффициента наклона.

Доверительный интервал для коэффициента наклона составил (3.089482, 3.813851).

Обе границы доверительного интервала больше нуля, а также доверительный интервал не содержит ноль, что позволяет заключить, что между номером месяца (месяцем) и температурой в нём существует статистически значимая линейная зависимость.

Расположение точек вокруг линии регрессии подтверждает хорошее соответствие модели данным.

Коэффициент детерминации, приблизительно равный 0,74, свидетельствует о положительной линейной взаимосвязи между рассматриваемыми переменными.

Следовательно, лишь 26% изменчивости температуры в выборке объясняются факторами, которые не учтены в данной регрессионной модели.

  1. Полученное уравнение регрессии:

-6.790556 + 3.451667x = y

Диаграмма разброса (п. 2):

Рисунок 3 - диаграмма разброса

Исходя из п. 3, 5, 6 и 7, можно сделать вывод, что линейная модель адекватна, то есть соответствует реальным данным.

Предсказанные значения зависимой переменной (температуры) хорошо согласуются с результатами реальных наблюдений.

Наклон линии регрессии положителен, указывая на наличие положительной корреляции между месяцем и температурой.

  1. График зависимости остатков линейной модели от времени

Рисунок 4 - зависимость остатков линейной модели от времени

Остатки часто принимают как положительные, так и отрицательные значения, и не обнаруживается явной зависимости, ни линейной, ни квадратичной.

Ошибки регрессии не зависят от изменений в переменной X.

При визуализации распределения остатков на графике не выявлено существенных различий между ними, и не наблюдается глобального возрастания или убывания дисперсии остатков.

  1. Оценка выполнения условия нормальности распределения остатков.

Были проведены статистические тесты для оценки нормальности распределения остатков.

Результаты теста Шапиро-Уилка дали p-value = 0.00998, что не позволяет отклонить нулевую гипотезу о нормальности распределения остатков.

Визуализация распределения остатков с использованием квантиль-квантиль графика также подтверждает, что отклонение от нормальности не является значительным.

  1. Проверка наличия автокорреляции Y

Проведен анализ наличия автокорреляции в остатках модели с использованием критерия Дарбина-Уотсона.

Полученное p-value = 0 говорит об отсутствии автокорреляции в остатках. Таким образом, на основе данного теста можно заключить, что можно безопасно применять метод наименьших квадратов (МНК) для данной регрессионной модели.

  1. Адекватность применения МНК для исследованных данных

На основе проведенного всестороннего анализа можно сделать вывод об адекватности применения метода наименьших квадратов (МНК) для исследованных данных. Анализ выполненных условий регрессионного анализа на основе МНК подтверждает следующие ключевые моменты:

  1. Линейность: проведенные анализы показывают, что температура линейно зависит от месяца года.

  1. Нормальность распределения остатков: распределение остатков регрессии подчиняется нормальному закону.

  1. Гомоскедастичность: оценка дисперсии остатков показала отсутствие постоянства для значений независимых переменных, что свидетельствует о нарушении гомоскедастичности.

  1. Отсутствие автокорреляции: тест Дарбина-Уотсона подтвердил отсутствие автокорреляции в остатках модели.

  1. Значимая истинная корреляция: присутствие значимой положительной корреляции между месяцем и температурой (подтверждено коэффициентом детерминации) указывает на существенную связь между переменными.

В результате анализа было выявлено, что нарушение условий гомоскедастичности (пункт 3) и значимость истинной корреляции (пункт 5) не позволяют применить МНК для данного набора данных.

Соседние файлы в предмете Статистический анализ