Разведочный анализ данных.
Для проведения разведочного анализа данных были использованы как аналитические, так и графические методы с целью оценки схожести и различий между наборами данных.
Сначала была проведена агрегация данных для создания удобного формата, который бы соответствовал требованиям функций. Полученная таблица включает средние значения и стандартные отклонения для каждого из городов (Воронеж, Псков, Липецк).
Рисунок 1 - результаты функции aggregate
Средние значения и стандартные отклонения между Псковом и Воронежем (1), а также Липецком и Воронежем (2) различаются достаточно сильно, чтобы предположить, что в результате дисперсионного анализа нулевая гипотеза будет отклонена и разница между средними будет признана статистически значимой. Между Псковом и Липецком разница почти отсутствует, предполагаем, что в результате дисперсионного анализа получим, что различий между ними нет.
Рисунок 2 - диаграммы рассеивания
Независимость данных:
Для проверки независимости данных было отмечено, что выборки были извлечены из генеральной совокупности случайным образом и независимо друг от друга. Это подтверждается методом случайного выбора, который предполагает, что каждое извлечение не зависит от предыдущих или последующих, обеспечивая тем самым независимость данных.
Нормальность данных:
Для проверки нормальности распределения данных был использован тест Шапиро-Уилка для каждого из городов (Воронеж, Псков, Липецк). Результаты теста для всех трех городов (p > 0.05) позволяют заключить, что данные распределены нормально. Визуальная проверка нормальности с использованием гистограммы и Q-Q графика также подтверждает адекватность предположения о нормальности данных.
Рисунок 3 - графическая проверка на нормальность
Однородность дисперсии:
Для проверки однородности дисперсии был использован тест Левенэ с центром в выборочном среднем, так как распределения умеренно ассиметричны и минимальное и максимальное стандартные отклонения отличаются менее, чем в 2 раза.
По результатам теста получаем p = 0.5174, что больше чем 0.05, не можем отвергнуть нулевую гипотезу о том, что дисперсии однородны.
Рисунок 4 - проверка на однородность дисперсии
В соответствии с результатами предыдущего пункта, где была проведена проверка нормальности распределения и однородности дисперсии данных для различных городов, мы пришли к выводу, что распределения близки к нормальному. Таким образом, мы можем использовать параметрические критерии для дальнейшего анализа.
Для проведения дисперсионного анализа был выбран однофакторный тест, поскольку мы изучаем влияние одного фактора - города, в котором проводились измерения, на среднегодовую температуру.
Можно применить критерий Уэлча, так как данные независимы, нормально распределены и дисперсии однородны, а средние мы предполагаем не равными (п.2)
Результаты теста (p=1.048e-07) говорят о том, что нулевая гипотеза о равенстве средних температур для разных городов отвергается. Таким образом, мы можем сделать вывод о том, что средние температуры в разных городах статистически значимо различны.
В результате дисперсионного анализа мы отвергли нулевую гипотезу о равенстве средних значений в разных городах. Согласно этому, можно установить влияние города, а точнее его географического положения, на среднегодовую температуру. Исходя из полученных результатов, в местах, удалённых друг от друга географически, среднегодовая температура может отличаться. Это связано, например, с возникновением локальных циклонов и антициклонов, спецификой рельефа и так далее.
Был использован критерий Тьюки-Крамера для выполнения множественных сравнений между средними значениями температуры в городах, так как дисперсии однородны.
В первом случае доверительный интервал включает 0, что указывает на отсутствие различий между соответствующими группами (на это же указывает p > 0.05).
В свою очередь, при сравнении пар Воронеж-Липецк и Воронеж-Псков можно заметить, что 0 в доверительный интервал не попадает, а значение p сильно меньше 0.05, то есть эти пары существенно отличаются.
