
- •1 Выполнение корреляционно-регрессионного анализа вручную
- •1.1 Исходные данные
- •1.2 Построение и визуальный анализ поля корреляции
- •1.3 Расчет параметров линейной регрессии
- •1.3.1 Парная линейная регрессия
- •1.3.2 Парная логарифмическая регрессия
- •1.3.3 Парная степенная регрессия
- •1.4 Определение коэффициента корреляции (корреляционного отношения) и средней относительной ошибки аппроксимации
- •1.5 Построение графиков линий парной регрессии
- •1.6 Проверка достаточности (репрезентативности выборки)
- •1.7 Оценка значимости коэффициента корреляции (корреляционного отношения)
- •1.8 Оценка значимости коэффициентов регрессии
- •1.9 Оценка значимости уравнения регрессии
- •2 Выполнение корреляционно-регрессионного анализа с помощью компьютера
- •3 Выполнение сравнительного анализа данных, полученныз вручную и с помощью компьютера
1.7 Оценка значимости коэффициента корреляции (корреляционного отношения)
Ошибку выборочного коэффициента корреляции (корреляционного отношения) рассчитываем по формуле:
При небольшом числе испытаний для ответа на вопрос, можно ли судить о наличии корреляции по коэффициенту корреляции ( ) и корреляционному отношению ( ), полученным из выборочной совокупности, используется t-критерий Стъюдента. При этом определяется его расчетное значение по формуле:
Теоретическое (табличное) значение t-критерия Стъюдента:
Отсюда
можно сделать вывод о том, что корреляционное
отношение
значимо (надежно) не только в выборочной,
но и в генеральной совокупности.
1.8 Оценка значимости коэффициентов регрессии
Расчетное значение t-критерия Стъюдента определяем по формуле:
,
(7)
где
- число коэффициентов регрессии;
-
коэффициент при члене уравнения регрессии
(
,
и т.д.).
При этом:
Табличное значение t-критерия Стъюдента:
Следовательно, коэффициенты регрессии значимы не только в выборочной, но и в генеральной совокупности.
1.9 Оценка значимости уравнения регрессии
Для оценки значимости (надежности) уравнения регрессии применяют F-критерий Фишера, расчетное значение которого сравнивают с табличным.
Расчетное значение F-критерия Фишера определяем по формуле:
,
(8)
где
- дисперсия фактических значений
зависимой переменной,
;
-
остаточная дисперсия уравнения:
Тогда:
Табличное значение F-критерия Фишера определяется по распределению Снедекора:
где
,
- число степеней свободы,
Таким
образом,
,
следовательно, уравнение регрессии
является значимым, т.е. его предсказательная
сила больше, чем у среднего значения
.
Общий вывод: поскольку выборочная совокупность данных репрезентативна, корреляционное отношение ( ), коэффициенты регрессии и уравнение регрессии значимы, то полученное уравнение парной линейной регрессии ( ) можно использовать в качестве математической модели для практических расчетов.
2 Выполнение корреляционно-регрессионного анализа с помощью компьютера
Корреляционно-регрессионный анализ можно осуществить, использую табличный процессор Excel или программный комплекс Statistica. Поскольку Excel находит более широкое применение, то будем работать именно с ним. Следует уточнить, что в Excel линии регрессии называются линиями тренда.
Анализ осуществляем в следующей последовательности:
1) создаем новую книгу Excel. Вводим заголовок зависимости и исходные данные, приведенные в таблице 1;
2) создаем (с помощью Мастера диаграмм) поле корреляции – диаграмму рассеяния или разброса;
3) на поле корреляции наносим возможные линии регрессии (линии тренда). Для этого, открыв контекстное меню на поле корреляции, выбираем команду «Добавить линию тренда». При этом в диалоговом окне на вкладке «Тип» будут показаны возможные типы линий тренда. Поочередно наносим их на поле корреляции, в т.ч.: линейную (рисунок 4), логарифмическую (рисунок 5), полиноминальную (рисунок 6), степенную (рисунок 7), экспоненциальную (рисунок 8).
При
этом каждый раз на вкладке «Параметры»
задаем размещение уравнения и значение
достоверности аппроксимации (
).
Полученные результаты сводим
в таблицу 7.
Рисунок 4 – Линейная линия тренда
Рисунок 5 – Логарифмическая линия тренда
Рисунок 6 – Полиноминальная линия тренда
Рисунок 7 – Степенная линия тренда
Рисунок 8 – Экспоненциальная линия тренда
Таблица 7 - Сравнение полученных уравнений регрессии
Уравнение |
|
Вывод |
y = 1,616x - 2,073 |
0,997 |
Да |
y = 19,52ln(x) - 29,77 |
0,962 |
Нет |
y = 0,006x2 + 1,449x - 1,075 |
0,997 |
Да |
y = 1,086x1,111 |
0,993 |
Нет |
y = 5,445e0,089x |
0,972 |
Нет |
4)
Находим линию тренда, имеющую наибольшее
значение достоверности аппроксимации
– линейную (
),
которую и выбираем в качестве линии
парной регрессии для исследуемой
зависимости.