Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
теоретический материал .doc
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
1.69 Mб
Скачать

2.13. Какие задачи решают корреляционный и регрессионный анализ?

Корреляционный и регрессионный анализ позволяет исследовать взаимосвязи двух и более числовых рядов и моделировать числовые ряды, элементы которых получены в определенные моменты времени (временные ряды).

Пусть имеется несколько числовых рядов:

Y = {y1, y2, …, yn}

X1 = {x1,1, x1,2, …, x1,n}

X2 = {x2,1, x2,2, …, x2,n}

. . .

Xm = {xm,1, xm,2, …, xm,n}

Качественный анализ показал, что эти ряды, возможно, связаны причинно-следственной нефункциональной связью, и ряд Y зависит от остальных. Величины X1,X2,…,Xm называются факторами..

Корреляционный анализ позволяет оценить силу связи числовых рядов друг с другом, а регрессионный анализ позволяет построить уравнение регрессии Y = F(X1,X2,…,Xm), являющееся статистической моделью некоторого процесса. Наиболее распространена линейная модель, описывающаяся уравнением:

Y = amXm + am-1Xm-1 + … +a1X1 + a0

При проведении регрессионного анализа следует отобрать значимые факторы, имеющие существенное значение, и отбросить незначимые.

Табличный процессор Excel имеет соответствующий инструментарий для выполнения корреляционного и регрессионного анализа. При подготовке данных числовые ряды следует располагать в вертикальных рядах, т.к. ряд встроенных функций и приложений ориентирован на такое расположение данных.

Оценка силы связи двух числовых рядов для линейной модели выполняется по линейному коэффициенту парной корреляции. Он вычисляется с помощью встроенной функции КОРРЕЛ, аргументами которой являются координаты областей, содержащих значения числового ряда. Существуют критические значения коэффициента корреляции, зависящие от доверительной вероятности и числа элементов числовых рядов, которые позволяют сделать вывод о значимости или незначимости коэффициента корреляции и, следовательно, о существовании или отсутствии линейной связи между рядами.

Для построения уравнения регрессии можно применить встроенные функции ЛИНЕЙН и ОТРЕЗОК. Первая из них позволяет определить коэффициенты a1, a2, …, am, а вторая – коэффициент a0 для случая парной регрессии. Аргументами функций являются:

  • известные_значения_y  – это множество значений элементов ряда y;

  • известные_значения_x  – это множество значений элементов рядов x;

  • константа – признак обязательного равенства нулю коэффициента a0 (применяется только для функции ЛИНЕЙН);

  • статистика – признак необходимости построения статистического описания линейного уравнения регрессии вплоть до проверки нулевой гипотезы для уравнения в целом и его коэффициентов (только для функции ЛИНЕЙН).

Кроме указанных встроенных функций можно рекомендовать встроенный пакет анализа данных, поставляемый как отдельная надстройка процессора Excel. Пакет анализа имеет ряд приложений, позволяющих выполнить дисперсионный и корреляционный анализ, а также построить уравнение регрессии и выполнить его исследование на значимость самого уравнения и его коэффициентов.

Временной ряд имеет три компоненты: тенденцию (тренд), периодическую составляющую и случайную составляющую. Для моделирования временных рядов применяются аддитивная и мультипликативная модели. Первая модель предусматривает вычисление значения элемента временного ряда как сумму компонент, а вторая – как произведение.

Перед началом анализа временного ряда необходимо выполнить сглаживание временного ряда с целью устранения случайных воздействий. Процессор Excel предоставляет для этой цели в пакете анализа данных две процедуры: сглаживание методом скользящей средней и экспоненциальное сглаживание. Далее во временном ряду выделяются значения тренда и периодической составляющей. После выделения значений тренда выполняется моделирование тренда аналитической функцией времени. Для этой цели в пакете анализа имеется приложение "Тенденция".

Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, то есть, большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связаны (нулевая корреляция). Коэффициент корреляции, как ковариационный анализ, характеризует область, в которой два измерения "изменяются вместе". В отличие от ковариационного анализа коэффициент масштабируется таким образом, что его значение не зависит от единиц, в которых выражены переменные двух измерений (например, если вес и высота являются двумя измерениями, значение коэффициента корреляции не изменится после перевода веса из фунтов в килограммы). Любое значение коэффициента корреляции должно находится в диапазоне от -1 до +1 включительно.

Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных. Например, на спортивные качества атлета влияют несколько факторов, включая возраст, рост и вес. Регрессия пропорционально распределяет меру качества по этим трем факторам на основе его спортивных результатов. Результаты регрессии впоследствии могут быть использованы для предсказания качеств нового, непроверенного атлета.