
- •Проверка наличия связи между переменными и расчет коэффициентов связи для переменных, измеряемых в различных шкалах
- •Теоретические сведения
- •1. Параметрическая корреляция (оценка наличия связи для переменных, измеряемых в шкале интервалов).
- •Исходные данные
- •Ковар - возвращает ковариацию, то есть среднее произведений отклонений для каждой пары точек данных.
- •2. Меры связи, для данных, измеряемых в различных шкалах
- •Порядок выполнения работы
1. Параметрическая корреляция (оценка наличия связи для переменных, измеряемых в шкале интервалов).
Например, рассмотрим,
как связаны между собой такие величины,
как, прибыль предприятия
и инвестиции, затрачиваемые в обучение
персонала
.
Исходные данные для анализа приведены
в таблице 3.1. На рис. 3.1 изображена
диаграмма рассеивания данных величин.
Таблица 3.1.
Исходные данные
Каким образом проявляется
связь между
и
?
Положение объекта относительно остальных
в выборке по
и
,
определяемое средними двух распределений,
проявляется в величинах и знаках
отклонений
и
соответственно. Если объект имеет
высокий уровень по обоим переменным,
то произведение
*
будет большим и положительным. Аналогично,
если он относительно низок как по
,
так и по
,
то произведение
*
также будет большим и положительным
(перемножаются два отрицательных числа).
В первом случае имеет место прямая
связь, во втором – обратная.
Тогда при прямой связи
и относительно велика, а при обратной
связи
и также большая.
Если связи между собой
у
и
не наблюдается, то величина
и относительно невелика.
Таким образом, можно перейти к понятию меры ковариации случайных величин и , которая определяется как:
.
В среде MS Excel для расчета данного параметра существует следующая функция:
Ковар - возвращает ковариацию, то есть среднее произведений отклонений для каждой пары точек данных.
Синтаксис
КОВАР(массив1; массив2)
Массив1 - это первый массив или интервал данных.
Массив2 - это второй массив или интервал данных.
Вычитание значений
и
из соответствующих средних сделало
независимым от средних. Чтобы избавить
меру связи от влияния стандартных
отклонений двух групп значений, надо
разделить
на дисперсии случайных величин
и
.
В результате получим коэффициент
корреляции
Пирсона для несгруппированных
данных:
или
Для оценки данного параметра может быть использована следующая функция:
КОРРЕЛ - возвращает коэффициент корреляции меду интервалами ячеек массив1 и массив2.
Синтаксис
КОРРЕЛ(массив1;массив2)
Массив1 - это ячейка интервала значений.
Массив2 - это второй интервал ячеек со значениями.
Область изменения
.
Хотя и затруднительно доказать, но никогда не может принять значение ни меньше –1, ни больше +1.
Интерпретация значений приведена в таблице 3.2.
Следует отметить, что коэффициент корреляции Пирсона может быть применен только для взаимно независимых наблюдений, и если наблюдения имею нормальный закон распределения. Поэтому, при расчете данного коэффициента следует предварительно проверить соответствие изучаемой совокупности данных нормальному закону. Проверка гипотезы о соответствие нормальному распределению будет рассмотрена в следующей лабораторной работе.
Таблица 3.2
Интерпретация коэффициента корреляции Пирсона
Величина |
Описание линейной связи |
Диаграмма рассеивания |
+1.00 |
Сильная прямая связь (функциональная зависимость) |
|
Около +0.50 |
Слабая прямая связь |
|
0.00 |
Нет связи (т.е. ковариация X и Y равна 0) |
|
Около –0.50 |
Слабая обратная связь |
|
-1.00 |
Сильная обратная связь (функциональная зависимость) |
|
Для данных, представленных
в таблице 1, был рассчитан с помощью
функции КОРРЕЛ коэффициент корреляции,
который оказался равным
.
Можно сделать вывод, что наблюдается
сильная прямая связь, т.е. чем больше
прибыль предприятия, тем больше оно
инвестирует в обучение персонала. Для
решения обратной задачи, т.е. как зависит
прибыль предприятия от величины
инвестиций в обучение персонала,
необходимо рассчитать коэффициент
корреляции
.
Параметрический коэффициент корреляции также может быть применен и для оценки связей больше, чем между двумя переменными. Например, необходимо оценить зависимость чистой прибыли предприятия от двух параметров: инвестиций в обучения персонала и инвестиций в развитие информационных технологий. Исходные данные для данного примера приведены на рис. 3.2.
Рис. 3.2 - Исходные данные по прибыли предприятия и инвестируемых средств в обучение персонала и развитие информационных технологий
Поскольку в данном
случае при анализе используется более
двух массивов данных, т.е. существует
также и параметр
,
то для оценки тесноты связи признака
с признаками
и
используется выборочный
совокупный коэффициент корреляции:
,
где
- коэффициенты парной корреляции между
переменными
и
,
и
,
и
соответственно. Для расчета данных
коэффициентов можно воспользоваться
пакетом Анализ
данных, в меню
Сервис.
Окно выбора метода обработки данных
представлено на рис. 3.3. В этом окне
выбирают Корреляция
и затем появится окно задания исходных
параметров для расчета коэффициентов
корреляции (рис. 3.4).
Рис. 3.3 – Окно выбора метода обработки данных
Рис. 3.4 – Окно задания исходных параметров корреляционного анализа
Входной интервал – необходимо отметить таблицу, в которой размещены исходные данные (левая верхняя и правая нижняя ячейки). В данном случае, диапазон входных данных размещен в ячейках $B$1:$D$13 (см. рис. 3.2).
Группирование выполняется по столбцам, поскольку данные расположены в столбцах B,C и D.
Флажок Метки в первой строке активируется тогда, когда необходимо заголовками результирующей таблицы сделать заголовки таблицы исходных данных. Если данный флажок не устанавливать, то и Входной интервал ячеек должен быть другим - $B$2:$D$13, т.е. должен быть указан диапазон только с числовыми данными.
Для получения результата на том же листе рабочей книге был введен диапазон Выходного интервала – указана верхняя левая ячейка $F$13.
Параметры Новый рабочий лист или Новая рабочая книга выбираются в том случае, если необходимо разместить результаты на другом листе или в другой рабочей книге соответственно.
После ввода параметров и нажатия кнопки ОК рассчитывается матрица коэффициентов корреляции, которая показана на рис. 3.5.
Рис. 3.5 – Результаты расчета коэффициентов корреляции
Анализируя результаты,
можно сделать выводы, что прибыль
предприятия
в основном зависит от инвестиций в
обучение персонала
(
),
а не от размера инвестиций в развитие
информационных технологий
(
).
При этом, слабая корреляционная связь
наблюдается и между параметрами
и
(
).
Аналогичным образом можно оценить и ковариацию между параметрами.