Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика / Корреляция

.doc
Скачиваний:
45
Добавлен:
19.02.2016
Размер:
504.32 Кб
Скачать

Вычисление матрицы парных коэффициентов

корреляции

Для расчета матрицы парных коэффициентов корреляции следует вызвать меню Корреляционные матрицы модуля Основные статистики.

Рис. 1 Панель модуля основные статистики

Основные этапы проведения корреляционного анализа в системе SТАТІSТІСА рассмотрим на данных примера (см. рис. 2). Исходные данные представляют собой результаты наблюдений за деятельностью 23 предприятий одной из отрас-лей промышленности.

Рис.2 Исходные данные

Графы таблицы содержат следующие показатели:

РЕНТАБЕЛ — рентабельность, %;

ДОЛЯ РАБ — удельный вес рабочих в составе ППП, ед.;

ФОНДООТД — фондоотдача, ед.;

ОСНФОНДЫ — среднегодовая стоимость основных производственных фондов, млн руб.;

НЕПРРАСХ — непроизводственные расходы, тыс. руб. Требуется исследовать зависимость рентабельности от дрУ'

гих показателей.

Предположим, что рассматриваемые признаки в генераль-ной совокупности подчиняются нормальному закону распределения, а данные наблюдений представляют собой выборку из совокупности.

Вычислим парные коэффициенты корреляции между всеми переменными. После выбора строки Корреляционные матрицы на экране появится диалоговое окно Корреляции Пирсона. Название обусловлено тем, что впервые этот коэффициент был Пирсоном, Эджвортом и Велдоном.

Выберем переменные для анализа. Для этого в диалоговом окне имеются две кнопки: Квадр. матрица (один список) и Прямоуг. матрица (два списка).

Рис. 3 Диалоговое окно корреляционного анализа

Первая кнопка предназначена для вычисления матрицы обыч. ного симметричного вида с парными коэффициентами корреля-ции всех сочетаний переменных. Если при анализе используют-ся все показатели, то в диалоговом окне выбора переменных можно нажать кнопку Выбрать все. (Если переменные идут не подряд, их можно выбрать щелчком мыши с одновременно нажатой клавишей Ctrl)

Рис. 4

Если нажать кнопку Подроб. диалогового окна, то для каж-дой переменной будут отображаться длинные имена. Щелкнув эту кнопку еще раз (она примет название Кратко), получим короткие имена.

Кнопка Информация открывает окно для выбранной пере-менной, в котором можно просмотреть ее характеристики: длинное имя, формат отображения, отсортированный список значе-ний, описательные статистики (количество значений, среднее, стандартное отклонение).

После выбора переменных нажмем ОК или кнопку Корреляции диалогового окна Корреляции Пирсона. На экране появится рассчитанная корреляционная матрица.

Значимые коэффициенты корреляции на экране выделяются красным цветом.

В нашем примере показатель рентабельности оказался наиболее связан с показателями фондоотдача (связь прямая) и производственные расходы (обратная связь, предполагающая реньшение V с увеличением X). Но насколько тесно взаимоязаны признаки? Тесной считается связь при значениях коэфциента по модулю больше чем 0.7 и слабой — меньше 0.3. таким образом, при дальнейшем построении уравнения регрессии следует ограничиться показателями «Фондоотдача» и «Непроизводственные расходы» как наиболее информативными.

Однако в нашем примере наблюдается явление мультиколшрности, когда существует связь между самими независимыми переменными (парный коэффициент корреляции по модулю больше чем 0.8).

Опция прямоугольная матрица (два списка переменных) открывает диалоговое окно выбора двух списков переменных. Поместим как на рисунке

Рис. 6

В результате получаем прямоугольную корреляционную матрицу, содержащую лишь коэффициенты корреляции с зависимой переменной.

Если установлена опция Корр. Матрицу (выдел. значимые), то после нажатия кнопки Корреляция будет построена матрица с коэф., выделенными на уровне значимости р.

Если выбрана опция Подробная таблица результатов, то, на-жав кнопку Корреляции, получим таблицу, которая содержит не только коэффициенты корреляции, но также средние, стан-дартные отклонения, коэффициенты уравнения регрессии, сво-бодный член в уравнении регрессии и другие статистики

Когда переменные имеют небольшую относительную вариацию (отношение стандартного отклонения к среднему меньше чем 0.0000000000001), требуется более высокая степень оценки. Ее можно задать, пометив галочкой опцию Вычисления с повы-шенной точностью диалогового окна Корреляции Пирсона.

Режим работы с пропущенными данными определяется оп-цией Построчное удаление ПД. Если ее выбрать, то SТАТІSТІСА проигнорирует все наблюдения, имеющие пропуски. В против-ном случае производится их попарное удаление.

Помеченный галочкой режим Отображать длинные имена переменных приведет к получению таблицы с длинными имена-ми переменных.

Графическое изображение корреляционных зависимостей

Диалоговое окно Корреляции Пирсона содержит ряд кнопок для получения графического изображения корреляционных зависимостей.

Опция 2М рассеяния строит последовательность диаграмм Рассеяния для каждой выбранной переменной. Окно для их выбора идентично рисунку 6. Слева следует указать висимые переменные, справа независимую — РЕНТАБЕЛ. Нажав ОК, получим график, на котором будет изображена одогнанная регрессионная прямая и доверительные границы рогноза.

Линейный коэффициент корреляции дает наиболее объективную оценку тесноты связи, если расположение точек в системе координат напоминает прямую линию или вытянутый эллипс, если же точки расположены в виде кривой, то коэффициент орреляции дает заниженную оценку.

На основе графика мы можем еще раз подтвердить взаимосвязь между показателями рентабельности и фондоотдачи, как данные наблюдений расположились в виде наклонного эллипса. Надо сказать, что связь считается тем теснее, чем бли-же точки к главной оси эллипса.

В нашем примере изменение показателя фондоотдачи на единицу приведет к изменению рентабельности на 5.7376%.

Посмотрим влияние показателя непроизводственных расходов на значение рентабельности. Для этого построим аналогичный график

Анализируемые данные уже меньше напоминают по своей форме эллипс, да и коэффициент корреляции несколько ниже. Найденное значение коэффициента регрессии показывает, что при увеличении непроизводственных расходов на 1 тысячу рублей рентабельность уменьшается на 0.7017%.

Следует заметить, что построение множественной регрессии (рассмотренное в последующих главах), когда уравнение со-держит одновременно оба признака, приводит к другим значе-ниям коэффициентов регрессии, что объясняется взаимодействи-ем объясняющих переменных между собой.

При использовании кнопки С именами точки на диаграмме рассеяния приобретут соответствующие им номера или имена, если они предварительно заданы.

Следующая опция с указанием графика Матричный строит атрицу диаграмм рассеяния для выбранных переменных.

ждый графический элемент этой матрицы содержит корреля-яонные поля, образуемые соответствующими переменными с

поженной на них линией регрессии.

При анализе матрицы диаграмм рассеяния следует обратить внимание на те графики, линии регрессии которых имеют суще-ственный наклон к оси X, что позволяет предположить суще-ствование взаимозависимости между соответствующими при-знаками.

Опция ЗМ рассеяния строит трехмерное корреляционное поле для выбранных переменных. Если использована кнопка С именами, точки на диаграмме рассеяния будут помечены номерами или именами соответствующих наблюдений, если они их имеют.

Графическая опция Поверхность строит ЗМ диаграмму рассеяния для выбранной тройки переменных вместе с подогнанной поверхностью второго порядка.

Опция Категор. диаграммы рассеяния в свою очередь строит каскад корреляционных полей для выбранных показателей.

После нажатия соответствующей кнопки программа попросит пользователя составить два их набора из отобранных ранее с помощью кнопки Переменные. Затем на экране появится новое

окно запроса для задания группирующей переменной, на основе которой будут классифицированы все имеющиеся наблюдения.

Результатом является построение корреляционных полей в резе групп наблюдений для каждой пары переменных, отне-яных к разным спискам

3.4. Расчет частных и множественных коэффициентов корреляции

Для расчета частных и множественных коэффициентов кор. реляции вызовем модуль Множественная регрессия, используя кнопку переключателя модулей. На экране появится следующее диалоговое окно:

Нажав кнопку Переменные, выберем переменные для анализа: слева зависимую — рентабельность, а справа независимые — фондоотдача и непроизводственные расходы. Остальные переменные не будут участвовать в дальнейшем анализе — на основе проведения корреляционного анализа они признаны не-информативными для регрессионной модели.

В поле Файл ввода в качестве входных данных предлагаются обычные исходные данные, представляющие собой таблицу с переменными и наблюдениями, или корреляционная матрица. Корреляционную матрицу можно предварительно создать в самом модуле Множественная регрессия или вычислить с помо-щью опции Быстрые основные статистики.

При работе с файлом исходных данных можно задать ре-жим работы с пропусками:

  • Построчное удаление. При выборе этой опции в анализе используются только те наблюдения, которые не имеют пропущенных значений во всех выбранных переменных.

  • Замена средним. Пропущенные значения в каждой переменной заменяются средним, вычисленным по имеющимся комплектным наблюдениям.

  • Попарное удаление пропущенных данных. Если выбрана эта опция, то при вычислении парных корреляций удаля-ются наблюдения, имеющие пропущенные значения в соответствующих парах переменных.

В поле Тип регрессии пользователь может выбрать стандартную или фиксированную нелинейную регрессию. По умолчачанию выбирается стандартный анализ множественной регрессии, при котором вычисляется стандартная корреляционная матрица всех выбранных переменных.

Режим Фиксированная нелинейная регрессия позволяет осуществить различные преобразования независимых переменных. Опция Провести анализ по умолчанию использует установки, соответствующие определению стандартной регрессионной рдели, включающей свободный член. Если эта опция отменена, то при щелчке мышью по кнопке ОК стартовой панели эется диалоговое окно Определение модели, в котором вы эжете выбрать как тип регрессионного анализа (например, пошаговый, гребневый и др.), так и другие опции.

Установив флажок строки опции Показывать описательные описательные, корр. матрицы и щелкнув ОК, получим диалоговое окно со статистическими характеристиками данных.

В нем вы можете просмотреть подробные описательные статистики (в том числе количество наблюдений, по которым был вычислен коэффициент корреляции для каждой пары переменных). Чтобы продолжить анализ и открыть диалоговое окно Определители модели, нажмите ОК.

Если анализируемые показатели имеют чрезвычайно малую относительную дисперсию, вычисляемую как общая дисперсия, деленная на среднее, то следует установить флажок около опции Вычисления с повышенной точностью для получения более точных значений элементов корреляционной матрицы.

Установив все необходимые параметры в диалоговом окне Множественная регрессия, нажмем ОК и получим результаты требуемых вычислений.

По данным нашего примера множественный коэффициент корреляции получился равным 0.61357990 и соответственно коэффициент детерминации — 0.37648029. Таким образом, лишь 37,6% дисперсии показателя «рентабельность» объясняется из-менением показателей «фондоотдачи» и «непроизводственных расходов». Такое низкое значение свидетельствует о недостаточ-ном числе факторов, введенных в модель. Попробуем изменить количество независимых переменных, дополнив список пере-менной «Основные фонды» (введение в модель показателя «доля рабочих в ППП» приводит к мультиколлениарности, что явля-ется недопустимым). Коэффициент детерминации несколько повысился, но не настолько, чтобы существенно улучшить результаты — его значение составило около 41%. Очевидно, наша дача требует дополнительных исследований по выявлению факторов, влияющих на рентабельность.

Значимость множественного коэффициента корреляции про-ряется по таблице Ф-критерия Фишера. Гипотеза о его значимости отвергается, если значение вероятности отклонения превышает заданный уровень (чаще всего берут а=0.1, 0.05; 0.01 0.001). В нашем примере р=0.008882 < 0.05, что свидетельствует о значимости коэффициента.

Таблица результатов содержит следующие графы:

  • Коэффициент Бета (в) — стандартизованный коэффициент регрессии ддя соответствующей переменной;

  • Частная корреляция — частные коэффициенты корреля-ции между соответствующей переменной и зависимой, при фиксировании влияния остальных, входящих в модель.

Частный коэффициент корреляции между рентабельностью и фондоотдачей в нашем примере равен 0.459899. Это означает, после ввода в модель показателя непроизводственных рас-эв влияние фондоотдачи на рентабельность несколько сни-пось — с 0.49 (значение парного коэффициента корреляции) 0.46. Аналогичный коэффициент для показателя непроизвод-аенных расходов также снизился — с 0.46 (значение парного коэффициента корреляции) до 0.42 (берут значение по модулю), характеризует изменение связи с зависимой переменной че ввода в модель показателя фондоотдачи.

  • Получастная корреляция — корреляция между нескорректированной зависимой переменной и соответствующей не-зависимой с учетом влияния остальных, включенных в модель.

  • Толерантность (определяется как 1 минус квадрат множественной корреляции между соответствующей переменной и всеми независимыми переменными в уравнении регрес- сии).

  • Коэффициент детерминации — квадрат коэффициента множественной корреляции между соответствующей независимой переменной и всеми остальными переменными, входящими в регрессионное уравнение.

  • 1-значения — расчетное значение критерия Стьюдента для проверки гипотезы о значимости частного коэффициента корреляции с указанным (в скобках) числом степеней свободы.

  • р-уровень! — вероятность отклонения гипотезы о значимости частного коэффициента корреляции.

В нашем случае полученное значение р для первого коэффициента (0.031277) меньше выбранного =0.05. Значение вто-рого коэффициента его несколько превышает (0.050676), что говорит о его незначимости на этом уровне. Но он значим, например, при =0.1 (в десяти случаях из ста гипотеза окажется все-таки неверна).