Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
задание_2010_без_литератури.doc
Скачиваний:
4
Добавлен:
01.04.2025
Размер:
4.69 Mб
Скачать

Контрольные вопросы

  1. Для чего используется двухфакторный дисперсионный анализ без повторения, двухфакторный дисперсионный анализ с повторениями?

  2. Что называется эффектами блоков, эффектами обработки? Что они характеризуют?

  3. Какие требования необходимо соблюдать при проверке нулевой гипотезы?

Тема 3. Корреляционно – регрессионый анализ

Регрессионный и корреляционный анализы — это эффективные методы, которые разрешают анализировать значительные объемы информации с целью исследования вероятной взаимосвязи двух или больше переменных.

В регресионном анализе рассматривается связь между одной переменной, которая называется зависимой переменной, или признаком, и несколькими другими, которые называются независимыми переменными.

Эта связь представляется с помощью математической модели, то есть уравнением, которое связывает зависимую переменную (у) с независимыми (х) с учетом множества соответствующих предположений.

Поскольку целью регрессионного анализа есть выявление влияния переменных Х на значение переменной У, последнюю еще называют откликом, или результативным фактором, а переменные х — факторами, которые влияют на отклик.

Регрессионный анализ используется по двум причинам. Во-первых, описание зависимости между переменными помогает установить наличие возможной причинной связи. Во-вторых, получение аналитической зависимости между переменными дает возможность предусматривать будущие значения зависимой переменной по значениям независимых переменных.

При анализе социально-экономических процессов регрессия применяется одновременно с корреляцией.

С помощью регрессии определяются аналитические зависимости между переменными, а через корреляционный анализ — сила связи между факторами и откликом.

Именно потому, что основные статистические проблемы регрессионного анализа решаются анализом корреляций, методы регрессионного и корреляционного анализа тесно связанные между собою.

Функциональные и корреляционные связи. В экономической теории, как правило, все соотношения устанавливаются в детерминированой форме, то есть допускает, что если две переменные взаимосвязанные, то любому заданному значению одной переменной отвечает лишь одно значение второй. Такие связи называются функциональными. Для них характерно то, что изменения результативного признака в целиком обусловлены действием факторного признака х: Y=f(X)

Особенностью функциональной связи есть то, что она проявляется с одинаковой силой для каждой единицы совокупности, которая изучается.

Поэтому, установив при изучении любой единицы совокупности ту или другую закономерность, ее можно распространять как на каждую единицу, так и на всю совокупность.

Но такой подход не может применяться при изучении социально-экономических явлений.

Так, экономическая теория утверждает, что потребление, безусловно, может зависеть от дохода. Тем не менее экономическая теория не предоставляет нам никаких конкретных данных относительно этого и не указывает, хотя бы в общем виде, какую форму может иметь функциональная зависимость этих переменных. Таким образом, специалисту, который занимается изучением этой проблемы, самому приходится определять конкретную функциональную зависимость, которая, по его мнению, может существовать между переменными, оценивать ее параметры и потом определять правильность этой гипотезы, исходя из информации, которую он имеет.

С самого начала следует учитывать на то, что даже предположение относительно возможности получить полную информацию о всех аспектах явления, которое рассматривается, есть нереальной. Кроме того, те данные, которые мы имеем, получаются с помощью некоторого механизма собирания информации. А такие механизмы часто являются довольно неточными. Поэтому нужно относиться к такой информации довольно осторожно и не считать, что она точная и соответствует действительности.

Но есть и другой, более важный и фундаментальный аспект неопределенности информации — многофакторность и взаимное влияние социально-экономических процессов. Если, например, потребительское поведение всех семей, которые имеют доход определенных размеров, была бы одинаковой, а все другие факторы, которые влияют на потребительские затраты семей, не изменялись, можно было бы ожидать, что во всех семьях с одинаковым доходом затраты на потребление также одинаковые. Тем не менее в действительности вероятность того, что эти условия выполняются одновременно, очень маленькая.

Даже если бы потребительское поведение этих семей совпадало — хотя в это очень тяжело поверить, — разность в вкусах, размерах семьи, накопленных средствах (или долгах) и в большом количестве других факторов приведет к тому, что по крайней мере некоторые из измерянных величин будут отличаться от других.

Таким образом, можно ожидать, что большинство семей с заданным уровнем дохода хі будет иметь именно свой уровень потребительских затрат yi, которые изменяется от одной семьи к другой. Предположим, что эти отличия возникают случайно и имеют относительно небольшие значения, которые колеблются возле нуля. В таком случае мы имеем корреляционную связь, при котором переменная результативного признака У обусловленна влиянием Х не целиком, а лишь частично: Y=y(X)+e

Случайная часть e отображает или внутренне присущую результативному признаку переменчивость, или влияние на нее факторов, не учтенных этим соотношением, или то и другое вместе.

Поскольку корреляционные связи — это связи соотносительные, они не являются полными (жесткими) зависимостями. А наличие факторов, которые могут быть разными по составу, направлению и силе действия на отдельные (индивидуальные) единицы совокупности, которая изучается, приводит к тому, что при одном и том же значении факторного признака возможные разные значения результативного.

Поэтому для такой совокупности в целом устанавливается такое соотношение, при котором определенным изменениям факторных признаков отвечает среднее изменение результативных.

Итак, характерной особенностью корреляционных связей есть то, что они проявляются не в одиночных случаях, а в массе. Поэтому они изучаются по так называемым эмпирическим или экспериментальным данным, которые получают в статистическом наблюдении. В таких данных отображается совокупное действие всех причин и условий на показатель, который изучается, а используются они для определения влияния лишь некоторых факторов.

Хотя такое абстрагирование от ряда параметров ведет к некоторому упрощению (аппроксимации) реального механизма связи, тем не менее именно это дает возможность установить закономерности во взаимодействии признаков, которые изучаются, и разрешает получить количественные характеристики корреляционной связи.

Поскольку корреляционно-регрессионный анализ служит основой для исследования и понимания связей между переменными, то он широко используется в управлении маркетингом. Его можно с успехом применять при принятии решений по многим вопросам — от финансирования операций фирмы и комиссионных, которые получают от продажи, до проведения маркетинговых исследований.

В маркетинговых исследованиях наиболее частое проводятся косвенные измерения, а одной из причин применения регрессионного анализа есть потребность в установлении взаимосвязи результатов посредственных измерений и результативного признака.

В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует раскрытия причинных зависимостей.

Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи.

Экономические данные почти всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д. Такие зависимости называются функциональными.

Связи же второго типа (неявные) заранее неизвестны, т.е при фиксированном значении X значение Y не определено точно. Такую зависимость называют вероятностной или стохастической. Следует отметить, что в стохастических зависимостях принцип причинности не нарушается, но в отличие от функциональных связей, где он прослеживается при каждом акте взаимодействия, здесь причинную связь можно выявить только в целом (в среднем) по некоторой совокупности.

Учитывая, что в сложных экономических явлениях стохастические связи преобладают, необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей и предоставляет корреляционно-регрессионный анализ.

Проведение регресионно-корреляционного анализа средствами MS Eхсеl. MS Excel обеспечивает эффективную поддержку для проведения регрессионного анализа: 15 функций категории Статистические созданы непосредственно для этой цели; инструменты пакета Анализ данны; построение линий тренда на графиках, с помощью которых удобнее применять конкретные регрессионные вычисления и др.

Проведение корреляционно-регрессионного анализа делится на несколько этапов.

Нулевой этап — это сбор данных (данные должны быть наблюдаемыми). Сбор данных создает фундамент для прогнозирования. Поэтому при сборе данных следует соблюдать следующие требования и правила.

По мнению одних статистиков, данных необходимо в 4-6 раз больше, чем количество факторов, влияние которых хотят выразить математически, по мнению других — в 7-8 раз больше количества факторов.

На этом этапе осуществляется отбор факторов, которые существенно влияют на результативный признак. Он проводится прежде всего исходя из содержательного анализа.

Для получения надежных оценок в модель не следует включать много факторов, их количество не должно быть большее одной трети объема данных, которые анализируются.

Но поскольку на начальному этапе разработки модели у исследователя нет однозначного ответа на вопрос относительно набора существенных факторов, то при использовании вычислительной техники отбор факторов обычно осуществляется непосредственно в процессе создания модели методом последовательной регрессии. Суть этого метода состоит в последовательном включении дополнительных факторов в модель и оценке влияния добавленного фактора.

Используется также подход, по которому на факторы, включаемые в предшествующий состав модели, не накладывается особых ограничений и лишь на следующих стадиях проводится их оценивание и отбор.

После подготовки данных начинается их обработка.

Первый этап корреляционный анализ. Его цель — определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ создает информацию о характере и степени выраженности связи (коэффициент корреляции), которая используется для отбора существенных факторов, а также для планирования эффективной последовательности расчета параметров регрессионных уравнений. При одном факторе вычисляют коэффициент корреляции, а при наличии нескольких факторов строят корреляционную матрицу, из которой выясняют два вида связей: связи зависимой переменной с независимыми, связи между самими переменными.

Рассмотрение матрицы позволяет, во-первых, выявить факторы, действительно влияющие на исследуемую зависимую переменную, и выстроить (ранжировать) их по убыванию связи; во-вторых, минимизировать число факторов в модели, исключив часть факторов, которые сильно или функционально связаны с другими факторами (речь идет о связях независимых переменных между собой).

По числу факторов различают простую (парную) и множественную (несколько факторов) регрессию.

Известно, что наиболее надежными на практике бывают одно- и двухфакторные модели.

Если будет обнаружено, что два фактора имеют сильную или полную связь между собой, то в регрессионное уравнение достаточно будет включить один из них. (Пример: Вы одновременно выслушиваете двух различных и одинаково информированных информаторов, говорящих об одном и том же. Скорей всего, что вы скажете им: «Говорите по одному».)

Второй этап расчет параметров и построение регрессионных моделей.

В основу выявления и установление аналитической формы связи положено использование определенных математических функций — линейной, логарифмической, степеннной, експотенциальной, полиноминальной и некоторых других.

В случае парной корреляции эти фукции записываются следующим образом:

y=mx+b (линейная);

y=mLn(x)+b (логарифмическая);

y=bxm (степенная);

y=bemx (експотенциальная);

y=m6x6+m5x5+…+b (полиноминальная)

По типу уравнения регрессии различают: линейную и нелинейную регрессию. Для определения коэффициентов уравнения используют соответственно функции ЛИНЕЙН и ЛГРФПРИБЛ.

При множественной регрессии стремятся отыскать наиболее точную меру выявленной связи, для того, чтобы можно было прогнозировать, предсказывать значения зависимой величины у, если будут известны значения независимых величин х1, х2..., хn. Эту меру обобщенно выражают математической моделью линейной множественной регрессионной зависимости:

y = b +m1x1 +m2x2 + mnxn.

Компьютер вычисляет параметры модели: свободный член а0 (константа, или пересечение) и коэффициенты mп (коэффициенты регрессии).

Множественный корреляционно-регрессионный анализ в основном ориентирован на использование инструментальных средств пакета Анализ данных. Среди них — Корреляция и Регрессия.

Осуществление второго этапа сильно зависит от выводов, которые получены при анализе корреляционной матрицы.

После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель — получить уравнение наивысшей значимости. Поэтому второй этап корреляционно-регрессионного анализа неразрывно связан с третьим.

На третьем этапе выясняют статистическую значимость, т. е. пригодность постулируемой модели для использования ее в целях предсказания значений отклика. При этом программа по модели уже рассчитала теоретические значения для ранее отмеченных значений зависимой величины и вычислила отклонения теоретических значений от наблюдаемых значений. На основе этого программа построила также ряд графиков, в т. ч. график подборки и график остатков. В остатках не должно наблюдаться закономерности, т. е. корреляции с какими-либо значениями (если она есть, то в модель не включен какой-то закономерно действующий, но не известный, скрытый фактор, о котором нет данных). Для оценки качества полученной модели программа вычислила также целый ряд коэффициентов, которые обязан рассмотреть исследователь, сравнивая их с известными статистическими критериями и оценивая модель с точки зрения здравого смысла.

На этом этапе исключительно важную роль играют коэффициент детерминации и критерий значимости регрессии.

R2 есть доля вариации прогнозной (теоретической) величины У относительно наблюдаемых значений Y, объясненная за счет включенных в модель факторов. Очень хорошо, если п >= 80%. Остальная доля теоретических значений Y зависит от других, не участвовавших в модели факторов. Задача исследователя — находить факторы, увеличивающие R2, и давать объяснение вариаций прогноза, чтобы получить идеальное уравнение. Однако коэффициент R самое большее может достигнуть величины 1 (или 100%), когда все значения факторов различны. А если в данных есть повторяющиеся опыты, то величина R2 не может достигнуть 1, как бы хороша ни была модель. Поэтому дубликаты данных следует удалять из исходной таблицы до начала расчета регрессии. Повторение одинаковых данных снижает надежность оценок модели. R = 1 лишь при полном согласии экспериментальных (наблюденных) и теоретических (расчетных) данных. Однако это считается весьма маловероятным случаем.

На четвертом этапе корреляционно-регрессионного исследования, если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.

Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать. Например, с самого начала работы (как бы по умолчанию) строилась и проверялась линейная регрессионная модель. Незначимость ее служит основанием для того, чтобы отвергнуть только линейную форму модели. Возможно, что более подходящей будет нелинейная форма модели.

Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Электронные же таблицы делают такой анализ легко доступным.

Корреляционно-регрессионный анализ связей между переменными показывает, как один набор переменных (X) может влиять на другой набор (У). Вот несколько примеров.

Пример 1. Маркетологи, изучающие пути продвижения товаров и потери в пути, хотят проверить предположение о том, что число консервных банок, испорченных при перевозке в вагонах, зависит от скорости вагона при толчках. Это могло бы дать информацию для перепроектирования упаковки и расфасовки товаров, изменения способа доставки, исчисления естественной убыли. Собраны данные о скорости 13 вагонов (независимая переменная X) и количестве испорченных банок в каждом из них (зависимая переменная Y). Если при обработке этих данных выявится сильная связь между X и У, то необходимо будет построить ее математическую модель для прогнозирования потерь при перевозках и нормирования убыли.

Пример 2. Замечено, что объем продаж зависит от площади торгового предприятия. На основе собранных данных необходимо найти надежное (статистически значимое) уравнение этой зависимости, чтобы по известной площади универмага (X) можно было планировать объем продаж в нем (Y). В последнем случае важно также иметь данные о типе предприятия, поскольку эта связь может быть неодинаковой для крупных и мелких предприятий.

Статистическая оценка степени зависимости результата от различных факторов основана на показателях вариации:

  • общая дисперсия результативного признака (Y), обусловленная влиянием всех факторов ( X1, X2, … Xn ) в совокупности, — ;

  • факторная дисперсия результативного признака, отражающая вариацию результативного признака от воздействия единичного выделенного фактора, — ;

  • остаточная дисперсия результативного признака от воздействия всех факторов, кроме выделенного, — .

Основное соотношение:

= + .

Коэффициент детерминации R2 (R-квадрат)— вычисляется как отношение факторной дисперсии к общей дисперсии (т.е. определяет долю дисперсии, которая обусловлена регрессией, в общей дисперсии): R2 = / .

Коэффициент корреляции R (множественный R) — является корнем квадратным из коэффициента детерминации: . Он выражает тесноту (силу) связи изучаемых показателей Для его расчета в простом (однофакторном) регрессионном анализе используется функция КОРРЕЛ.

Коэффициент детерминации, как и коэффициент корреляции, принимает значения от -1 до +1, чем ближе его значение коэффициента по модулю к 1, тем теснее связь результативного признака Y с исследуемыми факторами X.

Нормированный R-квадрат учитывает количество результатов наблюдений и предсказуемых переменных. Он рассчитывается по формуле: ,

где R2 — коэффициент детерминации, n — количество результатов наблюдений, а m — количество предсказуемых переменных.

При проведении множественного регрессионного анализа (если по сравнению с количеством предсказуемых переменных число результатов незначительно) R2 имеет тенденцию отклоняться в сторону повышения. Нормированный R2 обеспечивает информацией о том, какое значение вы могли бы получить в другом наборе данных, который был бы намного больше, чем анализируемый в данном случае. Если бы рассматриваемый нами случай был основан, например, на 100 результатах наблюдений, то нормированный R2 имел бы очень незначительное отклонение от фактического R2 .

http://univer-nn.ru/econometrica/determinatsii.php

http://www.grandars.ru/student/statistika/korrelyacionno-regressionnyy-analiz.html

Для оценки значимости индекса R рассчитывается показатель:

Fr = (R2 / (1– R2 )*((n–m)/ m),

где n – размер выборки, m – число факторов.

Используется F-критерий Фишера для определения критического значения — Fкр — при k1 = m, k2 = n-m. Вычисленное критическое значение сравнивается с фактическим значением Fr. Если Fr > Fкр, величина R признается существенной. Величина Fкр вычисляется с помощью встроенной функции F.ОБР. На практике используется порог, равный 0,7. Связь считается сильной и уравнение регрессии пригодно для прогнозирования, если R больше 0,7.

Стандартное уравнение парной регрессии линейного вида:

где и — коэффициенты уравнения регрессии.

Для каждого коэффициента уравнения регрессии вычисляются оценки t-критерия Стьюдента:

  • стандартная ошибка коэффициента регрессии;

  • t-статистика (отношение коэффициента к стандартной ошибке).

Если t-статистика значима, коэффициенты принимаются для построения уравнения регрессии, в противном случае из уравнения регрессии исключается эта переменная. Критическое значение t-статистики вычисляется с помощью встроенной функции СТЬЮДЕНТ.ОБР.

Таким образом, регрессионные вычисления и подбор хороших уравнений — это ценный универсальный исследовательский инструмент в самых разнообразных отраслях деловой и научной деятельности (маркетинг, торговля, медицина и т.д.). Усвоив технологию использования этого инструмента, Вы сможете применять его по мере необходимости, получая информацию о скрытых связях, улучшая аналитическую поддержку принятия решений и повышая их обоснованность.

Существует несколько способов и алгоритмов выбора наилучшего уравнения регрессии:

  • Метод всех возможных регрессий.

  • Метод выбора «наилучшего подмножества» предикторов.

  • Метод исключения.

  • Шаговый регрессионный метод.

  • Гребневая (ридж) регрессия.

  • ПРЕСС.

  • Регрессия на главных компонентах.

  • Регрессия на собственных значениях.

  • Ступенчатый регрессионный метод.

  • Робастная (устойчивая) регрессия.

  • Другие, более ранние методы (метод деления пополам, метод складного ножа).

Конечно, ни один из методов не может компенсировать здравый смысл и жизненный опыт. Однако метод исключения и шаговый метод признаются наиболее эффективными при использовании ЭВМ.

Метод исключения исследует не все, а только наилучшие регрессионные уравнения, в чем и состоит его экономичность. На первом этапе рассчитывается уравнение, включающее все независимые переменные. Затем, рассматривая корреляционную матрицу, находят в ней независимую переменную, имеющую самую слабую (по модулю) связь с зависимой (т.е. с наименьшим по модулю значением коэффициента корреляции), и исключают ее из уравнения. Заново пересчитывают уравнение с меньшим числом независимых переменных. Если по сравнению с предыдущим расчетом значимость уравнения в целом (Fp) и коэффициент детерминации (R2) повысились, то исключение сделано правильно. Далее отыскивают в корреляционной матрице следующую независимую переменную с наименьшим значением коэффициента корреляции и поступают аналогичным образом. Исключения независимых переменных (по одной) и пересчеты уравнений продолжают до тех пор, пока не обнаружат снижение значимости уравнения и доли объясненной вариации (R2) по сравнению с последним предшествующим расчетом. Это служит сигналом нецелесообразности последнего исключения.

Шаговый метод — это попытка прийти к тем же результатам, действуя в противоположном направлении, начиная с однофакторной модели. При этом, как и в предыдущем методе, обязательно ориентируются на данные корреляционной матрицы. Т. е. при шаговом методе на первом шаге расчета в уравнение включают не все, а только один фактор с наибольшим по модулю значением коэффициента корреляции между независимой и зависимой переменной. На каждом следующем шаге из оставшихся не включенными в уравнение независимых переменных в предыдущую модель добавляют только одну независимую переменную, наиболее связанную с зависимой, и заново пересчитывают все параметры регрессии. После пересчета сравнивают полученные оценки нового уравнения с оценками предшествующего шага. Так продолжают до тех пор, пока не получат наилучшее уравнение с наибольшими расчетными значениями F и R .

Добавления или исключения факторов по одному в каждом из названных методов позволяют заметить и выделить роль каждого отдельного фактора в регрессионной модели. Если этот принцип не соблюдается, т.е. факторы исключаются (при методе исключения) или добавляются (при шаговом методе) по два или более, то наилучшую модель отыскать все-таки можно, но тогда трудно понять, какой же именно фактор наиболее существенно изменяет (улучшает или ухудшает) статистическую значимость уравнения. А это исключительно важно в маркетинговых и финансовых моделях, которые отыскивают именно для того, чтобы управлять зависимым показателем через влияние самого существенного или самых существенных факторов, т.е. целенаправленно изменяя значения фактора для получения желаемого отклика.

Зная алгоритм, свойственный выбранному методу, исследователь должен наглядно организовать важнейшие расчетные данные, необходимые для принятия решения (о включении или исключении фактора).

При поддержке множественного регрессионного анализа средствами Excel можно отслеживать очередность исследовательских шагов, записывая для каждого шага номер шага, набор независимых переменных, вид уравнения, главные оценочные данные: коэффициенты Фишера (F расчетный и F критический) и детерминации R2.

В бизнесе широко применяются как однофакторные, так и множественные регрессионные модели. Корреляционно-регрессионный анализ считается одним из главных методов в бизнесе, наряду с оптимизационными расчетами, а также математическим и графическим моделированием трендов (тенденций).