Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
otvety_matstat.docx
Скачиваний:
66
Добавлен:
22.09.2019
Размер:
5.97 Mб
Скачать

42. Корреляционный анализ. Коррелированность и зависимость случайных величин. Численные характеристики системы двух случайных величин: корреляционный момент и коэффициент корреляции.

Корреляционный анализ - метод, позволяющий обнаружить зависимость между несколькими случайными величинами. Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры такой связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема п связанных пар наблюдений (xi, yi) из совместной генеральной совокупности X и Y. Существует несколько типов коэффициентов корреляции, применение которых зависит от измерения (способа шкалирования) величин X и Y.

Для оценки степени взаимосвязи величин X и Y, измеренных в количественных шкалах, используется коэффициент линейной корреляции (коэффициент Пирсона), предполагающий, что выборки X и Y  распределены по нормальному закону.

Коэффициент корреляции — параметр, который характеризует степень линейной взаимосвязи между двумя выборками, рассчитывается по формуле:

Коэффициент корреляции изменяется от -1 (строгая обратная линейная зависимость) до 1 (строгая прямая пропорциональная зависимость). При значении 0 линейной зависимости между двумя выборками нет.

Корреляционным моментом двух случайных величин X и Y называют математическое ожидание произведения отклонений этих величин: mxy = M{[X - M(X)]Ч[Y - M(Y)]}. Корреляционный момент служит для характеристики связи между величинами X и Y. Корреляционный момент двух независимых случайных величин X и Y равен нулю. Если корреляционный момент не равен нулю, то X и Y - зависимые случайные величины. Из определения корреляционного момента следует, что он имеет размерность, равную произведению размерностей величин X и Y. Другими словами, корреляционный момент зависит от единиц измеренияслучайных величин. Безразмерной числовой характеристикой связи двух случайных величин является коэффициент корреляции.

Методами корреляционного анализа решаются следующие задачи:

1) Взаимосвязь. Есть ли взаимосвязь между параметрами?

2) Прогнозирование. Если известно поведение одного параметра, то можно предсказать поведение другого параметра, коррелирующего с первым.

3) Классификация и идентификация объектов. Корреляционный анализ помогает подобрать набор независимых признаков для классификации.

43. Регрессионный анализ. Линейная регрессия. Прямые линии среднеквадратической зависимости. Коэффициенты регрессии y на X и X на y.

Под регрессионным анализом понимают исследование закономерностей связи

между явлениями (процессами), которые зависят от многих, иногда неизвестных,

факторов. Часто между переменными x и y существует связь, но не вполне

определенная, при которой одному значению x соответствует несколько значений

(совокупность) у. В таких случаях связь называют регрессионной. Таким образом,

функция y = f (x) является регрессионной (корреляционной), если каждому

значению аргумента соответствует статистический ряд распределения у.

Суть регрессионного анализа сводится к установлению уравнения регрессии, т.е.

вида кривой между случайными величинами (аргументами x и функцией y ), оценке

тесноты связей между ними, достоверности и адекватности результатов измерений.

Чтобы предварительно определить наличие такой связи между x и y , наносят

точки на график и строят так называемое корреляционное поле (рис. 1). По виду

корреляционного поля можно судить о наличии корреляционной связи. Так, из рис. 1-a

видно, что экспериментальные данные имеют определенную связь между x и y , а

измерения на рис. 1-б такой связи не показывают.

Различают однофакторные (парные) и многофакторные регрессионные зависимости.

Парная регрессия при парной зависимости может быть аппроксимирована прямой линией,

параболой, гиперболой, логарифмической, степенной или показательной функцией,

полиномом и др. Двухфакторное поле можно аппроксимировать плоскостью,

параболоидом второго порядка, гиперболоидом.

При построении теоретической регрессионной зависимости используется метод

наименьших квадратов (МНК). Суть МНК заключается в следующем: из всего множества

линий, которые можно провести через экспериментальные точки на корреляционном

поле, линия регрессии y=b1+ b0x выбирается так, чтобы сумма квадратов расстояний

по вертикали между экспериментальными точками и этой линией была наименьшей.

Расстояния между экспериментальными точками и линией регрессии есть отклонения еi

Следовательно, при использовании МНК минимизируется следующая функция:

где yi– фактические ординаты поля, yi – среднее значение ординаты.

Необходимым условием существованием минимума двух переменных является

равенство её частных производных по неизвестным параметрам b0 и b1 .

Разрешая аналитически данную систему уравнений, получаем:

Параметр b1 показывает среднее значение зависимой переменной y при x = 0,

B0 – угловой коэффициент линии регрессии (показывает, насколько в среднем

изменяется величина y при изменении величины x на единицу своего измерения).

Критерием близости корреляционной зависимости между x и y к линейной

функциональной зависимости является коэффициент корреляции r, показывающий

степень тесноты связи x и y и определяемый отношением

где n – число измерений.

-1<= r <= 1

Коэффициент корреляции интерпретируется как мера линейной зависимости

случайных величин. При r > 0 между x и y существует положительная линейная

связь. При r < 0 между x и y существует отрицательная линейная связь. При r = 0

между x и y отсутствует линейная связь.

Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной y от одной или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости.

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при тех или иных предположениях о вероятностных характеристиках факторов и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. Необходимо отметить, что с эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Регрессионная модель

где  -параметры модели,   - случайная ошибка модели, называется линейной регрессией, если функция регрессии   имеет вид

где   - параметры (коэффициенты) регрессии,   - регрессоры (факторы модели), k- количество факторов модели.

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

Параметр  , при котором нет факторов, называют часто константой. Формально - это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа - это параметр при "факторе", равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот "фактор"). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов - k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

 - вектор регрессоров,   - вектор-столбец параметров (коэффициентов)

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]