Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
семестровое задание.doc
Скачиваний:
83
Добавлен:
01.04.2015
Размер:
2.38 Mб
Скачать

Элементы теории корреляции

Прогноз необходим во многих практических ситуациях - прогнозирование погоды по результатам соответствующих атмосферных измерений, селекционирование новых видов растений и животных, определение возможностей индивидуумов в определенных областях с помощью соответствующей системы контрольных тестов и т.д. во всех этих случаях речь идет о величинах, относящихся к будущему, недоступных наблюдению в данный момент, которые надо оценивать (прогнозировать) с помощью доступных измерению сопутствующих величин [Ивченко, с. 211].

Предположим, что случайные величины Y и X = (X1, X2, … , Xp) связаны некоторой статистической зависимостью, которую в общем случае можно выразить их совместной функцией распределения . Пусть случайная величинаX доступна наблюдению, в то время как значение Y непосредственно измерить невозможно. В этом случае возникает задача предсказания (прогноза, оценки) величины Y на основании информации, доставляемой измерением величин X1, X2, … , Xp, которые в этом случае называются предсказывающими переменными. Функция от предсказывающих переменных , которую используют в качестве оценки дляY, называют предиктором величины Y по X. Задачей разработки методов построения оптимальных в том или ином смысле предикторов занимается теория статистической регрессии и корреляции [Ивченко, с. 210].

Случайные величины  и  находятся в корреляционной зависимости, если каждому значению одной из них соответствует некоторое распределение другой.

Наиболее важной характеристикой стохастической связи является зависимость, выражающая среднее значение условного распределения одной случайной величины при изменении другой.

Условным математическим ожиданием дискретной случайной величины  при  = y (где y – некоторое возможное значение случайной величины ) называется сумма произведений возможных значений  на их условные вероятности:

.

Для непрерывной случайной величины

,

где - условная плотность вероятности случайной величины при  = y.

Аналогично определяется условное математическое ожидание случайной величины.

Из определения условного математического ожидания следует, что с изменениемy будет изменяться и . Следовательно, можно рассматривать функцию, областью определения которой является множество возможных значений величины. Функцию называютфункцией регрессии первого рода, или модельной функцией регрессии  на .

Аналогично условное математическое ожидание является функциейx , т.е. , которая носит названиемодельной функции регрессии  на . Уравнения иназываются уравнениями регрессии первого рода соответственно на  и  на . Линии, определяемые данными уравнениями, называются модельными линиями регрессии; они вводятся только для непрерывных случайных величин.

Если обе линии регрессии  на  и  на  прямые, то корреляцию называют линейной. В случае линейной корреляции они проходят через центр распределения системы случайных величин. Заметим, что для системы нормально распределенной системы случайных величинлиниями регрессии являются прямые.

Уравнения прямых регрессии имеют вид

; .

Угловые коэффициенты прямых регрессии иназывают коэффициентами линейной регрессии соответственно на  и  на .

Пусть для данного испытания определены случайные величины ,, … ,,. Каждому элементарному событиюможно поставить в соответствие системуслучайных величин (- мерный случайный вектор или- мерную случайную величину):, задающую отображение.

В частном случае при = 2 мы имеем систему двух случайных величин, которая геометрически интерпретируется как случайная точка с координатамина плоскостиxOy или как случайный вектор, направленный из начала координат в точку .

Закон распределения системы случайных величин представляет собой соотношение, устанавливающее связь между областями возможных значений системы и вероятностями появления системы в этих областях. Рассмотрим систему из двух дискретных случайных величин и, значения которых, где,. Распределение системы таких случайных величин может быть охарактеризовано указанием вероятноститого, что случайная величинапримет значениеи одновременно с этим величинапримет значение. Вероятностисводятся в таблицу распределения системы двух случайных величин с конечным числом возможных значений, составляющих полную систему событий.

Координаты центра рассеивания системы дискретных случайных величин – математические ожидания:

; .

Рассеивание случайной точки вдоль осей Ox и Oy соответственно характеризуют дисперсии, вычисляемые для системы дискретных случайных величин по формулам

;

.

Связь между дискретными случайными величинами характеризует корреляционный момент:

.

Для независимых дискретных случайных величин корреляционный момент равен нулю.

Безразмерной характеристикой связи между, степени тесноты линейной зависимости между случайными величинами служит коэффициент корреляции

,

где ,.

Случайные величины некоррелированные, если их корреляционный момент или коэффициент корреляции равен нулю. Если случайные величины исвязаны линейной зависимостью, то их коэффициент корреляции, где плюс или минус берется в соответствии со знакомa. Для любых случайных величин .

Коэффициенты линейной регрессии выражаются через числовые характеристики системы следующим образом:

;

,

откуда , т.е. коэффициент корреляции есть среднее геометрическое коэффициентов линейной регрессии; если, то прямые регрессии наклонены вправо, если, то влево; если же, то прямые регрессии сливаются в одну прямую и случайные величиныисвязаны между собой линейной зависимостью. Если, то прямые регрессии проходят параллельно осям координат. В этом случаеинекоррелированы – так будет всегда, когдаинезависимы, однако обратное заключение строго говоря неверно, так как случайные величины могут быть связаны функциональной зависимостью.

Выборочные уравнения прямых регрессии имеют вид

;

,

где ,- оценки математических ожиданий соответственно дляи;и- оценки среднеквадратических отклонений дляи;- оценка для коэффициента корреляции.

Пример. Измерялась чувствительность видео- и звукового каналов первой программы 20 телевизоров. Данные измерений (в микровольтах) в первой колонке – чувствительность видеоканала, во второй - чувствительность звукового канала:

400 – 140 340 – 160 480 – 160 320 – 120

420 – 170 500 – 240 430 – 270 540 – 260

450 – 110 450 – 100 420 – 190 450 – 280

380 – 160 280 – 150 410 – 200 320 – 130

540 – 180 310 – 120 500 – 180 460 – 200

Найти среднюю видеочувствительность видеоканала и звукового каналателевизоров, среднеквадратичное отклонение чувствительности каждого из каналов и выборочный коэффициент корреляции чувствительности обоих каналов. Написать выборочное уравнение линейной регрессиина.

Решение. Оценки для инайдем по формулам

; .

Подставив числовые значения, получим:

= 1/20 (400 + 4202 + 4503 + 380 + 5402 + 340 + 5002 + 280 + 310 + 480 + 430 + 410 + 3202 + 460) = 420;

= 1/20 (140 + 170 + 110 + 1603 + 1802 + 240 + 100 + 150 + 1202 + 270 + 190 + 200 + 260 + 2802 + 280 + 310 + 130) = 180.

При неизвестных математических ожиданиях иоценками для среднеквадратических отклонений будут:

;

.

Используя формулу для оценки корреляционного момента при неизвестных математических ожиданиях и, найдем

Следовательно, выборочный коэффициент корреляции случайных величин и

.

Запишем уравнение линейной регрессии на:

или .

Примеры решения аналогичных задач рассмотрены в учебной литературе [Ермаков].