Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Стеграммы лекций 6-10 и 13

.pdf
Скачиваний:
12
Добавлен:
03.06.2015
Размер:
1.21 Mб
Скачать

scale). Для описания номинальных переменных правильно использовать частоты встречаемости отдельных значений, а расчет среднего арифметического и других параметров бессмыслен (пример: номера телефонов, группы крови). При описании измеряемых переменных в первую очередь обращают внимание на их среднее арифметическое, а потом – на то, как случайная величина от него отклоняется (пример: рост, вес). Для порядковых переменных (например, оценка за зачет) можно использовать оба метода описания, однако правильным все же является применение специальных непараметрических методов, которые мы рассматривать не будем.

Следовательно, при анализе связи двух переменных есть три разных варианта и три основных метода анализа:

1.Если обе переменные номинальные, то нужно рассчитать таблицу частот совместного распределения и проверить ее при помощи критерия «хиквадрат», который обсуждался в одной из предыдущих лекций.

2.Если одна переменная номинальная, а вторая – измеряемая, то нужно по значениями первой переменной «разрезать» выборку на подгруппы и сравнить распределения второй переменной в этих подгруппах. При этом можно ограничиться сравнением средних значений по критерию Стьюдента (при этом желательно не ограничиваться средними и сравнить другие параметры, например, коэффициенты асимметрии и эксцесса), либо сравнивать распределения целиком по критерию Колмогорова–Смирнова.

3.Если обе переменные измеряемые, то в первую очередь нужно выяснить, как изменение среднего одной переменной влияет на изменение среднего другой переменной. Эта взаимосвязь описывается коэффициентом корреляции.

Определение. Смешанным моментом порядка

n, k

случайных величин и

называется

математическое ожидание

произведения

их n

 

 

и k

степеней:

Mn,k , M n k .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определение. Смешанным центральным моментом

порядка

 

n, k

случайных

величин

и называется математическое ожидание произведения n-й и k-й степеней их

 

n,k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

отклонений от своих средних: M 0

,

 

M

 

M

 

 

 

n M

 

k

 

.

 

Для смешанного центрального момента порядка 1,1 имеется специальное название

ковариация и обозначается cov , M1,10 , .

Если случайные величины и независимы, то их смешанные моменты распадаются на произведения просто моментов этих величин соответствующих порядков. Поскольку первый центральный момент всегда равен нулю, то ковариация независимых случайных величин равна нулю. Отличие ковариации от нуля может служить мерой статистической связи этих случайных величин.

Определение. Отношение ковариации двух случайных величин и к произведению их среднеквадратических отклонений называется коэффициентом корреляции:

R ,

cov ,

 

 

Коэффициент корреляции показывает силу и направление линейной связи. Он находится в пределах от –1 до +1, причем равенства достигает только в том случае, еслии строго линейно зависимы с отрицательным или положительным наклоном. Модуль коэффициента корреляции описывает силу линейной связи – чем он больше, тем связь сильнее. В случае линейной зависимости квадрат коэффициента корреляции называется коэффициентом детерминации и показывает долю дисперсии , объясненной линейной зависимостью от . Например, R 0,9 означает, что линейная зависимость между и объясняет 81% дисперсии .

Если к случайной величине прибавить константу, то коэффициент корреляции не изменится. Если случайную величину умножить на положительную константу, то коэффициент корреляции не изменится, если на отрицательную – поменяет знак.

Коэффициент корреляции хорошо анализирует только линейную составляющую связи, однако отклонения от линейной связи он не выявляет. Однако отклонения от линейной связи он не выявляет, поэтому в дополнение к расчету коэффициента корреляции следует проводить визуальный контроль характера связи переменных, например, при помощи построения графика совместного распределения случайных величин.

Например, если две случайные величины независимы (и, следовательно, имеют нулевой коэффициент корреляции), то их совместное распределение имеет примерно следующий вид (рис. 1):

Рис. 1. Пример совместного распределения двух независимых случайных величин.

На рис. 2 и 3 представлены примеры положительно и отрицательно коррелирующих величин.

Рис. 2. Пример совместного распределения двух положительно коррелированных случайных величин.

Рис. 3. Пример совместного распределения двух отрицательно коррелированных случайных величин.

Нулевой или небольшой коэффициент корреляции может быть также в случае сильной, но немонотонной связи (рис. 4), также возможна обратная ситуация (рис. 5).

Рис. 4. Пример совместного распределения двух зависимых случайных величин, имеющих нулевой коэффициент корреляции.

Рис. 5. Пример совместного распределения двух зависимых случайных величин, имеющих близкий к единице коэффициент корреляции.

Именно из-за неадекватности величины коэффициента корреляции, рассчитанного в случае нелинейной зависимости между случайными величинами, силе этой зависимости, проводят линеаризацию данных. Так называется процедура преобразования исходных значений к виду, между которыми ожидается линейная связь. Например, между логарифмом константы скорости реакции и обратной температурой в модели Аррениуса

ожидается линейная связь: ln K E 1 ln K0 . kБ T

Как и для всех моментов, основанных на математическом ожидании, оценка коэффициента корреляции основана на расчете среднего арифметического и поэтому неробастна. Поэтому если анализируемые переменные имеют выскакивающие варианты или грубые промахи измерений, то проводимый в статистических пакетах корреляционный анализ может быть неверным. Кроме того, если обе переменные имеют выскакивающие варианты, то высокое значение коэффициента корреляции может быть получено не за счет общей тенденции, характерной для большинства наблюдений, а за счет связанности только аномально больших (или малых) значений.

Например, на рис. 6 представлены данные о числе телевизионных вышек (в десятках тысяч), установленных в 1953 г. в девяти городах США (Денвере, Сан-Антонио, КанзасСити, Сиэтле, Цинцинати, Буффало, Нью-Орлеане, Милуоки и Хьюстоне) и о численности населения (в десятках тысяч) этих городов. Выборочный коэффициент корреляции равен 0,403, что свидетельствует о малой степени линейной связи. Если же к этим данным добавить сведения о Нью-Йорке, то пересчитанный коэффициент корреляции равен уже

0,995.

Рис. 6. Число телевизионных вышек в городах США в 1953 г. (цитируется по Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. – М.: Финансы и статистика, 1985).

Кроме того, когда проводится корреляционный анализ сразу по нескольким параметрам, некоторые из них могут оказаться коррелированными друг с другом, что приводит к появлению коррелированности несвязанных между собой явлений.

Во время Второй мировой войны англичане исследовали зависимость точности бомбометания Z от ряда факторов, в частности высоты бомбардировщика H, скорости ветра V и количества истребителей противника X. Как и ожидалось, Z в среднем увеличивалась при уменьшении H и V. Однако поначалу представлялось необъяснимым, что точность бомбометания Z также возрастала и при увеличении X. Дальнейший анализ позволил понять причину такой связи: в модель не был включен такой важный фактор, как облачность Y. Он сильно влияет и на Z, уменьшая точность, и на X, поскольку бессмысленно высылать истребители, если ничего не видно. Сильные отрицательные корреляции в парах Z,Y и X ,Y привели к появлению положительной корреляции в

паре Z, X при отсутствии причинно-следственной связи.

Критерий достоверности отличия от нуля коэффициента корреляции

Важно понимать, что величина коэффициента корреляции не является конечным результатом корреляционного анализа, а лишь необходимой его частью для последующих расчетов и интерпретации результатов. Так, после линеаризации данных эксперимента и расчета значения коэффициента корреляции следует ответить на вопрос, насколько он велик, т.е. проверить гипотезу о достоверности его отличия от нуля.

Если исследуемые величины x и y при прочих равных распределены нормально (или их значения равноточны и являются средними арифметическими достаточно большого количества значений – достаточно для того, чтобы выполнялась ЦПТ), то достоверность

отличия коэффициента

корреляции R

 

от нуля

по

N парным

измерениям xi , yi

позволяет определить статистика

 

 

 

 

 

 

 

 

 

 

 

 

 

R

 

 

 

 

 

 

 

 

 

 

 

 

 

N

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 R2

 

 

 

 

 

 

 

 

 

 

 

 

При этом величина

подчиняется

распределению

Стьюдента

с N 2 степенями

свободы: ~ TN 2 .

 

 

 

 

 

 

 

 

 

 

 

Задача 13.1. На одной из первых лекций студенты замеряли свой рост и длину ног, совместное распределение результатов 41 из этих измерений приведено на рис. 7. Определить долю дисперсии, объясненной линейной моделью, достоверность отличия коэффициента корреляции от нуля и оценить силу линейной связи.

Рис. 7. Совместное распределение роста и длины ног студентов 1-го курса по их собственным измерениям.

Решение. Доля дисперсии длины ног, объясненной линейной зависимостью от роста, равна 34%. Остальная дисперсия приходится на случайные разброс результатов измерений, возможную неоднородность выборки, различия в методах измерения и т.д.

 

 

 

 

R

 

 

 

 

 

 

 

 

Статистика

 

 

 

 

 

N 2

4,52

и

распределена

как

T43 :

 

 

 

 

 

 

 

 

 

 

R2

 

1

 

 

 

 

 

 

 

 

СТЬЮДРАСП 4,52;39;2 0,006% . Таким образом,

с доверительной

вероятностью

0,006% коэффициент корреляции достоверно отличается от нуля.

Нет ли здесь противоречия? Величина коэффициента корреляции не так уж и велика, чтобы говорить о линейной связи, однако критерий дает сильную достоверность отличия его от нуля. Противоречия действительно нет, просто различия в длинах ног студентов объясняются не только различиями в их росте, но и еще целым рядом других параметров, которые не были учтены в данной эксперименте и на которые приходится 66% дисперсии. Связь между длиной ног и ростом студентов хоть и статистически слабая, однако достоверно подтверждена за счет большого количества измерений.

Важно понимать, что несмотря на установленную статистическую связь, пока нигде не было доказано, что она является именно линейной, а не какой-либо иной.

Метод наименьших квадратов

Как уже было показано выше, достоверность отличия коэффициента корреляции от нуля еще не означает подтверждения гипотезы о линейности между измеряемыми величинами. Вопрос о том, с какой вероятностью мы ошибаемся, утверждая о существовании линейной связи между случайными величинами, требует специального рассмотрения.

Предположим, что ищется линейная зависимость между величинами x и y, для чего было произведено N пар равноточных измерений с результатами xi , yi . Для простоты допустим, что погрешность измерения x мала по сравнению с погрешностью измерения y

так, что ею можно пренебречь и считать значения xi известными точно.

Проверяется

гипотеза о наличии линейной связи y ax b , причем величины невязок i

yi axi

b

обусловлены только случайными ошибками измерений без систематических сдвигов.

 

Если величины невязок i

распределены нормально (или i для

каждого

xi

являются средним арифметическим достаточно большого количества измерений yi

для

выполнения ЦПТ) с нулевым средним и среднеквадратичным отклонением i , то

функция правдоподобия (вероятность наблюдения именно той линейки результатов измерений, которые были получены в эксперименте) равна

 

 

1

 

 

12

 

 

1

 

 

 

22

 

 

1

 

 

N2

 

 

 

 

2

 

 

 

 

 

2

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L

 

 

 

e 2 1

 

 

 

 

 

e 2

2

...

 

 

 

e 2 N

, или

 

 

 

 

 

 

 

 

 

 

2 1

2

2

 

2 N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

1

N

yi axi b 2

 

 

ln L N ln

2 ln i

 

 

 

2

2

 

 

i 1

i 1

i

 

 

 

 

В соответствии с принципом максимального правдоподобия в качестве оценок параметров линейной зависимости берутся такие значения a и b, которые максимизируют функцию правдоподобия L или ее логарифм.

Рис. 8. Совместное распределение коэффициента IQ родителей и их детей (цитируется по Кимбл Г. Как правильно пользоваться статистикой. – М.: Финансы и статистика, 1982).

В случае, если среднеквадратичные отклонения i невязок известны, для этого необходимо найти минимум выражения

 

N

y

ax b 2

 

 

 

2

 

 

i

i

 

i 1

 

i

как функции двух аргументов a и b. В простейшем случае, когда i , т.е. одинаковы для каждой пары измерений, задача сводится как нахождению минимума функции

N

S a,b yi axi b 2

i 1

Метод оценивания параметров a и b линейной зависимости путем нахождения минимума выражения S a,b называется методом наименьших квадратов. При его

применении важно помнить, что в его основу положено несколько предположений, совершенно необязательно выполняющихся. И если приблизительную нормальность невязок обеспечивает ЦПТ, то равенство среднеквадратичных отклонений (приборная и случайная погрешности) невязок для каждой пары измерений следует проверять отдельно.

Если среднеквадратичные отклонения невязок для разных пар измерений известны, но не равны друг другу, то необходимо воспользоваться более общим выражением для . Если среднеквадратичные отклонения невязок равны друг другу, но неизвестны, то необходимо напрямую воспользоваться принципом максимального правдоподобия и максимизировать выражение для ln L как функции трех аргументов: a, b и .

В последнем случае нетрудно получить следующие выражения для оценок:

a

xy

x

 

y

, b y a x , 2

N

 

y2

 

y

2

a2 x2

x

2

 

 

 

 

 

 

 

 

x2

 

x

2

 

 

 

 

 

 

N 2

 

 

 

 

 

 

 

 

Поскольку метод максимального правдоподобия дает смещенные состоятельные оценки, последнее выражение было получено умножением соответствующей оценки на N N 2 .

Можно показать, что дисперсии оценок параметров линейной зависимости как функций случайных аргументов даются следующими выражениями:

 

 

1

 

y2

 

y 2

 

 

 

 

2

 

 

 

 

 

 

a2

, 2

2

x2 .

 

 

 

x 2

a

 

N 2

 

x2

 

 

b

a

 

 

 

 

 

 

 

 

 

 

 

 

При использовании этих выражений важно помнить, что по ним можно вычислить лишь среднеквадратичные отклонения параметров линейной зависимости, тогда как целью является получение их погрешностей a и b – полуширин интервалов, в которые те попадают с вероятностью 1 , где – заданная доверительная вероятность (например, 0,05). Для этого следует вычисленные среднеквадратичные отклонения умножить на коэффициент Стьюдента t , N 1 :

a t , N 1 a , b t , N 1 b

Гипотеза о линейности данных

Гипотезу о том, что корреляцию величин x и y можно объяснить линейной связью с параметрами a и b, можно проверить, вычислив ранее упоминавшуюся статистику

 

 

N

y

ax b 2

 

 

 

 

2

 

 

 

i

i

 

 

i 1

 

i

Поскольку величины невязок по предположению распределены нормально, то

распределена как 2

с N 2 степенями свободы.

Решения домашних задач

 

Задача

 

 

6.7.

 

Положительный результат теста возникает с шансом

 

10 2

 

 

 

10 3

 

10 2 . Тогда по формуле условной вероятности вероятность того,

10 3 1

 

 

1

 

что Энакин обладает способностями джедая при условии положительного результата теста, равна

 

P A и B

 

 

 

 

 

10 3 1 10 2

 

 

 

 

 

 

99

 

P A | B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9%

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

B

 

10

3

10

2

10

3

10

2 1098

 

 

1

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, несмотря на положительный результат теста, вероятность ошибиться, признав Энакина джедаем, равна 91%. Таково решение этой задачи, приводимое в большинстве сборников задач по теории вероятностей.

Тем не менее, это решение использовало неявное предположение, на которое обычно не обращают внимания. А именно, предполагалось, что вероятности ошибок теста среди джедаев и среди обычных людей, т.е. вероятности ошибок первого и второго рода, одинаковы. В общем случае нужно рассмотреть все четыре возможных исхода: наличие и отсутствие джедайских способностей S+ и S–, положительный и отрицательный результат тестирования T+ и T– и все возможные их попарные комбинации.

 

S+

S-

 

 

 

T+

a

b

 

 

 

T-

c

d

 

 

 

По условию нужно найти величину P S | T

P S T

 

 

a

, причем известно,

P T

 

a b

 

 

 

 

что:

a b c d 1a c p 10 3b c q 10 2

Если вероятности ошибок первого и второго рода равны, то четвертым уравнением в

системе будет

c

 

b

и тогда

P S | T

p 1 q

 

 

 

99

, т.е. прежний

a c

b d

p 1 q 1

p q

1098

результат. В общем же случае данных задачи недостаточно для ее решения.