Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

теория вероятностей

.pdf
Скачиваний:
199
Добавлен:
11.05.2015
Размер:
3.26 Mб
Скачать

91

Коэффициент rS по абсолютной величине ограничен единицей: rS 1

и принимает значения ±1 в случаях полной предсказуемости одной ранговой последовательности по другой. Проверка значимости коэффициента корреляции Спирмена проводится с помощью той же статистики, что и для коэффициента корреляции Пирсона (табл. 7.1).

По данным примера 1 (табл. 7.2) рассчитаем коэффициент корреляции Спирмена. Последовательностям значений xi и yi будет соответствовать

последовательность рангов (табл. 7.3). Отметим, что одинаковым значениям признака Y присвоен одинаковый (средний) ранг.

Таблица 7.3

Ранговые последовательности примера 1

i

1

2

3

4

5

6

7

8

9

10

ri

1

2

3

4

5

6

7

8

9

10

si

9

10

7.5

7.5

5.5

4

3

5.5

2

1

di

–8

–8

–4.5

–3.5

–0.5

2

4

2.5

7

9

В

последней строке

таблицы

указана разность рангов

di = ri

si , i =1, 2, ...,10.

 

 

 

Величина S равна

 

 

 

 

10

 

 

 

 

S = di2 = (8)

2 +(8)

2 +(4.5)

2 +(3.5)2 +(0.5)2 +

i=1

+ 22 + 42 + 2.52 +72 +92 = 64 +64 + 20.25 +

+12.25 +0.25 + 4 +16 +6.25 + 49 +81 = 317.

Коэффициент корреляции Спирмена рассчитаем по формуле (7.3) при

n =10 :

r =1

6 317

=1 1902 = −0.9.

 

S

103 10

999

 

Значение коэффициента корреляции Спирмена близко к –1, поэтому между признаками X и Y есть сильная отрицательная корреляционная связь. Этот результат согласуется с результатом применения коэффициента корреляции Пирсона.

7.4. Регрессионые модели

Предположим, что нам необходимо описать в виде некоторой функции взаимосвязь двух переменных X и Y (X — фактор, независимая переменная; Y

— отклик, зависимая переменная): Y = f ( X ). По результатам наблюдений

(x1, y1), (x2 , y2 ), ..., (xn , yn ) y

92

мы можем оценить эту зависимость приближенно (в силу воздействия неучтенных факторов, случайных причин, ошибок измерения): y = f (x) +ε, где ε — случайная переменная, называемая возмущением. Предполагается, что среднее значение возмущения равно нулю: M (ε) = 0. При этом для каждого значения X = x мы имеем случайную переменную Y со средним значением (математическим ожиданием) f (x). Функция f (x) называется функцией

регрессии случайной переменной Y на X, а график этой функции — линией регрессии. Уравнение регрессии позволяет определить, каким в среднем будет значение отклика Y при том или ином значении фактора X.

Форма регрессионной зависимости (вид функции f (x) ) определяется по диаграмме рассеяния, которую получают, нанося экспериментальные точки

на координатную плоскость (рис. 7.1).

y

x

x

 

 

 

б

а

 

 

Рис. 7.1. Диаграмма рассеяния при линейной (а) и квадратичной (б) зависимости переменных X и Y

По диаграмме рассеяния подбирают некоторую гладкую кривую таким образом, чтобы она располагалась как можно «ближе» к экспериментальным точкам. Часто в качестве такой кривой выбирают прямую линию (рис. 7.1, а)

y = b

+b x

или многочлен (рис. 7.1, б)

y = b

+b x +b x2.

0

1

 

0

1

2

Пусть

по диаграмме рассеяния

выбран

вид зависимости

y = f (x; b0 , b1, ..., bk ). Неизвестные коэффициенты b0 , b1, ..., bk этой модели подбираются по методу наименьших квадратов. Согласно этому методу сумма квадратов отклонений экспериментальных значений yi , i =1, 2, ..., n от модельных f (xi ; b0 , b1, ..., bk ) должна быть минимальной:

n

 

Q( b0 ,...,bk ) = (yi f ( xi ; b0 ,...,bk ))2 min .

(7.4)

i=1

93

7.5. Уравнение линейной регрессии

Пусть по диаграмме рассеяния на основе выборки (x1, y1), (x2 , y2 ), ..., (xn , yn ) определена форма зависимости X и Y в виде

прямой линии: y = b0 +b1x . Оценки коэффициентов b0 иb1, найденные методом наименьших квадратов из условия (7.4), имеют вид:

ˆ

= XY

sY

 

 

b1

 

;

(7.5)

sX

ˆ

ˆ

 

(7.6)

b0

= y b1x ,

 

где x, y — средние значения переменных X и Y, рассчитанные по выборке; s2X , sY2 — несмещенные оценки дисперсий X и Y;

XY — оценка коэффициента корреляции Пирсона.

Коэффициент b1 в уравнении линейной регрессии характеризует влияние, которое оказывает изменение X на изменение Y. Поэтому оценка b1 используется для расчета выборочного коэффициента эластичности

ˆ

ˆ

 

x

 

Ý =b1

 

 

.

(7.7)

y

Напомним, что коэффициент эластичности Э показывает, на сколько процентов в среднем изменится значение отклика Y при изменении фактора X

на 1 %.

Пример 1. Предположим, что нас интересует выручка от продажи баночного пива в магазинах города в течение дня. При исследовании 20 магазинов получены следующие данные (табл. 7.4). Построить регрессионную модель зависимости выручки магазина от числа посетителей.

 

 

Данные примера 1

 

Таблица 7.4

 

 

 

 

 

 

 

 

 

 

 

Число

Выручка

 

Число

Выручка

п/п

посетителей

(у.е.)

п/п

 

посетителей

(у.е.)

1

907

11.20

11

 

679

7.63

2

926

11.05

12

 

872

9.43

3

506

6.84

13

 

924

9.46

4

741

9.21

14

 

607

7.64

5

789

9.42

15

 

452

6.92

6

889

10.08

16

 

729

8.95

7

874

9.45

17

 

794

9.33

8

510

6.73

18

 

844

10.23

9

529

7.24

19

 

1010

11.77

10

420

6.12

20

 

621

7.41

94

Решение. Факторной переменной в данной задаче является X — число посетителей магазина; откликом Y — выручка магазина. Построим диаграмму рассеяния по имеющимся данным (рис. 7.2).

Y

14.00

12.00

10.00

8.00

6.00

4.00

2.00

0.00

 

 

 

 

 

 

 

 

 

 

X

0

100

200

300

400

500

600

700

800

900

1000

Рис. 7.2. Диаграмма рассеяния для данных примера 1

По виду диаграммы есть основания предполагать линейную зависимость выручки от числа посетителей магазина.

Для расчета коэффициентов регрессии по формулам (7.5), (7.6) найдем средние значения

 

 

 

 

 

 

 

1

 

20

 

 

 

 

 

x =

 

 

 

xi = 731.15;

 

 

 

 

 

 

 

 

 

 

 

 

 

20 i =1

 

 

 

 

 

 

 

 

1

20

 

 

 

 

 

y =

 

 

yi =8.806,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20 i =1

 

несмещенные оценки дисперсий

20

 

 

 

 

1

 

 

 

 

 

s2X =

 

 

 

(xi x)2 = 32348;

 

 

 

 

 

 

 

 

 

 

 

20 1 i=1

 

 

 

1

 

20

 

 

sY2 =

 

 

 

 

( yi y)2 = 2.703

 

 

 

 

 

 

 

 

 

 

20 1 i=1

 

и оценку коэффициента корреляции Пирсона

 

 

 

 

1

 

20

 

 

 

 

 

 

 

 

xi yi x y

 

ˆXY =

20

 

0.955.

 

=

 

 

 

 

=

 

 

 

 

 

i 1

 

r

 

 

 

 

 

 

 

 

 

 

 

 

sX sY

Близость коэффициента корреляции к единице свидетельствует о тесной положительной связи между выручкой магазина и числом посетителей.

 

 

 

95

 

По формуле (5.5)

ˆ

= 0.955

32348

= 0.999,

b

 

 

1

 

2.703

 

 

 

 

 

 

ˆ

=8.806 0.999 731.15

= 2.423.

по формуле (5.6) b0

 

Таким образом, уравнение регрессии Y на X имеет вид

 

 

 

y = 2.423+0.009x

(7.8)

ˆ

Коэффициент

b1

характеризует наклон

линии регрессии и значение

= 0.009 показывает,

что при увеличении X на единицу ожидаемое значе-

b1

ние Y возрастает на 0.009. Регрессионная модель (7.8) указывает на то, что каждый новый посетитель магазина увеличивает дневную выручку на 0.009 у.е.; или можно сказать, что ожидаемый прирост ежедневной выручки составит примерно 9 у.е. при привлечении в магазин 100 дополнительных покупа-

телей. Отсюда b1 может интерпретироваться как прирост ежедневной выручки, который меняется в зависимости от числа посетителей магазина.

Свободный член b0 в уравнении (7.8) — это значение Y при X = 0. Поскольку маловероятно число посетителей магазина, равное нулю, то можно рассматривать b0 как меру влияния на величину ежедневной выручки других

факторов, не включенных в уравнение регрессии. Это влияние можно оценить и с помощью коэффициента детерминации.

Коэффициент детерминации B = XY2 для линейной модели характеризует долю объясняемого моделью разброса экспериментальных данных. В

нашем примере B = 0.9552 = 0.912, следовательно, модель (7.8) учитывает

91.2 % изменения выручки магазина. Только 8.8 % разброса объясняются факторами, не включенными в уравнение регрессии.

Коэффициент эластичности для модели (7.8) вычисляем по формуле

(7.7):

ˆ

 

731.15

 

Ý = 0.009

 

 

= 0.747,

8.806

т.е. при увеличении среднего числа посетителей магазина на 1 % ежедневная выручка в среднем возрастает на 0.7 %.

7.6. Линейная регрессия и прогноз

Регрессионная модель может быть использована в задачах прогнозирования. Например, мы хотим использовать модель (7.8) для предсказания средней ежедневной выручки магазина, который посетит 600 покупателей. Подставив

значение

x = 600 в уравнение (7.8), получим предполагаемое среднее значе-

ние Y:

y(600) = 2.423 +0.009 600 = 7.661 — прогнозируемая средняя

дневная выручка для магазина с 600 посетителями равна 7.661 у.е. Насколько

96

можно доверять этому утверждению? Для ответа на этот вопрос нужно построить доверительный интервал для найденной точечной оценки.

Стандартная ошибка оценки для уравнения регрессии рассчитывается по формуле

 

1

n

(yi ( b0 +b1xi ))2

 

sε =

(7.9)

 

 

n 2 i=1

 

 

и характеризует отклонение фактических данных от линии регрессии. Доверительный интервал для неизвестного генерального среднего Y при

фиксированном значении X = x имеет вид

(y( x ) têð sε h( x ); y( x ) +têð sε h( x ))

(7.10)

где y(x) = b0 +b1x — среднее значение Y, рассчитанное по уравнению регрессии;

tкр = t(n 2; α) — двусторонняя критическая точка распределения Стью-

дента с числом степеней свободы k = n 2 и уровнем значимости α =1 γ.

h( x ) =

1

+

( x x )2 .

(7.11)

 

n

 

nsx2

 

Из формул (7.10), (7.11) видно, что ширина доверительного интервала зависит от заданного значения x: чем ближе x к x , тем уже доверительный интервал (рис. 7.3).

Рис. 7.3. Доверительный интервал для прямой регрессии

Ширина интервала зависит также от объема выборки n и заданной доверительной вероятности γ.

Рассчитаем 95 % доверительный интервал для среднего значения дневной выручки во всех магазинах с числом посетителей, равным 600. По уравнению регрессии получена оценка y(600) = 7.661.

97

Критическую точку tкр находим по таблице распределения Стьюдента

(приложение 3) с числом степеней свободы k = n 2 = 20 2 =18 и уровнем

значимости

α =1 γ =1 0.95 = 0.05

(двусторонняя

область)

tкр = t(18; 0.05) = 2.1.

 

 

Стандартную ошибку рассчитываем по формуле (7.9): sε = 0.501.

При x = 600, x = 731.15 и s2X = 32348 вычисляем h(x) по формуле

(7.11):

h(600) =

1

+

(600 731.15)

2

= 0.077.

 

 

 

20

20 32348

 

 

 

 

 

Теперь рассчитываем границы доверительного интервала:

y(600) +tкр sε h(600) = 7.661 +0.291 = 7.952,

y(600) tкр sε h(600) = 7.661 0.291 = 7.37.

Следовательно, 95 %-ный доверительный интервал для уравнения регрессии при X = 600 имеет вид (7.37; 7.952) — с вероятностью 0.95 мы ут-

верждаем, что средняя дневная выручка для всех магазинов с 600 посетителями находится между 7.37 и 7.952 у.е.

Доверительный интервал для индивидуальных значений Y =Y (x) будет

шире, чем доверительный интервал для средних значений; его границы рассчитываются по формуле

(y( x ) têð sε 1+h( x ); y( x ) +têð sε 1+h( x )),

(7.12)

где y(x) = b0 +b1x — среднее значение Y, рассчитанное по уравнению рег-

рессии при данном x;

tкр = t(n 2; α) — двусторонняя критическая точка распределения

Стьюдента;

h(x) — рассчитывается по формуле (7.11).

Построим 95 %-ный доверительный интервал для оценки дневной выручки отдельного магазина с 600 покупателями. Правая граница интервала равна

y(600) +tкр Sε 1 + h(x) = 7.661 +1.093 =8.754,

левая его граница

y(600) tкр sε 1 +h(x) = 7.6611.093 = 6.568.

Следовательно, с 95 %-ной надежностью можно утверждать, что ежедневная выручка отдельного магазина, который посетили 600 покупателей, находится в пределах от 6.568 до 8.754 у.е.

98

8.КОНТРОЛЬНЫЕ РАБОТЫ

8.1.Контрольная работа № 1

Контрольная работа № 1 содержит пять задач по темам 1, 2, 3 разделов настоящего пособия. Номер варианта соответствует последней цифре номера зачетной книжки.

Задача 1. Тема: «Пространство элементарных событий»

Образуют ли данные события полную группу событий пространства элементарных событий описанного эксперимента; если два, то являются ли равновозможными; если нет — являются ли несовместными?

Вариант 1

Эксперимент — бросание двух правильных монет; событие A — «выпало два герба», событие B — «выпало две решки».

Вариант 2

Эксперимент — бросание двух правильных монет; событие A — «выпало два герба», событие B — «выпало две решки»; событие C — «выпал один герб и одна решка».

Вариант 3

Эксперимент — бросание двух правильных монет; событие A — «герб на первой монете», событие B — «герб на второй монете».

Вариант 4

Эксперимент — бросание игрального кубика; событие A — «выпало одно или два очка», событие B — «выпало два или три очка»; событие C — «выпало три или четыре очка»; событие D — «четыре или пять очков»; событие E

— «пять или шесть очков».

Вариант 5

Эксперимент — передача трех сообщений по каналу связи; событие A — «все три сообщения переданы без ошибок», событие B — «все три — с ошибками»; событие C — «два с ошибками, одно без ошибок».

99

Вариант 6

Эксперимент — передача трех сообщений по каналу связи; событие A — «первое сообщение передано с ошибкой», событие B — «второе сообщение передано с ошибкой»; событие C — «третье сообщение передано с ошибкой»

Вариант 7

Эксперимент — извлечение наугад одной карты из колоды игральных карт; событие A — «извлечена карта червонной масти», событие B — «бубновой масти»; событие C — «трефовой масти»; событие D — «пиковой масти».

Вариант 8

Эксперимент — извлечение наугад двух карт из колоды игральных карт; событие A — «обе карты черной масти», событие B — «среди извлеченных карт есть дама»; событие C — «есть туз».

Вариант 9

Эксперимент — два выстрела по цели; событие A — «ни одного попадания»; событие B — «ровно одно попадание»; событие C — «ровно два попадания».

Вариант 10

Эксперимент — из букв слова «плюс» последовательно без возвращения выбираются две буквы; событие A — «выбрана пара согласных», событие B — «выбрана пара гласных»; событие C — «выбрана одна согласная и одна гласная».

Задача 2. Тема: «Свойства вероятностей»

Вариант 1

В фирме 550 работников, 380 из них имеют высшее образование, 412 — среднее специальное образование, у 357 — высшее и среднее специальное образование. Чему равна вероятность того, случайно выбранный работник не имеет ни высшего, ни среднего специального образования?

100

Вариант 2

Вероятность того, что потребитель увидит рекламу определенного продукта по одному из трех телевизионных каналов, равна 0.05. Предполагается, что эти события независимы в совокупности. Чему равна вероятность того, что потребитель увидит рекламу а) по всем трем каналам; б) хотя бы по одному из этих каналов?

Вариант 3

Модельер, разрабатывающий новую коллекцию одежды к весеннему сезону, создает модели в белой, черной и красной цветовой гамме. Вероятность того, что белый цвет будет в моде весной, модельер оценивает в 0.3, черный — в 0.2, а вероятность того, что будет моден красный цвет — в 0.15. Предполагая, что цвета выбираются независимо друг от друга, оцените вероятность того, что цветовое решение коллекции будет удачным хотя бы по одному из выбранных цветов.

Вариант 4

Компания, занимающаяся строительством терминалов для аэропортов, надеется получить контракт в стране A с вероятностью 0.4, вероятность заключить контракт в стране B равна 0.3. Вероятность того, что контракты будут заключены и в стране A, и в стране B, равна 0.12. Чему равна вероятность того, что компания получит контракт хотя бы в одной стране?

Вариант 5

Город имеет три независимых резервных источника электроэнергии для использования в случае аварийного отключения постоянного источника электроэнергии. Вероятность того, что любой из трех резервных источников будет доступен при отключении постоянного источника, составляет 0.8. Какова вероятность того, что не произойдет аварийного отключения электроэнергии, если выйдет из строя постоянный источник?

Вариант 6

Покупатель может приобрести акции двух компаний A и B. Надежность компании A оценивается экспертами с вероятностью 0.9, надежность компании B — 0.8. Чему равна вероятность того, что а) обе компании не станут банкротами; б) наступит хотя бы одно банкротство?