Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
44
Добавлен:
04.03.2016
Размер:
1.47 Mб
Скачать

параметрами определяется нормальное распределение? Каков их вероятностный смысл?

2.Начертите нормальную кривую. Каков геометрический смысл параметров нормального распределения? Как влияет изменение математического ожидания и среднего квадратического отклонения на форму нормальной кривой?

3.Как вычислить вероятность попадания в заданный интервал значений нормально распределенной случайной величины?

4.В чем заключается правило «трех сигм»? Как найти диапазон изменения значений нормально распределенной случайной величины?

Решение типовой задачи Задача. Для коров холмогорской породы удой за лактацию – случайная ве-

личина, распределенная по нормальному закону с математическим ожиданием а = 3200 кг и средним квадратическим отклонением =300 кг. Каков процент животных, удои которых за лактацию заключены в пределах от 3000 кг до 3500 кг? В каком диапазоне на-

блюдаются удои?

Решение.

Найдем вероятность, с которой случайная величина (удой за лактацию) принимает значение в интервале (3000; 3500). Для этого воспользуемся формулой, позволяющей вычислить вероятность попадания нормально распреде-

ленной случайной величины в заданный интервал (

;

):

 

 

P(

X

)

Ф(

a

) Ф(

 

 

a

).

 

 

 

 

 

 

 

 

 

У нас a=3200,

=300,

=3000,

=3500.

 

 

 

 

 

 

Таким образом,

 

 

 

 

 

 

 

 

 

 

 

 

 

P(3000

X 3500)

Ф(

3500 3200

) Ф(

3000

3200

)

 

 

 

 

 

 

 

300

 

 

 

 

300

 

 

Ф(1)

Ф(

0,66)

Ф(1) Ф(0,66)

 

 

 

 

0,3413 0,2454 0,5867 0,59 ,

т. е. 59% коров будут иметь удои в пределах от 3000 кг до 3500 кг.

Правило «трех сигм» позволяет утверждать следующее: практически достоверно, что значения любой нормально распределенной случайной величины X расположены в интервале (а – З , а + З ). В нашей задаче a – 3= 3200 – 900= 2300; а + З= 3200 + 900=4100.

Таким образом, для коров данной породы удои за лактацию будут колебаться от 2300 кг до 4100 кг.

21

Тема VI. Простейшие приемы обработки выборочных данных и оценка параметров распределения

Литература: [4], гл. XV, § 1 – 6, 8, задачи 2, 3; гл. XVI, § 1 – 10, 13 – 16, зада-

чи 1 – 4.

Первичная статистическая информация представляет собой ряд значений, записанных в той последовательности, в которой они были получены.

Чтобы придать этой информации обозримую и удобную для изучения форму, используют ряды распределения и их графическое изображение – полигон и гистограмму. Важнейшей числовой характеристикой распределения является среднее значение.

Свойство животных или растений отличаться друг от друга даже в однородной совокупности (на одной ферме или на одном поле) принято называть изменчивостью (варьированием). Изменчивость признака характеризуют дисперсия и среднее квадратическое отклонение.

Коэффициент вариации позволяет сравнивать изменчивость признаков, выражаемых в разных единицах измерения (например, высоты и массы). Обычно его выражают в процентах. Изменчивость считается значительной, если коэффициент вариации больше 20%, средней, если коэффициент вариации больше 10%, но меньше 20%, и незначительной, если коэффициент вариации меньше 10%. Выборочные характеристики позволяют делать оценки генеральных параметров по данным обследования выборки.

В этой теме необходимо усвоить:

1)методику группировки выборочных данных и представления их в виде ряда распределения;

2)графическое представление ряда распределения;

3)методику вычисления основных выборочных характеристик;

4)методику оценивания генеральной средней с помощью доверительного интервала.

Вопросы для самопроверки

1.Поясните на примерах понятия генеральной совокупности и выборки.

2.Приведите примеры варьирующих признаков (случайных величин) и вариант выборки.

3.Что такое вариационный ряд распределения? Как определяется относительная частота варианты?

4.Как строится гистограмма относительных частот распределения? Чему равна ее площадь?

5.Перечислите основные выборочные характеристики. Как они вычисляются?

6.Что характеризуют дисперсия и среднее квадратическое отклонение?

7.Для каких целей используется коэффициент вариации?

8.Что характеризует ошибка средней S x ?

9.Что понимают под доверительным интервалом для оценки генеральной

22

средней x Г ? Как найти доверительный интервал при заданной надежности (доверительной вероятности) ?

10.Как изменится величина доверительного интервала, если увеличить надежность ?

11.Что понимают под представительностью (репрезентативностью) выборки? Как достигается представительность выборки при отборе?

12.Как вычислить выборочную среднюю и дисперсию в случае сгруппированных данных?

13.Были установлены следующие показатели высоты в холке (см): для те-

_

лят x =60, = 3; для молодых коров х = 100, = 5. Отличаются ли они по степени изменчивости?

14. Промеры глубины груди симментальского скота (n=168) дали сле-

_

S _ =0,17 см. Каков будет доверитель-

дующие результаты: x = 73,8 см;

 

x

 

_

 

 

ный интервал для x Г с надежностью

0,9 ?

Решение типовой задачи Задача. Из крупного стада коров произведена случайная выборка, получено

20 вариант удоя коров за 300 дней лактации (в ц): 35,9; 35,3; 42,7; 45,2; 25,9; 35,3; 33,4; 27,0; 35,9; 38,8; 33,7; 38,6; 40,9; 35,5; 44,1; 37,4; 34,2; 30,8; 38,4; 31,3.

Требуется:

1.получить вариационный ряд и построить гистограмму относительных частот;

_

2. найти основные выборочные характеристики: x , s2 , s, V, s_ ;

x

3. с надежностью 95% указать доверительный интервал для оценки

_

генеральной средней x Г .

Решение.

1.Запишем исходные данные в виде ранжированного ряда, т. е. располагая их в порядке возрастания:

25,9; 27,0; 30,8; 31,3; 33,4; 33,7; 34,2; 35,3; 35,3; 35,5; 35,9; 35,9;

37,4; 38,4; 38,6; 38,8; 40,9; 42,7; 44,1; 46,2.

Максимальное значение признака составляет 46,2 ц, а минимальное – 25,9 ц. Разница между ними составляет 20,3 ц. Этот интервал надо разбить на определенное количество классов. При малом объеме выборки (20 – 40 вариант) намечают 5 – 6 классов. Возьмем длину классового интервала xi 5 .

Получаем пять интервалов: первый 25 – 30, второй 30 – 35, третий 35 – 40, четвертый 40 – 45, пятый 45 – 50 (начало первого класса не обязательно должно совпадать со значением минимальной варианты).

С помощью ранжированного ряда определим частоту попадания вариант выборки в каждый интервал. В первый интервал попадет два значения

23

(25,9 и 27,0), поэтому m1 = 2. Во второй интервал попадают пять значений, поэтому m2 = 5. Аналогично m3 =9, m4 =3, m5 =1.

Теперь найдем относительные частоты попадания вариант выборки в каждый интервал:

 

m1

 

2

 

0,1

(в первый интервал);

1

 

n

20

 

 

 

 

 

 

m2

 

 

5

 

0,25

(во второй интервал);

2

 

n

20

 

 

 

 

 

 

m3

 

 

9

 

0,45

(в третий интервал);

3

 

n

20

 

 

 

 

 

 

m4

 

 

3

 

0,15

(в четвертый интервал);

4

 

n

20

 

 

 

 

 

 

m5

 

 

1

 

0,05

(в пятый интервал);

5

 

n

20

 

 

 

 

Для проверки вычисляем сумму относительных частот:

1

2

3

4

5

0,1

0,25

0,45

0,15

0,05

1.

 

 

 

 

 

 

Тот факт, что в сумме получили единицу, подтверждает правильность вычислений. По формуле:

P1/ xi1

вычислим плотности P1/ относительных частот вариант. Получаем:

P1/

P2/

P3/

P4/

P5/

1

0,1

 

0,02

(для первого интервала);

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

5

 

 

 

 

2

0,25

0,05

(для второго интервала);

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2

5

 

 

 

3

 

 

0,45

 

0,09

(для третьего интервала);

x3

5

 

 

 

 

4

0,15

 

0,03

(для четвертого интервала);

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x4

5

 

 

 

5

 

 

0,05

0,01

(для пятого интервала).

x5

5

 

 

 

 

Полученные результаты сведем в таблицу.

Таблица 5

Интервал значений удоя

25 – 30

30 – 35

35 – 40

40 – 45

45 – 50

(ц)

 

 

 

 

 

Частоты вариант mi

2

5

9

3

1

 

 

 

 

 

 

Относительные частоты

0,10

0,25

0,45

0,15

0,05

i

 

 

 

 

 

 

 

 

 

 

 

Плотность относитель-

0,02

0,05

0,09

0,03

0,01

ных частот P /

 

 

 

 

 

1

 

 

 

 

 

24

Pi'

0,1

0,09

0,08

0,07

0,06

0,05

0,04

0,03

0,02

0,01

0

25-30

30-35

35-40

40-45

45-50 xi

Рисунок 4

Строим гистограмму относительных частот – ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются классовые интервалы, а высотами – соответствующие значения плотностей относительных частот P1/ , Классовые интервалы изображают на оси абсцисс, а значения P1/ откладывают на оси ординат.

Для нашего примера гистограмма относительных частот изображена на рисунке 4.

2) Основные выборочные характеристики вычисляются по формулам:

 

 

 

__

 

 

1 n

– выборочная средняя;

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

xi

 

 

 

 

 

 

 

 

 

n i

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

n

 

_

 

 

 

 

 

 

s2

 

 

 

 

 

 

 

 

(x

x)2 – дисперсия;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

1 i 1

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

s2

– среднее квадратическое отклонение;

 

 

 

 

 

 

S __

 

 

s

– ошибка средней;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

V

 

s

100% – коэффициент вариации;

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Расчеты x и s2

удобно проводить с помощью таблицы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 6

№ п/п

Результат обследования xi

 

_

 

_

2

 

xi x

 

(xi x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

2

 

 

 

 

 

 

 

 

 

 

 

3

 

4

 

1

 

 

35,9

 

 

 

 

 

 

 

 

 

 

 

-0,1

 

0,01

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

35,3

 

 

 

 

 

 

 

 

 

 

 

-0,7

 

0,49

 

3

 

 

42,7

 

 

 

 

 

 

 

 

 

 

 

6,7

 

44,89

4

 

 

45,2

 

 

 

 

 

 

 

 

 

 

 

9,2

 

84,64

5

 

 

25,9

 

 

 

 

 

 

 

 

 

 

 

-10,1

 

102,01

6

 

 

33,4

 

 

 

 

 

 

 

 

 

 

 

-0,7

 

0,40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

25

7

27,0

 

-2,6

 

6,76

8

27,0

 

-9,0

 

81,00

9

35,9

 

-0,1

 

0,01

10

38,8

 

2,8

 

7,84

11

33,7

 

-2,3

 

5,29

 

 

 

 

 

 

12

38,6

 

2,6

 

 

6,76

 

 

 

 

 

 

3

40,9

 

4,9

 

 

24,01

14

35,5

 

-0,5

 

 

0,25

15

44,1

 

8,1

 

 

65,61

16

37,4

 

1,4

 

 

1,86

 

 

 

 

 

 

17

34,2

 

-1,8

 

 

3,24

 

 

 

 

 

 

18

30,8

 

-5,2

 

 

27,04

 

 

 

 

 

 

19

38,4

 

2,4

 

 

5,76

20

31,3

 

-4,7

 

 

22,09

 

720,3

 

0

 

 

490,05

 

 

 

 

 

 

Просуммировав варианты

xi занесем сумму

xi в нижнюю строку

таблицы под соответствующим столбцом. Разделив эту сумму на 20, получим

_

x 36,015 36,0.

Теперь заполняем следующий столбец таблицы, в который записываем

 

_

разности

xi x . Для контроля можно вычислить сумму всех таких разностей.

Если разности вычислены правильно, то их сумма равна нулю.

Затем возводим эти разности в квадрат и заполняем последний столбец

 

_

 

 

таблицы. Вычислив сумму (x

x)2 490,05

и разделив ее на n – 1 = 20 – 1 =

i

 

 

 

 

19, получим значение дисперсии

 

 

 

 

s2

490,05

25,79.

 

 

19

 

 

 

Извлекая с помощью таблиц или микрокалькулятора квадратный корень из величины s2 , находим:

 

 

 

 

s = 5,08,

 

затем ошибку средней:

 

 

 

 

 

 

 

S

 

5,08

5,08

1,34.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

20

4,47

 

 

 

Вычисляем коэффициент вариации

V5,08 100% 14%.

36

Поскольку 10% < V < 20%, то изменчивость удоев за 300 дней следует считать средней.

3) Доверительный интервал для оценки генеральной средней определяется как

x tSx xГ x tSx ,

26

где величина t при заданной надежности определяется с помощью таб-

лиц приложения 2.

В нашем примере: t t( ; n) t(0,95;20) 2,10.

Вычисляем теперь радиус доверительного интервала: t sx 2,101,34 2,8.

Таким образом, с надежностью 95% можно утверждать, что во всем стаде средний удой за 300 дней (генеральная средняя) заключен в пределах

 

 

_

 

 

 

 

от

x

t s

 

36 2,8 33,2 ц (гарантированный

минимум) до

x

_

 

 

 

 

 

 

x t s

 

36

2,8

33,2 ц (возможный максимум).

 

x

 

Тема VII. Корреляция и регрессия

Литература: [4], гл. XVIII, § 1 – 9, задачи 1, 2.

В некоторых исследованиях важно установить, изменяются ли два признака (случайные величины) независимо друг от друга, или же изменение одного из них каким-то образом связано с изменением другого. На сам факт такой связи (или на ее отсутствие) указывает значение коэффициента корреляции.

Уравнение регрессии позволяет предсказать, какие изменения (в среднем) будет претерпевать второй признак при изменении первого признака. Понятия коэффициента корреляции и коэффициента регрессии играют важную роль в совместном изучении двух случайных величин, поэтому необходимо усвоить методику их вычисления.

Вопросы для самопроверки

1.Что понимают под корреляционной зависимостью? Чем она отличается от функциональной зависимости?

2.Что собой представляет корреляционная таблица (корреляционная решетка)? В каких случаях целесообразно ее составление?

3.Что такое корреляционное поле?

4.Сформулируйте две основные задачи корреляционного анализа.

5.Что характеризует коэффициент корреляции? Какие значения он может принимать?

6.Что можно сказать о связи между двумя случайными величинами, если коэффициент корреляции равен нулю? равен единице?

7.Какая разница между положительной и отрицательной корреляцией?

8.Как получают эмпирическую линию регрессии?

9.Какую форму имеет линия регрессии в случае линейной корреляцион-

ной зависимости?

10.Запишите уравнение прямой регрессии. Как можно построить эту прямую?

11.Что характеризует коэффициент регрессии?

12.При изучении зависимости между живым весом коров-первотелок и их удоями за нормированную лактацию был вычислен коэффициент рег-

27

рессии by / x 6,9 . Какого увеличения удоев в среднем можно ожидать при увеличении веса коров-первотелок на 10 кг?

Решение типовой задачи Задача. Для 10 петушков леггорнов 15-дневного возраста были получены следующие данные о весе их тела X (г) и весе гребня У (мг):

xi

83

72

69

90

90

95

95

91

75

70

yi

56

42

18

84

56

107

90

68

31

48

Требуется:

1.найти коэффициент корреляции и сделать вывод о тесноте и направлении линейной корреляционной связи между признаками;

2.составить уравнение прямой регрессии;

3.нанести на чертеж исходные данные и построить полученную прямую регрессии.

Решение.

1) В случае малых выборок расчет коэффициента корреляции можно проводить по формуле:

 

 

_

 

 

_

 

 

 

r

 

(xi x)( yi

 

y)

 

 

.

 

 

 

 

 

 

 

 

_

 

 

 

 

_

 

 

 

 

 

 

 

 

 

 

(x x)2

( y

i

y)2

 

 

i

 

 

 

 

Промежуточные вычисления удобно располагать в виде таблицы.

Таблица 7

№ наблю-

 

 

 

x x

 

(x x)2

 

 

y y

( y y)2

(x x) ( y

 

y)

 

 

 

 

 

 

_

 

 

_

 

 

 

 

_

 

_

 

_

 

_

дения

xi

yi

 

i

 

 

 

 

i

 

 

i

 

 

i

 

i

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

83

56

 

 

0

 

 

 

0

 

 

-4

 

 

16

 

0

 

 

2

72

42

 

-11

 

 

121

 

 

-18

324

 

198

 

 

3

69

18

 

-14

 

 

186

 

 

-42

1764

 

588

 

 

4

90

84

 

 

7

 

 

 

49

 

 

24

 

576

 

168

 

 

5

90

56

 

 

7

 

 

 

49

 

 

-4

 

 

16

 

-28

 

 

6

95

107

 

12

 

 

 

144

 

 

47

 

2209

 

564

 

 

7

95

90

 

12

 

 

 

144

 

 

30

 

900

 

360

 

 

8

91

68

 

 

8

 

 

 

64

 

 

 

8

 

 

64

 

64

 

 

9

75

31

 

 

-8

 

 

 

64

 

 

-29

841

 

232

 

 

10

70

48

 

-13

 

 

169

 

 

-12

144

 

156

 

 

 

830

600

 

 

0

 

 

 

990

 

 

 

0

 

6854

 

2302

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычисляем среднее:

 

 

 

830

 

600

 

 

 

 

 

 

 

 

 

 

 

 

 

 

_

 

_

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

83, y

 

 

 

60

 

 

 

 

 

 

 

 

 

 

 

 

10

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

28

Теперь заполняем последние пять столбцов таблицы. Суммируя эле-

менты в соответствующих столбцах, находим:

 

 

 

 

 

 

 

 

 

_

 

 

 

 

 

 

 

 

 

 

(x

x)2

 

990,

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

_

 

 

 

 

 

 

 

 

 

 

 

( y

i

y)2

 

6854,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

_

 

 

 

 

_

 

 

 

 

 

 

 

(x

x)2

( y

i

 

y)2

2302.

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

Подставляя вычисленные значения в выражения для r, получаем

 

 

 

r

 

2302

 

0,88.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

990 6854

 

 

 

 

Вывод: между весом тела X и весом гребня Y у 15-дневных петушков сущест-

вует тесная положительная линейная корреляционная связь.

 

2) Коэффициент регрессии by / x

определяем по формуле

 

 

 

 

 

 

 

 

 

_

_

 

 

 

 

 

 

by / x

 

(xi

 

x)(yi

y)

.

 

 

 

 

 

 

 

 

 

 

_

 

 

 

 

 

 

 

 

 

 

(x

i

x)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Используя данные из таблицы, получим:

 

 

 

 

 

 

by / x

 

2302

2,32

 

 

 

 

 

 

 

990

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Подставляя теперь в уравнение прямой регрессии:

 

 

 

 

 

 

_

 

 

 

 

_

 

 

 

 

 

 

y

y

by / x (x

x)

 

 

 

 

_

_

 

 

 

 

 

 

 

 

 

 

 

найденные значения

x ,

y

и by / x , имеем:

 

 

 

 

 

 

 

 

 

y 60 2,32(x 83).

 

 

 

Последнее уравнение преобразуем к виду

 

 

 

 

 

 

y

2,32x

132,56

 

 

 

y 120

 

 

 

 

 

 

 

 

 

 

 

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

 

80

 

 

 

 

 

 

 

 

 

 

 

 

 

60

 

 

 

 

 

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

40

50

60

 

 

 

 

70

 

80

90

100

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

Рисунок 5.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

29

3) Нанесем исходные данные на координатную плоскость и построим найденную прямую регрессии (рисунок 5).

Для того чтобы провести прямую в системе координат, достаточно

иметь две точки. У нас она из них – точка M1 с координатами

_

_

x

83, y 60.

Координаты второй точки M 2 определим, подставив в уравнение регрессии

y=0 и вычислив x

132,56

57.

 

 

 

 

 

 

2,32

 

 

 

 

 

 

Отметим что полученная математическая модель (уравнение прямой регрессии) обладает прогнозирующими свойствами лишь при изменении переменной x от 69 до 95. Так, например, можно с достаточной степенью достоверности считать, что при весе 80 г все его гребня составит

y 2,3280 132,56 53мг.

30