Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

учебный год 2023 / Макет практического пособия 2011-1

.pdf
Скачиваний:
10
Добавлен:
16.12.2022
Размер:
643.02 Кб
Скачать

Полученный график называется полигоном частот, а многоугольник, который ограничен графиком, осью абсцисс и прямыми х = Х1 и х = Xm называется эмпирическим многоугольником распределения.

Если количество элементов выборки слишком велико то в этом случае закон распределения задается интервальным рядом. Для того, чтобы построить интервальный закон распределения необходимо:

1)найти минимальное и максимальное значение параметра выборки;

2)затем разделить отрезок от Хмин до Хмакс на равные интервалы так, чтобы в каждый интервал попало хотя бы одно значение признака;

3)подсчитать количество значений признака, попавших каждый в интервал, причем, если какое-то значение признака попадает на границу интервала, то абсолютную частоту данного значения напополам относят к левому и к правому интервалу;

4)составить интервальный ряд.

Гистограмма – это изображение интервального ряда графически. w = ni / n - высота строящегося прямоугольника.

Числовые характеристики выборки.

Выборочная средняя: Eв = (х1 + х2 + ... + хn ) / n (среднее арифметическое) Выборочная дисперсия:

Dв = ((х1 Eв )2 + (х2 Eв )2 + ... + (хn Eв )2 ) / n или

Dв = Eв ( X 2 ) − (Eв ( X ))2 = (х12 + х22 + ... + хn2 ) / n − ((х1 + х2 + ... + хn ) / n)2

Примеры решений задач.

1.При проведении контроля качества среди 1000 случайно отобранных деталей оказалось 5 бракованных. Сколько бракованных деталей следует ожидать

среди 25 000 деталей?

Решение.

Вероятность того, что произведенная деталь бракованная : P = 5/1000 = 0,005. Следует ожидать такую частоту и в дальнейшем, поэтому среди 25 000 деталей окажется около 25 000 * 0,005 = 125 бракованных.

2.В таблице приведены ежегодные значения денежной массы и национального дохода в млрд. денежных единиц некоторой страны. Найти коэффициент корреляции между этими показателями (в программе Excel).

Год

Денежная

Национальный

 

масса

доход

 

 

 

1994

2,0

5,0

1995

2,5

5,5

1996

3,2

6,0

1997

3,6

7,0

1998

3,3

7,2

1999

4,0

7,7

2000

4,2

8,4

2001

4,6

9,0

2002

4,8

9,7

2003

5,0

10,0

 

 

 

Решение.

Пусть X – денежная масса, Y национальный доход

21

ρв ( X , Y ) = Eв ( XY ) − Eв ( X )Eв (Y )

Dв ( X ) Dв (Y )

Eв (Y ) = (5+5,5+6+7+7,2+7,7+8,4+9+9,7+10)/10=7,55

Eв ( X ) = 3, 72

Eв ( XY ) = (2 5 + 2, 5 5, 5 + ... + 5 10) ÷ 10 = 29, 595 Eв ( X 2 ) = 14, 718

Eв (Y 2 ) = 59, 703

Dв ( X ) = Eв ( X 2 ) − (Eв ( X ))2 = 0, 93787

Dв (Y ) = Eв (Y 2 ) − (Eв (Y ))2 = 1, 643

ρв ( X , Y ) = 0, 979094

Вычислим эти значения в программе Excel двумя способами: по формулам приведенным выше и по статистическим формулам, встроенным в Excel.

Задачи для самостоятельного решения.

1.Из озера выловили 86 рыб, которых пометили и отпустили обратно в озеро. Через неделю произвели повторный отлов – на этот раз поймали 78 рыб, среди которых оказалось 6 помеченных. Сколько приблизительно рыб живет в озере?

2.Население города N составляет около 400 000 жителей. Сколько жителей города N родилось 29 февраля?

22

3. В коробке 100 шаров белого и черного цвета. Из нее 60 раз вынули шар, возвращая его каждый раз обратно. При этом белый шар появился в 18 случаях. Сколько белых шаров в коробке?

4. Определить коэффициент корреляции между успеваемостью и посещаемостью студентами занятий. Если X – количество занятий, посещенных студентами, Y

– количество сданных в срок зачетов и экзаменов.

X

80

70

60

50

Y

9

7

6

4

5. Используя Excel, по формуле найти коэффициент корреляции между случайными величинами, представленными выборками: a) X3 и X5, б) X4 и X5, c) X1 и X2, d) X4 и X3.Проверить результат, воспользовавшись функцией КОРРЕЛ из категории статистические.

 

X1

X2

X3

X4

X5

X6

год

Число

Число

Заболеваемос

Убийства

иЧисл

Число

 

зарегистриро-

краж

ть

покушения

о

преступлений,

 

ванных

 

алкоголизмом

на убийство

ДТП

совершенных

 

преступлений

 

и

 

 

в состоянии

 

 

 

алкогольным

 

 

алкогольного

 

 

 

психозом

 

 

опьянения

2003

2755,7

1367,9

229,7

31,7

167,3

650,3

2004

2625,1

1207,5

204,6

29,4

160,5

637

2005

2397,3

1054

173,2

29,3

156,5

508,9

2006

2581,9

1143,4

161,6

29,6

160,3

485,2

2007

3001,7

1413,4

156,7

31,1

159,8

488,1

2008

2952,4

1310,1

188,7

31,8

157,6

442,7

2009

2968,3

1273,2

202

33,6

164,4

408,1

2010

2526,3

926,8

221,3

32,3

184,4

325,6

6.Используя Excel, по формуле найти коэффициент корреляции между случайными величинами: курсом доллара США и ЕВРО.

Проверить результат, воспользовавшись функцией КОРРЕЛ из категории статистические.

Дата

USD

EUR

15/07/2011

28,0610

39,8214

14/07/2011

28,2557

39,5919

13/07/2011

28,3842

39,5051

12/07/2011

28,0839

39,8033

11/07/2011

27,8880

40,0193

10/07/2011

27,8880

40,0193

09/07/2011

27,8880

40,0193

15/07/2011

28,0610

39,8214

14/07/2011

28,2557

39,5919

Контрольные вопросы:

1.Что такое генеральная совокупность?

2.Что такое выборка?

23

3.При каких условиях выборка будет репрезентативной?

4.Что такое эмпирический закон распределения?

5.Какие числовые характеристики выборки?

24

 

 

 

 

 

 

 

 

 

 

 

6. Числовые характеристики выборки

 

 

 

 

1

 

n

 

 

 

 

 

=

xi

- математическое ожидание, среднее выборочное (среднее

x

 

 

 

 

 

 

 

n i =1

 

 

 

арифметическое),

 

 

 

 

 

1

n

 

 

 

σ x2

=

(xi

-

 

)2 - дисперсия, среднее квадратичное отклонение,

x

 

 

 

 

 

 

 

 

n i =1

 

 

 

σ x

 

 

 

 

- стандартное отклонение,

=

 

 

σ x2

cov( X ,Y ) = 1 n (xi - x) × ( yi - y) = xy - x × y - ковариация, n i=1

ρ( X ,Y ) = cov(X ,Y ) - коэффициент корреляции.

σx ×σ y

Регрессия. Аппроксимация. Метод наименьших квадратов.

Регрессия – это зависимость среднего значения случайной величины от какой-либо другой случайной величины или нескольких величин.

Пусть X и Y – случайные величины.

Если Y = f(X), где X – независимая переменная, а Y – зависимая, то величины X и Y связаны строгой функциональной зависимостью.

Если же такой строгой зависимости нет, то можно подобрать такую функцию f(X,β), где β – некоторый параметр, которая наилучшим образом описывает зависимость X

и Y.

Такая замена одних объектов другими, близкими к исходным, называется аппроксимацией. В данном случае функция f(X,β) аппроксимирует зависимость между X и Y, является так называемым приближением к f(X).

Стандартный метод оценки регрессии основан на использовании полиномиальной

модели (n³1): Y = f(X,β) = β0+β1X+β2X2+…+ βnXn, где β = (β0,β1,β2,…, βn).

Это уравнение называется уравнением регрессии, соответствующий график – линией регрессии, β0,β1,β2,…, βn – коэффициентами регрессии величины Y по X, а переменная Х – регрессором.

Коэффициент корреляции ρ(X,Y) служит мерой зависимости, которой соответствует линейная регрессия (n=1): f(X,β)=β0+β1X, или, в более привычном виде: f(X,β)=aX+b, где b=β0, a=β1. Если коэффициент корреляции близок к 1 или -1, то линейная регрессия дает наилучший результат.

Регрессионная зависимость между случайными величинами исследуется по статистическим данным. При этом решаются три основные задачи:

1)выбор модели регрессии, что включает в себя предположение о зависимости функции регрессии от X и β, и выбор этой функции;

2)оценка параметров в выбранной модели методом наименьших квадратов;

3)проверка статистических гипотез, т.е. проверка результатов путем вычисления ошибок аппроксимации.

Все эти задачи решаются в разделе математической статистики, называемом

регрессионный анализ.

Метод наименьших квадратов (МНК) - статистический метод оценки неизвестных величин по результатам измерений, наблюдений, т.е. статистических данных, содержащих случайные ошибки.

С помощью МНК решается задача аппроксимации набора значений случайных величин X и Y линейной функцией Y = f(X,β)=aX+b.

25

Задача состоит в оценке (подборе) коэффициентов a и b таким образом, чтобы минимизировать квадратичное отклонение функции f(X,β) = aX+b от случайной величины Y:

n

F (x) = ( yi - (axi + b))2 , где xi , yi - значения случайных величин X и Y

i =1

соответственно.

Оценки коэффициентов по методу наименьших квадратов вычисляются по формулам:

= xy - x × y

a , b = y ax . x2 - x 2

Для вычисления коэффициентов регрессии можно использовать программу MS Excel, статистическую функцию ЛИНЕЙН().

Подставив коэффициенты a и b в уравнение, можно вычислить значения Y для любых значений Х, построить соответствующий полученному уравнению график – линию регрессии (на диаграмме MS Excel - линию тренда).

Можно также вычислять прогнозные значения случайной величины Y для новых значений случайной величины X, используя функции ПРЕДСКАЗ() и ТЕНДЕНЦИЯ(). Существуют различные оценки качества полученного уравнения регрессии. Одной из таких оценок, например, является средняя относительная ошибка аппроксимации, вычисляемая по формуле:

 

 

 

1

n

 

- (axi + b)

 

 

 

 

=

 

yi

 

×100% .

A

 

 

 

yi

 

 

 

n i =1

 

 

Максимально

допустимой средней относительной ошибкой аппроксимации

считается 8-10%. Абсолютные ошибки вычисляются как разность yi - (axi + b) .

В MS Excel есть возможность вычислить и поместить на диаграмму величину достоверности аппроксимации R2. Эта величина может принимать значения от 0 до 1 и называется квадратом смешанной корреляции, который при хорошей аппроксимации близок к 1.

Лабораторная работа №1.

Выполнить задание и сохранить результаты в папку "Мои документы". Дать файлу имя ЛП-Фамилии студентов, например: Л1-ИвановПетров.xls

 

 

Национальный

Год

Денежная масса

доход

1994

2,0

5,0

1995

2,5

5,5

1996

3,2

6,0

1997

3,6

7,0

1998

3,3

7,2

1999

4,0

7,7

2000

4,2

8,4

2001

4,6

9,0

2002

4,8

9,7

2003

5,0

10,0

Всего:

254,9

8328,4

26

Коэффициент корреляции ρ =0,979094337

Если коэффициент корреляции близок к 1, то зависимость между случайными величинами близка к линейной.

В этом случае можно аппроксимировать эту зависимость при помощи линейной функции y = ax+b.

Для построения графика этой функции необходимо вычислить коэффициенты a и b.

Сначала научимся строить диаграмму, показывающую зависимость двух рядов данных друг от друга:

Отсортировать данные в таблице по возрастанию по столбцу "Денежная масса":

Выделить таблицу и выбрать команду Данные-Сортировка, установить сортировку по указанному столбцу.

Построение графика зависимости денежной массы от национального дохода.

1)Выделить в таблице столбцы "Денежная масса" и "Национальный доход" вместе с заголовками

2)Выбрать команду Вставка-Диаграмма

3)В Мастере диаграмм:(шаг 1) Выбрать тип диаграммы "Точечная" , (шаг 2) ряды данных - в столбцах, (шаг 3) легенда - внизу, заголовоки: название диаграммы -"Линейная зависимость", (шаг 4) - на

имеющемся листе.

4)Щелкнуть на точках диаграммы правой кнопкой мыши, Формат рядов данных: линия - обычная.

Построение графика линейного приближения:

1) Построить таблицу:

a

b

 

 

2)Выделить пустые ячейки этой таблицы и выбрать команду: Вставка-Функция

3)В группе "Статистические" выбрать функцию ЛИНЕЙН(), во втором шаге указать:

Известные значения у - из столбца "Национальный доход",

Известные значения х - из столбца "Денежная масса",

закончить команду не щелчком на кнопке "ОК", а нажатием комбинации клавиш Ctrl-Shift-Enter

4) Добавить в таблицу столбец: ax+b, значения вычислить по формуле, приняв за х соответству

27

значение денежной массы из той же строки таблицы, например: =$A$58*B46+$B$58

 

X

Y

ax+b

(y-(ax+b))/y

 

 

 

 

Относительная

 

 

Национальный

Линейное

ошибка

Год

Денежная масса

доход

приближение

аппроксимации

1994

2,0

5,0

4,599249659

0,080150068

1995

2,5

5,5

5,457025921

 

1996

3,2

6,0

6,657912688

 

1998

3,3

7,2

6,82946794

 

1997

3,6

7,0

7,344133697

 

1999

4,0

7,7

8,030354707

 

2000

4,2

8,4

8,373465211

 

2001

4,6

9,0

9,059686221

 

2002

4,8

9,7

9,402796726

 

2003

5,0

10,0

9,745907231

 

 

 

 

 

 

a

b

 

 

 

1,715553

1,168144611

 

 

 

5) Щелкнуть правой кнопкой мыши на области диаграммы, выбрать Исходные данные, добавить ряд "ax+b",

Имя: "Линейное приближение", Х - выделить значения из столбца "Денежная масса", Y - выделить значения

из столбца "ax+b", после добавления ряда щелкнуть на точках диаграммы правой кнопкой, выбрать "формат ряда данных", добавить линию, соединяющую точки.

Построить линию тренда - линейное приближение.

1)Щелкнуть правой кнопкой на линии ряда "Национальный доход" на диаграмме.

2)Выбрать "Добавить линию тренда", Тип - линейный, ОК. Убедиться, что две последних линии совпал

28

Вычислить среднюю относительную ошибку аппроксимации по формуле:

 

 

 

1

n

 

- (axi + b)

 

 

 

 

=

 

yi

 

×100%

A

 

 

 

yi

 

 

 

n i=1

 

 

1)Добавить в таблицу столбец для вычисления относительной ошибки аппроксимации в каждой точке (y-(ax+b))/y.

2)В каждую ячейку этого столбца записать соответствующую формулу, используя столбцы Y и

ax+b.

3)Под этим столбцом записать формулу для вычисления средней относительной ошибки.

4)Записать полученный результат: Ā = ______________________ Превышает ли полученное значение 10%? ________

29

Лабораторная работа №2.

Выполнить задание и сохранить результаты в папку "Мои документы".

Дать файлу имя по фамилии студентов, например: Л2-ИвановПетров.xls

Наберем таблицу в MS Excel и вычислим сумму по столбцам Y1,Y2.

 

X

 

Y1

Y2

 

 

Численность населения с

 

 

 

доходами

ниже

Число краж

Год

 

прожиточного минимума

 

 

 

 

 

 

2004

 

32,3

1207,5

 

2005

 

30,3

1054

 

2006

 

34

1143,4

 

2007

 

41,2

1413,4

 

2008

 

41,9

1310,1

 

2009

 

39,4

1273,2

 

2010

 

35,8

926,8

Вычислим среднее выборочное значение каждой случайной величины

E(Y1)=СРЗНАЧ($B$7:$B$13)

E(Y2)=СРЗНАЧ($C$7:$C$13)

икоэффициент корреляции этих случайных величин:

ρ(Y1,Y2)=КОРРЕЛ(B7:B13;C7:C13)

Построим графики случайных величин Y1,Y2 и убедимся, что они похожи. Используем команду Вставка-Диаграмма, Тип - график, ряд данных - столбец Y1,

30