![](/user_photo/19115_OVnlY.jpg)
учебный год 2023 / Макет практического пособия 2011-1
.pdfПолученный график называется полигоном частот, а многоугольник, который ограничен графиком, осью абсцисс и прямыми х = Х1 и х = Xm называется эмпирическим многоугольником распределения.
Если количество элементов выборки слишком велико то в этом случае закон распределения задается интервальным рядом. Для того, чтобы построить интервальный закон распределения необходимо:
1)найти минимальное и максимальное значение параметра выборки;
2)затем разделить отрезок от Хмин до Хмакс на равные интервалы так, чтобы в каждый интервал попало хотя бы одно значение признака;
3)подсчитать количество значений признака, попавших каждый в интервал, причем, если какое-то значение признака попадает на границу интервала, то абсолютную частоту данного значения напополам относят к левому и к правому интервалу;
4)составить интервальный ряд.
Гистограмма – это изображение интервального ряда графически. w = ni / n - высота строящегося прямоугольника.
Числовые характеристики выборки.
Выборочная средняя: Eв = (х1 + х2 + ... + хn ) / n (среднее арифметическое) Выборочная дисперсия:
Dв = ((х1 − Eв )2 + (х2 − Eв )2 + ... + (хn − Eв )2 ) / n или
Dв = Eв ( X 2 ) − (Eв ( X ))2 = (х12 + х22 + ... + хn2 ) / n − ((х1 + х2 + ... + хn ) / n)2
Примеры решений задач.
1.При проведении контроля качества среди 1000 случайно отобранных деталей оказалось 5 бракованных. Сколько бракованных деталей следует ожидать
среди 25 000 деталей?
Решение.
Вероятность того, что произведенная деталь бракованная : P = 5/1000 = 0,005. Следует ожидать такую частоту и в дальнейшем, поэтому среди 25 000 деталей окажется около 25 000 * 0,005 = 125 бракованных.
2.В таблице приведены ежегодные значения денежной массы и национального дохода в млрд. денежных единиц некоторой страны. Найти коэффициент корреляции между этими показателями (в программе Excel).
Год |
Денежная |
Национальный |
|
масса |
доход |
|
|
|
1994 |
2,0 |
5,0 |
1995 |
2,5 |
5,5 |
1996 |
3,2 |
6,0 |
1997 |
3,6 |
7,0 |
1998 |
3,3 |
7,2 |
1999 |
4,0 |
7,7 |
2000 |
4,2 |
8,4 |
2001 |
4,6 |
9,0 |
2002 |
4,8 |
9,7 |
2003 |
5,0 |
10,0 |
|
|
|
Решение.
Пусть X – денежная масса, Y национальный доход
21
![](/html/19115/102/html_2yrC1MltZB.tOg1/htmlconvd-MDj6kJ22x1.jpg)
ρв ( X , Y ) = Eв ( XY ) − Eв ( X )Eв (Y )
Dв ( X ) Dв (Y )
Eв (Y ) = (5+5,5+6+7+7,2+7,7+8,4+9+9,7+10)/10=7,55
Eв ( X ) = 3, 72
Eв ( XY ) = (2 5 + 2, 5 5, 5 + ... + 5 10) ÷ 10 = 29, 595 Eв ( X 2 ) = 14, 718
Eв (Y 2 ) = 59, 703
Dв ( X ) =
Eв ( X 2 ) − (Eв ( X ))2 = 0, 93787
Dв (Y ) =
Eв (Y 2 ) − (Eв (Y ))2 = 1, 643
ρв ( X , Y ) = 0, 979094
Вычислим эти значения в программе Excel двумя способами: по формулам приведенным выше и по статистическим формулам, встроенным в Excel.
Задачи для самостоятельного решения.
1.Из озера выловили 86 рыб, которых пометили и отпустили обратно в озеро. Через неделю произвели повторный отлов – на этот раз поймали 78 рыб, среди которых оказалось 6 помеченных. Сколько приблизительно рыб живет в озере?
2.Население города N составляет около 400 000 жителей. Сколько жителей города N родилось 29 февраля?
22
3. В коробке 100 шаров белого и черного цвета. Из нее 60 раз вынули шар, возвращая его каждый раз обратно. При этом белый шар появился в 18 случаях. Сколько белых шаров в коробке?
4. Определить коэффициент корреляции между успеваемостью и посещаемостью студентами занятий. Если X – количество занятий, посещенных студентами, Y
– количество сданных в срок зачетов и экзаменов.
X |
80 |
70 |
60 |
50 |
Y |
9 |
7 |
6 |
4 |
5. Используя Excel, по формуле найти коэффициент корреляции между случайными величинами, представленными выборками: a) X3 и X5, б) X4 и X5, c) X1 и X2, d) X4 и X3.Проверить результат, воспользовавшись функцией КОРРЕЛ из категории статистические.
|
X1 |
X2 |
X3 |
X4 |
X5 |
X6 |
год |
Число |
Число |
Заболеваемос |
Убийства |
иЧисл |
Число |
|
зарегистриро- |
краж |
ть |
покушения |
о |
преступлений, |
|
ванных |
|
алкоголизмом |
на убийство |
ДТП |
совершенных |
|
преступлений |
|
и |
|
|
в состоянии |
|
|
|
алкогольным |
|
|
алкогольного |
|
|
|
психозом |
|
|
опьянения |
2003 |
2755,7 |
1367,9 |
229,7 |
31,7 |
167,3 |
650,3 |
2004 |
2625,1 |
1207,5 |
204,6 |
29,4 |
160,5 |
637 |
2005 |
2397,3 |
1054 |
173,2 |
29,3 |
156,5 |
508,9 |
2006 |
2581,9 |
1143,4 |
161,6 |
29,6 |
160,3 |
485,2 |
2007 |
3001,7 |
1413,4 |
156,7 |
31,1 |
159,8 |
488,1 |
2008 |
2952,4 |
1310,1 |
188,7 |
31,8 |
157,6 |
442,7 |
2009 |
2968,3 |
1273,2 |
202 |
33,6 |
164,4 |
408,1 |
2010 |
2526,3 |
926,8 |
221,3 |
32,3 |
184,4 |
325,6 |
6.Используя Excel, по формуле найти коэффициент корреляции между случайными величинами: курсом доллара США и ЕВРО.
Проверить результат, воспользовавшись функцией КОРРЕЛ из категории статистические.
Дата |
USD |
EUR |
15/07/2011 |
28,0610 |
39,8214 |
14/07/2011 |
28,2557 |
39,5919 |
13/07/2011 |
28,3842 |
39,5051 |
12/07/2011 |
28,0839 |
39,8033 |
11/07/2011 |
27,8880 |
40,0193 |
10/07/2011 |
27,8880 |
40,0193 |
09/07/2011 |
27,8880 |
40,0193 |
15/07/2011 |
28,0610 |
39,8214 |
14/07/2011 |
28,2557 |
39,5919 |
Контрольные вопросы:
1.Что такое генеральная совокупность?
2.Что такое выборка?
23
3.При каких условиях выборка будет репрезентативной?
4.Что такое эмпирический закон распределения?
5.Какие числовые характеристики выборки?
24
![](/html/19115/102/html_2yrC1MltZB.tOg1/htmlconvd-MDj6kJ25x1.jpg)
|
|
|
|
|
|
|
|
|
|
|
6. Числовые характеристики выборки |
||
|
|
|
|
1 |
|
n |
|
|
|
||||
|
|
= |
∑ xi |
- математическое ожидание, среднее выборочное (среднее |
|||||||||
x |
|||||||||||||
|
|
|
|||||||||||
|
|
|
|
n i =1 |
|
|
|
||||||
арифметическое), |
|||||||||||||
|
|
|
|
|
1 |
n |
|
|
|
||||
σ x2 |
= |
∑(xi |
- |
|
)2 - дисперсия, среднее квадратичное отклонение, |
||||||||
x |
|||||||||||||
|
|
||||||||||||
|
|
|
|
|
|
n i =1 |
|
|
|
||||
σ x |
|
|
|
|
- стандартное отклонение, |
||||||||
= |
|
|
σ x2 |
cov( X ,Y ) = 1 ∑n (xi - x) × ( yi - y) = xy - x × y - ковариация, n i=1
ρ( X ,Y ) = cov(X ,Y ) - коэффициент корреляции.
σx ×σ y
Регрессия. Аппроксимация. Метод наименьших квадратов.
Регрессия – это зависимость среднего значения случайной величины от какой-либо другой случайной величины или нескольких величин.
Пусть X и Y – случайные величины.
Если Y = f(X), где X – независимая переменная, а Y – зависимая, то величины X и Y связаны строгой функциональной зависимостью.
Если же такой строгой зависимости нет, то можно подобрать такую функцию f(X,β), где β – некоторый параметр, которая наилучшим образом описывает зависимость X
и Y.
Такая замена одних объектов другими, близкими к исходным, называется аппроксимацией. В данном случае функция f(X,β) аппроксимирует зависимость между X и Y, является так называемым приближением к f(X).
Стандартный метод оценки регрессии основан на использовании полиномиальной
модели (n³1): Y = f(X,β) = β0+β1X+β2X2+…+ βnXn, где β = (β0,β1,β2,…, βn).
Это уравнение называется уравнением регрессии, соответствующий график – линией регрессии, β0,β1,β2,…, βn – коэффициентами регрессии величины Y по X, а переменная Х – регрессором.
Коэффициент корреляции ρ(X,Y) служит мерой зависимости, которой соответствует линейная регрессия (n=1): f(X,β)=β0+β1X, или, в более привычном виде: f(X,β)=aX+b, где b=β0, a=β1. Если коэффициент корреляции близок к 1 или -1, то линейная регрессия дает наилучший результат.
Регрессионная зависимость между случайными величинами исследуется по статистическим данным. При этом решаются три основные задачи:
1)выбор модели регрессии, что включает в себя предположение о зависимости функции регрессии от X и β, и выбор этой функции;
2)оценка параметров в выбранной модели методом наименьших квадратов;
3)проверка статистических гипотез, т.е. проверка результатов путем вычисления ошибок аппроксимации.
Все эти задачи решаются в разделе математической статистики, называемом
регрессионный анализ.
Метод наименьших квадратов (МНК) - статистический метод оценки неизвестных величин по результатам измерений, наблюдений, т.е. статистических данных, содержащих случайные ошибки.
С помощью МНК решается задача аппроксимации набора значений случайных величин X и Y линейной функцией Y = f(X,β)=aX+b.
25
![](/html/19115/102/html_2yrC1MltZB.tOg1/htmlconvd-MDj6kJ26x1.jpg)
Задача состоит в оценке (подборе) коэффициентов a и b таким образом, чтобы минимизировать квадратичное отклонение функции f(X,β) = aX+b от случайной величины Y:
n
F (x) = ∑( yi - (axi + b))2 , где xi , yi - значения случайных величин X и Y
i =1
соответственно.
Оценки коэффициентов по методу наименьших квадратов вычисляются по формулам:
= xy - x × y
a , b = y − ax . x2 - x 2
Для вычисления коэффициентов регрессии можно использовать программу MS Excel, статистическую функцию ЛИНЕЙН().
Подставив коэффициенты a и b в уравнение, можно вычислить значения Y для любых значений Х, построить соответствующий полученному уравнению график – линию регрессии (на диаграмме MS Excel - линию тренда).
Можно также вычислять прогнозные значения случайной величины Y для новых значений случайной величины X, используя функции ПРЕДСКАЗ() и ТЕНДЕНЦИЯ(). Существуют различные оценки качества полученного уравнения регрессии. Одной из таких оценок, например, является средняя относительная ошибка аппроксимации, вычисляемая по формуле:
|
|
|
1 |
n |
|
- (axi + b) |
|
|
||
|
|
= |
∑ |
|
yi |
|
×100% . |
|||
A |
||||||||||
|
|
|
yi |
|||||||
|
|
|
n i =1 |
|
|
|||||
Максимально |
допустимой средней относительной ошибкой аппроксимации |
считается 8-10%. Абсолютные ошибки вычисляются как разность yi - (axi + b) .
В MS Excel есть возможность вычислить и поместить на диаграмму величину достоверности аппроксимации R2. Эта величина может принимать значения от 0 до 1 и называется квадратом смешанной корреляции, который при хорошей аппроксимации близок к 1.
Лабораторная работа №1.
Выполнить задание и сохранить результаты в папку "Мои документы". Дать файлу имя ЛП-Фамилии студентов, например: Л1-ИвановПетров.xls
|
|
Национальный |
Год |
Денежная масса |
доход |
1994 |
2,0 |
5,0 |
1995 |
2,5 |
5,5 |
1996 |
3,2 |
6,0 |
1997 |
3,6 |
7,0 |
1998 |
3,3 |
7,2 |
1999 |
4,0 |
7,7 |
2000 |
4,2 |
8,4 |
2001 |
4,6 |
9,0 |
2002 |
4,8 |
9,7 |
2003 |
5,0 |
10,0 |
Всего: |
254,9 |
8328,4 |
26
![](/html/19115/102/html_2yrC1MltZB.tOg1/htmlconvd-MDj6kJ27x1.jpg)
Коэффициент корреляции ρ =0,979094337
Если коэффициент корреляции близок к 1, то зависимость между случайными величинами близка к линейной.
В этом случае можно аппроксимировать эту зависимость при помощи линейной функции y = ax+b.
Для построения графика этой функции необходимо вычислить коэффициенты a и b.
Сначала научимся строить диаграмму, показывающую зависимость двух рядов данных друг от друга:
Отсортировать данные в таблице по возрастанию по столбцу "Денежная масса":
Выделить таблицу и выбрать команду Данные-Сортировка, установить сортировку по указанному столбцу.
Построение графика зависимости денежной массы от национального дохода.
1)Выделить в таблице столбцы "Денежная масса" и "Национальный доход" вместе с заголовками
2)Выбрать команду Вставка-Диаграмма
3)В Мастере диаграмм:(шаг 1) Выбрать тип диаграммы "Точечная" , (шаг 2) ряды данных - в столбцах, (шаг 3) легенда - внизу, заголовоки: название диаграммы -"Линейная зависимость", (шаг 4) - на
имеющемся листе.
4)Щелкнуть на точках диаграммы правой кнопкой мыши, Формат рядов данных: линия - обычная.
Построение графика линейного приближения:
1) Построить таблицу:
a |
b |
|
|
2)Выделить пустые ячейки этой таблицы и выбрать команду: Вставка-Функция
3)В группе "Статистические" выбрать функцию ЛИНЕЙН(), во втором шаге указать:
Известные значения у - из столбца "Национальный доход",
Известные значения х - из столбца "Денежная масса",
закончить команду не щелчком на кнопке "ОК", а нажатием комбинации клавиш Ctrl-Shift-Enter
4) Добавить в таблицу столбец: ax+b, значения вычислить по формуле, приняв за х соответству
27
![](/html/19115/102/html_2yrC1MltZB.tOg1/htmlconvd-MDj6kJ28x1.jpg)
значение денежной массы из той же строки таблицы, например: =$A$58*B46+$B$58
|
X |
Y |
ax+b |
(y-(ax+b))/y |
|
|
|
|
Относительная |
|
|
Национальный |
Линейное |
ошибка |
Год |
Денежная масса |
доход |
приближение |
аппроксимации |
1994 |
2,0 |
5,0 |
4,599249659 |
0,080150068 |
1995 |
2,5 |
5,5 |
5,457025921 |
|
1996 |
3,2 |
6,0 |
6,657912688 |
|
1998 |
3,3 |
7,2 |
6,82946794 |
|
1997 |
3,6 |
7,0 |
7,344133697 |
|
1999 |
4,0 |
7,7 |
8,030354707 |
|
2000 |
4,2 |
8,4 |
8,373465211 |
|
2001 |
4,6 |
9,0 |
9,059686221 |
|
2002 |
4,8 |
9,7 |
9,402796726 |
|
2003 |
5,0 |
10,0 |
9,745907231 |
|
|
|
|
|
|
a |
b |
|
|
|
1,715553 |
1,168144611 |
|
|
|
5) Щелкнуть правой кнопкой мыши на области диаграммы, выбрать Исходные данные, добавить ряд "ax+b",
Имя: "Линейное приближение", Х - выделить значения из столбца "Денежная масса", Y - выделить значения
из столбца "ax+b", после добавления ряда щелкнуть на точках диаграммы правой кнопкой, выбрать "формат ряда данных", добавить линию, соединяющую точки.
Построить линию тренда - линейное приближение.
1)Щелкнуть правой кнопкой на линии ряда "Национальный доход" на диаграмме.
2)Выбрать "Добавить линию тренда", Тип - линейный, ОК. Убедиться, что две последних линии совпал
28
![](/html/19115/102/html_2yrC1MltZB.tOg1/htmlconvd-MDj6kJ29x1.jpg)
Вычислить среднюю относительную ошибку аппроксимации по формуле:
|
|
|
1 |
n |
|
- (axi + b) |
|
|
||
|
|
= |
∑ |
|
yi |
|
×100% |
|||
A |
||||||||||
|
|
|
yi |
|||||||
|
|
|
n i=1 |
|
|
1)Добавить в таблицу столбец для вычисления относительной ошибки аппроксимации в каждой точке (y-(ax+b))/y.
2)В каждую ячейку этого столбца записать соответствующую формулу, используя столбцы Y и
ax+b.
3)Под этим столбцом записать формулу для вычисления средней относительной ошибки.
4)Записать полученный результат: Ā = ______________________ Превышает ли полученное значение 10%? ________
29
![](/html/19115/102/html_2yrC1MltZB.tOg1/htmlconvd-MDj6kJ30x1.jpg)
Лабораторная работа №2.
Выполнить задание и сохранить результаты в папку "Мои документы".
Дать файлу имя по фамилии студентов, например: Л2-ИвановПетров.xls
Наберем таблицу в MS Excel и вычислим сумму по столбцам Y1,Y2.
|
X |
|
Y1 |
Y2 |
|
|
Численность населения с |
|
|
|
|
доходами |
ниже |
Число краж |
Год |
|
прожиточного минимума |
|
|
|
|
|
|
|
|
2004 |
|
32,3 |
1207,5 |
|
2005 |
|
30,3 |
1054 |
|
2006 |
|
34 |
1143,4 |
|
2007 |
|
41,2 |
1413,4 |
|
2008 |
|
41,9 |
1310,1 |
|
2009 |
|
39,4 |
1273,2 |
|
2010 |
|
35,8 |
926,8 |
Вычислим среднее выборочное значение каждой случайной величины
E(Y1)=СРЗНАЧ($B$7:$B$13)
E(Y2)=СРЗНАЧ($C$7:$C$13)
икоэффициент корреляции этих случайных величин:
ρ(Y1,Y2)=КОРРЕЛ(B7:B13;C7:C13)
Построим графики случайных величин Y1,Y2 и убедимся, что они похожи. Используем команду Вставка-Диаграмма, Тип - график, ряд данных - столбец Y1,
30