Добавил:

neus500 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный юридический университет им. О.Е. Кутафина

Предмет:

Информатика

Файл:

учебный год 2023 / Макет практического пособия 2011-1

.pdf

Скачиваний:

Добавлен:

16.12.2022

Размер:

643.02 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Полученный график называется полигоном частот, а многоугольник, который ограничен графиком, осью абсцисс и прямыми х = Х1 и х = Xm называется эмпирическим многоугольником распределения.

Если количество элементов выборки слишком велико то в этом случае закон распределения задается интервальным рядом. Для того, чтобы построить интервальный закон распределения необходимо:

1)найти минимальное и максимальное значение параметра выборки;

2)затем разделить отрезок от Хмин до Хмакс на равные интервалы так, чтобы в каждый интервал попало хотя бы одно значение признака;

3)подсчитать количество значений признака, попавших каждый в интервал, причем, если какое-то значение признака попадает на границу интервала, то абсолютную частоту данного значения напополам относят к левому и к правому интервалу;

4)составить интервальный ряд.

Гистограмма – это изображение интервального ряда графически. w = ni / n - высота строящегося прямоугольника.

Числовые характеристики выборки.

Выборочная средняя: Eв = (х1 + х2 + ... + хn ) / n (среднее арифметическое) Выборочная дисперсия:

Dв = ((х1 − Eв )2 + (х2 − Eв )2 + ... + (хn − Eв )2 ) / n или

Dв = Eв ( X 2 ) − (Eв ( X ))2 = (х12 + х22 + ... + хn2 ) / n − ((х1 + х2 + ... + хn ) / n)2

Примеры решений задач.

1.При проведении контроля качества среди 1000 случайно отобранных деталей оказалось 5 бракованных. Сколько бракованных деталей следует ожидать

среди 25 000 деталей?

Решение.

Вероятность того, что произведенная деталь бракованная : P = 5/1000 = 0,005. Следует ожидать такую частоту и в дальнейшем, поэтому среди 25 000 деталей окажется около 25 000 * 0,005 = 125 бракованных.

2.В таблице приведены ежегодные значения денежной массы и национального дохода в млрд. денежных единиц некоторой страны. Найти коэффициент корреляции между этими показателями (в программе Excel).

Год	Денежная	Национальный
	масса	доход

1994	2,0	5,0
1995	2,5	5,5
1996	3,2	6,0
1997	3,6	7,0
1998	3,3	7,2
1999	4,0	7,7
2000	4,2	8,4
2001	4,6	9,0
2002	4,8	9,7
2003	5,0	10,0

Решение.

Пусть X – денежная масса, Y национальный доход

ρв ( X , Y ) = Eв ( XY ) − Eв ( X )Eв (Y )

Dв ( X ) Dв (Y )

Eв (Y ) = (5+5,5+6+7+7,2+7,7+8,4+9+9,7+10)/10=7,55

Eв ( X ) = 3, 72

Eв ( XY ) = (2 5 + 2, 5 5, 5 + ... + 5 10) ÷ 10 = 29, 595 Eв ( X 2 ) = 14, 718

Eв (Y 2 ) = 59, 703

Dв ( X ) = Eв ( X 2 ) − (Eв ( X ))2 = 0, 93787

Dв (Y ) = Eв (Y 2 ) − (Eв (Y ))2 = 1, 643

ρв ( X , Y ) = 0, 979094

Вычислим эти значения в программе Excel двумя способами: по формулам приведенным выше и по статистическим формулам, встроенным в Excel.

Задачи для самостоятельного решения.

1.Из озера выловили 86 рыб, которых пометили и отпустили обратно в озеро. Через неделю произвели повторный отлов – на этот раз поймали 78 рыб, среди которых оказалось 6 помеченных. Сколько приблизительно рыб живет в озере?

2.Население города N составляет около 400 000 жителей. Сколько жителей города N родилось 29 февраля?

3. В коробке 100 шаров белого и черного цвета. Из нее 60 раз вынули шар, возвращая его каждый раз обратно. При этом белый шар появился в 18 случаях. Сколько белых шаров в коробке?

4. Определить коэффициент корреляции между успеваемостью и посещаемостью студентами занятий. Если X – количество занятий, посещенных студентами, Y

– количество сданных в срок зачетов и экзаменов.

X	80	70	60	50
Y	9	7	6	4

5. Используя Excel, по формуле найти коэффициент корреляции между случайными величинами, представленными выборками: a) X3 и X5, б) X4 и X5, c) X1 и X2, d) X4 и X3.Проверить результат, воспользовавшись функцией КОРРЕЛ из категории статистические.

	X1	X2	X3	X4	X5	X6
год	Число	Число	Заболеваемос	Убийства	иЧисл	Число
	зарегистриро-	краж	ть	покушения	о	преступлений,
	ванных		алкоголизмом	на убийство	ДТП	совершенных
	преступлений		и			в состоянии
			алкогольным			алкогольного
			психозом			опьянения
2003	2755,7	1367,9	229,7	31,7	167,3	650,3
2004	2625,1	1207,5	204,6	29,4	160,5	637
2005	2397,3	1054	173,2	29,3	156,5	508,9
2006	2581,9	1143,4	161,6	29,6	160,3	485,2
2007	3001,7	1413,4	156,7	31,1	159,8	488,1
2008	2952,4	1310,1	188,7	31,8	157,6	442,7
2009	2968,3	1273,2	202	33,6	164,4	408,1
2010	2526,3	926,8	221,3	32,3	184,4	325,6

6.Используя Excel, по формуле найти коэффициент корреляции между случайными величинами: курсом доллара США и ЕВРО.

Проверить результат, воспользовавшись функцией КОРРЕЛ из категории статистические.

Дата	USD	EUR
15/07/2011	28,0610	39,8214
14/07/2011	28,2557	39,5919
13/07/2011	28,3842	39,5051
12/07/2011	28,0839	39,8033
11/07/2011	27,8880	40,0193
10/07/2011	27,8880	40,0193
09/07/2011	27,8880	40,0193
15/07/2011	28,0610	39,8214
14/07/2011	28,2557	39,5919

Контрольные вопросы:

1.Что такое генеральная совокупность?

2.Что такое выборка?

3.При каких условиях выборка будет репрезентативной?

4.Что такое эмпирический закон распределения?

5.Какие числовые характеристики выборки?

6. Числовые характеристики выборки

∑ xi

- математическое ожидание, среднее выборочное (среднее

n i =1

арифметическое),

σ x2

∑(xi

)2 - дисперсия, среднее квадратичное отклонение,

n i =1

σ x

- стандартное отклонение,

σ x2

cov( X ,Y ) = 1 ∑n (xi - x) × ( yi - y) = xy - x × y - ковариация, n i=1

ρ( X ,Y ) = cov(X ,Y ) - коэффициент корреляции.

σx ×σ y

Регрессия. Аппроксимация. Метод наименьших квадратов.

Регрессия – это зависимость среднего значения случайной величины от какой-либо другой случайной величины или нескольких величин.

Пусть X и Y – случайные величины.

Если Y = f(X), где X – независимая переменная, а Y – зависимая, то величины X и Y связаны строгой функциональной зависимостью.

Если же такой строгой зависимости нет, то можно подобрать такую функцию f(X,β), где β – некоторый параметр, которая наилучшим образом описывает зависимость X

и Y.

Такая замена одних объектов другими, близкими к исходным, называется аппроксимацией. В данном случае функция f(X,β) аппроксимирует зависимость между X и Y, является так называемым приближением к f(X).

Стандартный метод оценки регрессии основан на использовании полиномиальной

модели (n³1): Y = f(X,β) = β0+β1X+β2X2+…+ βnXn, где β = (β0,β1,β2,…, βn).

Это уравнение называется уравнением регрессии, соответствующий график – линией регрессии, β0,β1,β2,…, βn – коэффициентами регрессии величины Y по X, а переменная Х – регрессором.

Коэффициент корреляции ρ(X,Y) служит мерой зависимости, которой соответствует линейная регрессия (n=1): f(X,β)=β0+β1X, или, в более привычном виде: f(X,β)=aX+b, где b=β0, a=β1. Если коэффициент корреляции близок к 1 или -1, то линейная регрессия дает наилучший результат.

Регрессионная зависимость между случайными величинами исследуется по статистическим данным. При этом решаются три основные задачи:

1)выбор модели регрессии, что включает в себя предположение о зависимости функции регрессии от X и β, и выбор этой функции;

2)оценка параметров в выбранной модели методом наименьших квадратов;

3)проверка статистических гипотез, т.е. проверка результатов путем вычисления ошибок аппроксимации.

Все эти задачи решаются в разделе математической статистики, называемом

регрессионный анализ.

Метод наименьших квадратов (МНК) - статистический метод оценки неизвестных величин по результатам измерений, наблюдений, т.е. статистических данных, содержащих случайные ошибки.

С помощью МНК решается задача аппроксимации набора значений случайных величин X и Y линейной функцией Y = f(X,β)=aX+b.

Задача состоит в оценке (подборе) коэффициентов a и b таким образом, чтобы минимизировать квадратичное отклонение функции f(X,β) = aX+b от случайной величины Y:

F (x) = ∑( yi - (axi + b))2 , где xi , yi - значения случайных величин X и Y

i =1

соответственно.

Оценки коэффициентов по методу наименьших квадратов вычисляются по формулам:

= xy - x × y

a , b = y − ax . x2 - x 2

Для вычисления коэффициентов регрессии можно использовать программу MS Excel, статистическую функцию ЛИНЕЙН().

Подставив коэффициенты a и b в уравнение, можно вычислить значения Y для любых значений Х, построить соответствующий полученному уравнению график – линию регрессии (на диаграмме MS Excel - линию тренда).

Можно также вычислять прогнозные значения случайной величины Y для новых значений случайной величины X, используя функции ПРЕДСКАЗ() и ТЕНДЕНЦИЯ(). Существуют различные оценки качества полученного уравнения регрессии. Одной из таких оценок, например, является средняя относительная ошибка аппроксимации, вычисляемая по формуле:

			1	n		- (axi + b)
		=		∑	yi		×100% .
	A
						yi
			n i =1
Максимально						допустимой средней относительной ошибкой аппроксимации

считается 8-10%. Абсолютные ошибки вычисляются как разность yi - (axi + b) .

В MS Excel есть возможность вычислить и поместить на диаграмму величину достоверности аппроксимации R2. Эта величина может принимать значения от 0 до 1 и называется квадратом смешанной корреляции, который при хорошей аппроксимации близок к 1.

Лабораторная работа №1.

Выполнить задание и сохранить результаты в папку "Мои документы". Дать файлу имя ЛП-Фамилии студентов, например: Л1-ИвановПетров.xls

		Национальный
Год	Денежная масса	доход
1994	2,0	5,0
1995	2,5	5,5
1996	3,2	6,0
1997	3,6	7,0
1998	3,3	7,2
1999	4,0	7,7
2000	4,2	8,4
2001	4,6	9,0
2002	4,8	9,7
2003	5,0	10,0
Всего:	254,9	8328,4

Коэффициент корреляции ρ =0,979094337

Если коэффициент корреляции близок к 1, то зависимость между случайными величинами близка к линейной.

В этом случае можно аппроксимировать эту зависимость при помощи линейной функции y = ax+b.

Для построения графика этой функции необходимо вычислить коэффициенты a и b.

Сначала научимся строить диаграмму, показывающую зависимость двух рядов данных друг от друга:

Отсортировать данные в таблице по возрастанию по столбцу "Денежная масса":

Выделить таблицу и выбрать команду Данные-Сортировка, установить сортировку по указанному столбцу.

Построение графика зависимости денежной массы от национального дохода.

1)Выделить в таблице столбцы "Денежная масса" и "Национальный доход" вместе с заголовками

2)Выбрать команду Вставка-Диаграмма

3)В Мастере диаграмм:(шаг 1) Выбрать тип диаграммы "Точечная" , (шаг 2) ряды данных - в столбцах, (шаг 3) легенда - внизу, заголовоки: название диаграммы -"Линейная зависимость", (шаг 4) - на

имеющемся листе.

4)Щелкнуть на точках диаграммы правой кнопкой мыши, Формат рядов данных: линия - обычная.

Построение графика линейного приближения:

1) Построить таблицу:

a	b

2)Выделить пустые ячейки этой таблицы и выбрать команду: Вставка-Функция

3)В группе "Статистические" выбрать функцию ЛИНЕЙН(), во втором шаге указать:

Известные значения у - из столбца "Национальный доход",

Известные значения х - из столбца "Денежная масса",

закончить команду не щелчком на кнопке "ОК", а нажатием комбинации клавиш Ctrl-Shift-Enter

4) Добавить в таблицу столбец: ax+b, значения вычислить по формуле, приняв за х соответству

значение денежной массы из той же строки таблицы, например: =$A$58*B46+$B$58

	X	Y	ax+b	(y-(ax+b))/y
				Относительная
		Национальный	Линейное	ошибка
Год	Денежная масса	доход	приближение	аппроксимации
1994	2,0	5,0	4,599249659	0,080150068
1995	2,5	5,5	5,457025921
1996	3,2	6,0	6,657912688
1998	3,3	7,2	6,82946794
1997	3,6	7,0	7,344133697
1999	4,0	7,7	8,030354707
2000	4,2	8,4	8,373465211
2001	4,6	9,0	9,059686221
2002	4,8	9,7	9,402796726
2003	5,0	10,0	9,745907231

a	b
1,715553	1,168144611

5) Щелкнуть правой кнопкой мыши на области диаграммы, выбрать Исходные данные, добавить ряд "ax+b",

Имя: "Линейное приближение", Х - выделить значения из столбца "Денежная масса", Y - выделить значения

из столбца "ax+b", после добавления ряда щелкнуть на точках диаграммы правой кнопкой, выбрать "формат ряда данных", добавить линию, соединяющую точки.

Построить линию тренда - линейное приближение.

1)Щелкнуть правой кнопкой на линии ряда "Национальный доход" на диаграмме.

2)Выбрать "Добавить линию тренда", Тип - линейный, ОК. Убедиться, что две последних линии совпал

Вычислить среднюю относительную ошибку аппроксимации по формуле:

		1	n		- (axi + b)
	=		∑	yi		×100%
A
					yi
		n i=1

1)Добавить в таблицу столбец для вычисления относительной ошибки аппроксимации в каждой точке (y-(ax+b))/y.

2)В каждую ячейку этого столбца записать соответствующую формулу, используя столбцы Y и

ax+b.

3)Под этим столбцом записать формулу для вычисления средней относительной ошибки.

4)Записать полученный результат: Ā = ______________________ Превышает ли полученное значение 10%? ________

Лабораторная работа №2.

Выполнить задание и сохранить результаты в папку "Мои документы".

Дать файлу имя по фамилии студентов, например: Л2-ИвановПетров.xls

Наберем таблицу в MS Excel и вычислим сумму по столбцам Y1,Y2.

	X		Y1	Y2
		Численность населения с
		доходами	ниже	Число краж
Год		прожиточного минимума
Год
	2004		32,3	1207,5
	2005		30,3	1054
	2006		34	1143,4
	2007		41,2	1413,4
	2008		41,9	1310,1
	2009		39,4	1273,2
	2010		35,8	926,8

Вычислим среднее выборочное значение каждой случайной величины

E(Y1)=СРЗНАЧ($B$7:$B$13)

E(Y2)=СРЗНАЧ($C$7:$C$13)

икоэффициент корреляции этих случайных величин:

ρ(Y1,Y2)=КОРРЕЛ(B7:B13;C7:C13)

Построим графики случайных величин Y1,Y2 и убедимся, что они похожи. Используем команду Вставка-Диаграмма, Тип - график, ряд данных - столбец Y1,

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в папке учебный год 2023

#
16.12.20221.31 Mб25Лекция10.pdf
#
16.12.20221.2 Mб25Лекция12-2020.pdf
#
16.12.20221.21 Mб25Лекция13-2020.pdf
#
16.12.20221.47 Mб26Лекция14-2020.pdf
#
16.12.2022757.68 Кб26Лекция15-2020.pdf
#
16.12.2022643.02 Кб25Макет практического пособия 2011-1.pdf
#
16.12.2022643.02 Кб25Макет практического пособия 2011.pdf
#
16.12.2022782.03 Кб25Новое! КАК ОБМАНУТЬ МАРДАНОВУ-1.docx
#
16.12.2022782.03 Кб25новое! КАК ОБМАНУТЬ МАРДАНОВУ.docx
#
16.12.2022489.77 Кб24от Вовы1.jpg
#
16.12.2022340.65 Кб24от Вовы2.jpg