Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Записка_Асб19и1_Палий.docx
Скачиваний:
10
Добавлен:
25.10.2021
Размер:
300.57 Кб
Скачать

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное

учреждение высшего образования

«Сибирский государственный автомобильно-дорожный университет

СибАДИ»

Кафедра "Компьютерные информационные автоматизированные системы"

Курсовая работа

по дисциплине "Теория вероятностей и математическая статистика"

Тема: "Анализ данных"

Вариант 22

Выполнил (а):

обучающийся (аяся) гр. АСб-19И1

Усов Олег

указывается фамилия и инициалы обучающегося

Приняла: доцент

Палий И.А.

защищена с оценкой

____________________

«_____»________20___г.

______________________

подпись преподавателя

Омск – 2021

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное

учреждение высшего образования

«Сибирский государственный автомобильно-дорожный университет (СибАДИ)»

Кафедра "Компьютерные информационные автоматизированные системы"

ЗАДАНИЕ

на курсовую работу

по дисциплине "Теория вероятностей и математическая статистика"

Обучающийся (яся)___________Усов.О.О____________________________________

указывается фамилия и инициалы обучающегося

гр. АСб18И1

Тема: "Анализ данных"

Вариант 22

Исходные данные

Решение индивидуального набора заданий, включающего в себя исследование одномерных выборок; исследование двумерных выборок; проверку гипотез о законах распределения генеральной совокупности по критериям Пирсона; проверку гипотез об извлечении двух выборок из одной и той же генеральной совокупности по критерию Колмогорова-Смирнова.

Содержание расчетно- пояснительной записки:

1. Титульный лист.

2. Задание.

3. Реферат.

4. Список терминов, условных сокращений и обозначений (при необходимости).

5. Содержание.

6. Основная часть.

7. Заключение.

8. Список использованных источников.

9. Приложения

Задание выдано 04 февраля 2021 г.

Руководитель_______________ ______________________________

подпись преподавателя указывается фамилия и инициалы преподавателя

Исходные данные к работе

  1. Используя генератор случайных чисел получить выборки  1, 2, 3 каждая объема 1000 из генеральных совокупностей, имеющих нормальное, экспоненциальное и равномерное распределения соответственно. Значение параметров законов получить у преподавателя.

  2. Выполнить первоначальную проверку качества сгенерированных случайных чисел.

  3. Представить выборки графически и определить их числовые характеристики. Нужно построить гистограммы, кривые накопленных частот, найти выборочное среднее, выборочную дисперсию, стандартное отклонение, нижнюю квартиль, медиану, верхнюю квартиль. Все расчетные формулы должны быть сначала запрограммированы, затем числовые характеристики нужно рассчитать, используя стандартные функции Excel. Результаты должны совпасть.

Нужно убедиться в достаточно близком совпадении (отклонение в пределах 10%) теоретических и выборочных значений.

Теоретические значения числовых характеристик нормального закона: M(X) = a; σ(X) = σ; Q1a – 0,67σ; x=a Q3a + 0,67σ.

Теоретические значения числовых характеристик экспоненциального (показательного) закона: M(X) = 1/λ; σ(X) = 1/λ; Q1 ≈ 0,3/λ; x≈0,7/λ Q3 ≈ 1,4/λ.

Теоретические значения числовых характеристик равномерного закона: M(X) = (a + b)/2; σ(X) = (b – a)/(23); Q1a + (b – a)/4; x≈a+b2; Q3a + 3(b – a)/4

  1. Снова построить гистограммы вместе с графиками соответствующих функций плотности вероятности. Убедиться в хорошем соответствии гистограмм и графиков. В случае равномерного и экспоненциального законов продлить графики плотности вероятности на полшага влево и вправо (равномерный закон) и на полшага влево (экспоненциальный закон).

ПАРАМЕТРЫ ЗАКОНОВ

Нормальное распределение

Показательное распределение

λ

Равномерное распределение

a

σ

a

b

  1. Три выборки образуют три пары. Для каждой из пар выборок, используя критерий Колмогорова-Смирнова, проверить гипотезу об извлечении выборок из одной и той же генеральной совокупности. Положить α = 0,1. Гипотеза ложна, критерий должен все 3 раз гипотезу отвергнуть.

  1. Затем разбить каждую из выборок на две равные части. И трижды применить критерий Колмогорова-Смирнова для проверки гипотезы, что эти половинки извлечены из одной генеральной совокупности. Положить α = 0,1. Эти гипотезы должны подтвердиться.

  1. Для каждой из трех выборок проверить по критерию Пирсона гипотезу об извлечении выборки из соответствующей генеральной совокупности. Положить α = 0,05.

  1. Выбрать литературный текст (такой текст содержит только буквы, пробелы и знаки препинания), содержащий не менее 500 предложений. Привести текст с указанием автора. Используя приложенную программу, Разбить текст на куски из 200 букв, считая пробелы (знаки препинания и скобки не считаются).  Программа подсчитает число вхождений данной буквы в каждый кусок из 200 букв. Построить выборку и проверить по критерию Пирсона гипотезу об извлечении этой выборки из генеральной совокупности, имеющей распределение Пуассона. Положить α = 0,05. Номер буквы в таблице – номер варианта студента. Построить также на одном графике полигон относительных частот вхождений буквы и полигон вероятностей закона Пуассона.

Параметр  закона Пуассона определить сначала по выборке как среднее число вхождений в блок из 200 букв данной буквы. Затем определить теоретическое значение 1, пользуясь частотой p для данной буквы из таблицы, 1 = 200p. Если значения  и 1 различаются незначительно, проверять гипотезу о законе распределения Пуассона с параметром 1. В противном случае использовать экспериментально полученное значение .

  1. Выбрать литературный текст, указать автора и название произведения. Выделить в литературном  тексте на русском языке не менее 100 предложений, указать автора и произведение. Построить двумерную выборку, где xi – число слов, а yiчисло букв в данном предложении (пробелы не учитываются). Представить выборку графически и найти ее числовые характеристики. Определить коэффициенты линейного уравнения регрессии y на x и построить прямую регрессии на диаграмме рассеяния. Сделать вывод о наличии сильной линейной зависимости между числом слов и букв в предложении. Все расчеты запрограммировать в Excel, а затем сравнить результаты расчетов со значениями, полученными с использованием встроенных средств Excel.

  1. Для своего варианта двумерной выборки построить по методу наименьших квадратов уравнение регрессии, вид которого нужно сначала определить, выбрав подходящий из трех вариантов: y = bax; y = bxa; y = 1/(ax + b). Все расчеты запрограммировать в Excel. Построить в одной системе координат диаграмму рассеяния и график уравнения регрессии, используя встроенные средства Excel. Убедиться в совпадении уравнений регрессии.

  2. Не используя линеаризацию нелинейных уравнений, найти точные значения параметров уравнения при помощи инструмента "Поиск решения". Насколько суммы квадратов отклонений экспериментальных значений yi от теоретических значений отличаются в каждом из двух случаев?

Реферат

Пояснительная записка 45с., 14 рис., 29 табл., 4 источника.

ВЫБОРКА, ДВУМЕРНАЯ ВЫБОРКА, ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ВЫБОРКИ, ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ, КОРРЕЛЯЦИЯ, КРИТЕРИЙ ПИРСОНА, КРИТЕРИЙ КОЛМОГОРОВА-СМИРНОВА.

Цель работы: Научиться представлять графически и рассчитывать числовые характеристики одномерных и двумерных выборок. Освоить методику проверок статистических гипотез при помощи критериев Пирсона и Колмогорова-Смирнова. Научиться решать поставленные задачи математической статистики с помощью таблиц и функций Microsoft Office Excel.

Анализ данных 8

1. Одномерная выборка, ее представление и числовые характеристики 8

1.1. Нормальное распределение 8

1.2. Равномерное распределение 13

1.3. Экспоненциальное распределение 17

2. Проверка гипотез по критерию Пирсона и Колмогорова-Смирнова 21

2.1. Критерий Колмогорова-Смирнова 21

2.1.1. Нормальное и равномерное распределение 21

2.1.2. Нормальное и экспоненциальное распределение 23

2.1.3. Равномерное и экспоненциальное распределение 24

2.2. Критерий Колмогорова-Смирнова для каждой выборки. 25

2.2.1. Нормальное распределение 25

2.2.2. Равномерное распределение 26

2.2.3. Экспоненциальное распределение 26

2.3. Критерий Пирсона. 27

2.3.1. Нормальное распределение 27

2.3.2. Равномерное распределение 28

2.3.3. Экспоненциальное распределение 29

2.3.4. Критерий Пирсона для распределения Пуассона. 30

3 Двухмерные выборки 32

3.1. Задание 1 32

3.2. Задание 2 34

Заключение 44

Список использованных источников 45

Часть 1. Одномерная выборка, ее представление и числовые характеристики

С помощью генератора случайных чисел были получены три выборки из генеральных совокупностей, имеющих нормальное (Приложение А), равномерное (Приложение Б) и экспоненциальное (Приложение В) распределения соответственно, каждая объема 1000 чисел.

1.1. Нормальное распределение

Параметры закона для нормального распределения: .

Числовые характеристики данной выборки представлены в таблице 1.

Таблица 1 – Числовые характеристики выборки нормального распределения

 

Теоретическое значение

Функции Excel

-1,37

11,37

Среднее значение

a = 4,7

4,71

Дисперсия

σ2 = 3,61

3,70

Стандартное отклонение

σ = 1,9

1,92

Размах

1,4

Количество интервалов

10

h

1,4

Интервал группировки

[-2; 12)

Сгруппируем выборку на интервале [-2; 12). Разобьем интервал

[-2; 12) на k = 10 интервалов ширины h = 1,4. Тогда границы интервалов группировки таковы.

[xi-1; xi)

[-2; 0,6)

[0,6; 0,8)

[0,8; 2,2)

[2,2; 3,6)

[3,6; 5)

[xi-1; xi)

[5; 6,4)

[6,4; 7,8)

[7,8; 9,2)

[9,2; 10,6)

[10,6; 12)

Для проверки правильности полученных значений проверяется, что среднее значение примерно равно a, стандартное отклонение примерно равно . В данном случае получились значения: среднее значение = 4,72 , стандартное отклонение = 1,92 , что примерно равно .

Интервальная таблица частот для выборки нормального распределения представлена в таблице 2. В данной таблице – частота, – относительная частота,    – накопленная частота, – относительная накопленная частота.

Для построения гистограммы необходимо найти высоту прямоугольников. Высота находится по формуле = i /h, i = 1, 2, 3,…, k.

Для построения гистограммы также требуется найти середины интервалов. Середины находятся по формуле ( + )/2.

Функция плотности нормального закона зависит от двух параметров – и и находится по формуле .

Таблица 2 – Интервальная таблица  частот для выборки нормального распределения

Середины

f(x)

-2

 

 

0

0

 

 

-0,6

2

0,002

2

0,002

0,001429

-1,3

0,001435

0,8

19

0,019

21

0,021

0,013571

0,1

0,011204

2,2

78

0,078

99

0,099

0,055714

1,5

0,050841

3,6

176

0,176

275

0,275

0,125714

2,9

0,134052

5

307

0,307

582

0,582

0,219286

4,3

0,205371

6,4

236

0,236

818

0,818

0,168571

5,7

0,182815

7,8

126

0,126

944

0,944

0,09

7,1

0,094556

9,2

40

0,04

984

0,984

0,028571

8,5

0,028417

10,6

13

0,013

997

0,997

0,009286

9,9

0,004962

12

3

0,003

1000

1

0,002143

11,3

0,000503

 Σ

1000

1

 

 

 

 

Необходимые данные найдены. Теперь возможно построить гистограмму.

Гистограмма выборки нормального распределения представлена на рисунке 1.

Рисунок 1 – Гистограмма относительных накопленных частот и функция плотности для нормального распределения

Для построения кривой накопленных частот нужно взять значения и из интервальной таблицы.

Кривая накопленных частот представлена на рисунке 2.

Рисунок 2 – Кривая накопленных частот для нормального распределения

Для нахождения нижней квартили необходимо воспользоваться формулой .

При этом

Верхняя квартиль находится по аналогичной формуле, отличие заключается лишь в том, что вместо 0,25 необходимо использовать 0,75.

Для нахождения медианы нужно воспользоваться формулой

.

Теоретические значения числовых характеристик нормального закона: M(X) = a; σ(X) = σ; Q1a0,67σ; ; Q3a + 0,67σ.

Сравнение значений полученных с помощью формул и с помощью средств Excel представлены в таблице 3.

.

Тогда ;

;

Теоретические значения таковы:

Q1a0,67σ = ; ;

Q3a + 0,67σ = .

Таблица 3 – Сравнение полученных данных.

Формула

Exсel

Теорет.знач.

3,15

3,46

3,427

Медиана

4,57

4,66

4,7

5,91

5,98

5,973

1.2 Равномерное распределение

Параметры закона для равномерного распределения: .

Числовые характеристики данной выборки представлены в таблице 4.

Таблица 4 – Числовые характеристики выборки равномерного распределения

 

Теорет.знач

Функции Excel

Xmin

 

-0,99

Xmax

 

8,98

Среднее значение

(a + b)/2 = 4

3,97

Дисперсия

(ba)2/12 = 8,33

8,32

Стандартное отклонение

= 2,89

2,88

Размах

 8

Количетсво интервалов

 10

h

 1

Интервал группировки

 [-1;9)

Для проверки правильности полученных значений проверяется, что среднее значение примерно равно , дисперсия примерно равна . В данном случае получились значения: среднее значение = 3,97 , дисперсия = 8,32 , что примерно равно , соответственно.

Интервальная таблица частот для выборки равномерного распределения представлена в таблице 5. В данной таблице – частота – относительная частота,  – накопленная частота,  – относительная накопленная частота.

Для построения гистограммы необходимо найти высоту прямоугольников и середины интервалов.

Функция плотности равномерного закона находится по формуле

Таблица 5 – Интервальная таблица частот для выборки равномерного распределения

Середины

f(x)

-1

0

0

 

0

99

0,099

99

0,099

0,099

-0,5

0,1

1

100

0,1

199

0,199

0,1

0,5

0,1

2

112

0,112

311

0,311

0,112

1,5

0,1

3

99

0,099

410

0,41

0,099

2,5

0,1

4

98

0,098

508

0,508

0,098

3,5

0,1

5

94

0,094

602

0,602

0,094

4,5

0,1

6

101

0,101

703

0,703

0,101

5,5

0,1

7

100

0,1

803

0,803

0,1

6,5

0,1

8

94

0,094

897

0,897

0,094

7,5

0,1

9

103

0,103

1000

1

0,103

8,5

0,1

Σ

1000

1

 

 

 

 

Необходимые данные найдены. Теперь возможно построить гистограмму. Гистограмма выборки равномерного распределения представлена на рисунке 3.

Рисунок 3 – Гистограмма относительных накопленных частот и функция плотности равномерного распределения.

Для построения кривой накопленных частот нужно взять значения и из интервальной таблицы.

Кривая накопленных частот представлена на рисунке 4.

Рисунок 4 – Кривая накопленных частот для равномерного распределения

Найдём верхнюю и нижнюю квартиль и медиану и сравним со значениями, найденными с помощью средств Excel.

Сравнение значений, полученных с помощью формул и с помощью средств Excel, представлены в таблице 6.

Теоретические значения числовых характеристик равномерного закона: M(X) = (a + b)/2; σ(X) = (ba)/( ); Q1a+ (ba)/4; Q3a+ 3(ba)/4

.

Тогда ;

;

Теоретические значения таковы:

Q1a +(b-a)/4 = ; ;

Q3 a +3*(b-a)/4= .

Таблица 6 – Сравнение значений квартилей и медиан

Формула

Функции Excel

Теоретическое

1,46

1,5475

1,5

Медиана

3,92

3,87

4

6,47

6,475

6,5

1.3 Экспоненциальное распределение

Параметры закона для экспоненциального распределения:

Числовые характеристики данной выборки представлены в таблице 7.

Таблица 7 – Числовые характеристики выборки экспоненциального распределения

Теорет. Знач

Функции Excel

Xmin

0

Xmax

1,18

Среднее значение

1/λ = 0,13

0,13

Дисперсия

1/λ2 = 0,02

0,02

Стандартное отклонение

1/λ = 0,13

0,13

Размах

1,5

Количеcтво интервалов

6

h

0,25

Интервал группировки

[0;1,5)

Для проверки правильности полученных значений проверяется, что среднее значение и стандартное отклонение примерно равны . В данномслучае получились значения: среднее значение = 0,13 , стандартное отклонение = 0,13 , что примерно равно .

Интервальная таблица частот для выборки равномерного распределения представлена в таблице 8. В данной таблице – частота, – относительная частота, – накопленная частота, – относительная накопленная частота.

Для построения гистограммы необходимо найти высоту прямоугольников и середины интервалов.

Функция плотности равномерного закона находится по формуле

Таблица 8 – Интервальная таблица частот для выборки экспоненциального распределения

Середины

f(x)

0

 

 

0

0

 

 

 

0,25

858

0,858

858

0,858

3,432

0,125

2,9421

0,5

123

0,123

981

0,981

0,492

0,375

0,418585

0,75

14

0,014

995

0,995

0,056

0,625

0,059554

1

4

0,004

999

0,999

0,016

0,875

0,008473

1,25

1

0,001

1000

1

0,004

1,125

0,001205

1,5

0

0

1000

1

0

1,375

0,000172

 Σ

1000

1

 

 

 

 

 

Необходимые данные найдены. Теперь возможно построить гистограмму. Гистограмма выборки экспоненциального распределения представлена на рисунке 5.

Рисунок 5 – Гистограмма относительных накопленных частот и функция плотности для экспоненциального распределения

Для построения кривой накопленных частот нужно взять значения и из интервальной таблицы.

Кривая накопленных частот представлена на рисунке 6.

Рисунок 6 – Кривая накопленных частот экспоненциального распределения

Найдём верхнюю и нижнюю квартиль и медиану и сравним со значениями, найденными с помощью средств Excel.

Сравнение значений, полученных с помощью формул и с помощью средств Excel, представлены в таблице 9.

.

Тогда ;

;

Теоретические значения таковы:

Q10,3/ = ; ;

Q3 1,4/ = .

Таблица 9 – Сравнение значений квартилей и медиан

Формула

Функции Excel

Теоретическое

0,07

0,03

0,04

Медиана

0,15

0,09

0,09

0,22

0,1825

0,18

Функция плотности экспоненциального закона находится по формуле