
Часть 3. Двумерные выборки
3.1. Задание 1
Построим
двумерную выборку объема 135 где
– число слов, а
– число букв в данном предложении,
причем пробелы не учитываются. (Приложение
Е).
Для выполнения задания была взята книга Джорда Оруэлл «1984», представленный в приложении Ж.
Подсчитаем числовые коэффициенты, показанные в таблице 1, чтобы их использовать для расчета коэффициента корреляции r.
Таблица 1 – Вычисление дополнительных коэффициентов
Из таблицы следует, что:
,81.
Найдем
дисперсию и стандартное отклонение для
и
.
.
.
Рассчитаем выборочный коэффициент корреляции r по формуле:
Это значение весьма близко к единице. Число букв и число слов в предложении линейно зависят друг от друга.
Представим нашу выборку графически с помощью диаграммы рассеяния на рисунке 1.
Рисунок 1 – Диаграмма рассеяния двумерной выборки
Точки на диаграмме группируются относительно прямой, это означает, что между числом слов и числом букв в предложении существует сильная положительная линейная корреляция.
Определим коэффициенты линейного уравнения регрессии y на x.
Число -1,42 получается, если все вычисления вести с 4 знаками после запятой.
Уравнение
регрессии y
на
x
таково:
прямая регрессии представлена на рисунке
3.
Уравнение, выведенное Excel, и уравнение рассчитанное совпадают.
3.2 Задание 2
Необходимо построить уравнение регрессии для выборки, представленной в таблице 3.
Таблица 3 – Исходная выборка
i |
|
|
1 |
1,76 |
2,13 |
2 |
2,65 |
1,73 |
3 |
2,46 |
1,76 |
4 |
1,13 |
2,87 |
5 |
2,16 |
1,90 |
6 |
3,42 |
1,52 |
7 |
2,78 |
1,66 |
8 |
1,56 |
2,34 |
9 |
1,85 |
2,13 |
10 |
1,56 |
2,44 |
11 |
2,09 |
2,01 |
12 |
3,05 |
1,52 |
13 |
1,42 |
2,54 |
14 |
1,51 |
2,38 |
15 |
1,56 |
2,27 |
16 |
1,60 |
2,23 |
17 |
2,10 |
2,02 |
18 |
1,50 |
2,31 |
19 |
2,07 |
1,88 |
20 |
3,87 |
1,35 |
21 |
2,16 |
1,95 |
22 |
3,53 |
1,40 |
23 |
1,21 |
2,53 |
24 |
3,34 |
1,45 |
25 |
3,15 |
1,56 |
26 |
2,23 |
1,93 |
27 |
1,37 |
2,62 |
28 |
3,30 |
1,55 |
29 |
3,80 |
1,34 |
30 |
1,23 |
2,89 |
Чтобы подобрать формулу для уравнения регрессии, построим диаграмму рассеяния выборки, по виду которой подберем подходящее уравнение регрессии (рис. 2).
Рис. 2. – Диаграмма рассеяния исходной выборки и графики уравнений регрессии.
Диаграмма
рассеяния не распадается на две ветви,
поэтому уравнение гиперболы y
= 1/(ax
+ b)
не подходит. По рис. 3 видно, что
экспоненциальное уравнение регрессии,
найденное средствами Excel,
значительно хуже соответствует диаграмме
рассеяния, чем степенное уравнение.
Воспользуемся методом наименьших
квадратов для поиска коэффициентов
степенного уравнения регрессии
.
Прологарифмировав левую и правую части, получаем значения, представленные в таблице 4. Диаграмма рассеяния линеаризованной выборки показана на рисунке 3.
Рисунок 3 – Диаграмма рассеяния линеаризованной выборки
Таблица 4 – Полученная выборка
i |
|
|
1 |
0,57 |
0,76 |
2 |
0,97 |
0,55 |
3 |
0,90 |
0,57 |
4 |
0,12 |
1,05 |
5 |
0,77 |
0,64 |
6 |
1,23 |
0,42 |
7 |
1,02 |
0,51 |
8 |
0,44 |
0,85 |
9 |
0,62 |
0,76 |
10 |
0,44 |
0,89 |
11 |
0,74 |
0,70 |
12 |
1,12 |
0,42 |
13 |
0,35 |
0,93 |
14 |
0,41 |
0,87 |
15 |
0,44 |
0,82 |
16 |
0,47 |
0,80 |
17 |
0,74 |
0,70 |
18 |
0,41 |
0,84 |
19 |
0,73 |
0,63 |
20 |
1,35 |
0,30 |
21 |
0,77 |
0,67 |
22 |
1,26 |
0,34 |
23 |
0,19 |
0,93 |
24 |
1,21 |
0,37 |
25 |
1,15 |
0,44 |
26 |
0,80 |
0,66 |
27 |
0,31 |
0,96 |
28 |
1,19 |
0,44 |
29 |
1,34 |
0,29 |
30 |
0,21 |
1,06 |
Сумма |
22,28 |
20,16 |
Среднее |
0,74 |
0,67 |
Обозначим
через
,
через
Подсчитаем
числовые коэффициенты, показанные в
таблице 5, чтобы их использовать для
расчета коэффициента
.
Таблица 5 – Дополнительные коэффициенты
i |
|
|
|
1 |
0,43 |
0,32 |
0,57 |
2 |
0,53 |
0,95 |
0,30 |
3 |
0,51 |
0,81 |
0,32 |
4 |
0,13 |
0,01 |
1,11 |
5 |
0,49 |
0,59 |
0,41 |
6 |
0,51 |
1,51 |
0,18 |
7 |
0,52 |
1,05 |
0,26 |
8 |
0,38 |
0,20 |
0,72 |
9 |
0,47 |
0,38 |
0,57 |
10 |
0,40 |
0,20 |
0,80 |
11 |
0,51 |
0,54 |
0,49 |
12 |
0,47 |
1,24 |
0,18 |
13 |
0,33 |
0,12 |
0,87 |
14 |
0,36 |
0,17 |
0,75 |
15 |
0,36 |
0,20 |
0,67 |
16 |
0,38 |
0,22 |
0,64 |
17 |
0,52 |
0,55 |
0,49 |
18 |
0,34 |
0,16 |
0,70 |
19 |
0,46 |
0,53 |
0,40 |
20 |
0,41 |
1,83 |
0,09 |
21 |
0,51 |
0,59 |
0,45 |
22 |
0,42 |
1,59 |
0,11 |
23 |
0,18 |
0,04 |
0,86 |
24 |
0,45 |
1,45 |
0,14 |
25 |
0,51 |
1,32 |
0,20 |
26 |
0,53 |
0,64 |
0,43 |
27 |
0,30 |
0,10 |
0,93 |
28 |
0,52 |
1,43 |
0,19 |
29 |
0,39 |
1,78 |
0,09 |
30 |
0,22 |
0,04 |
1,13 |
Сумма |
12,54 |
20,58 |
15,04 |
Среднее |
0,42 |
0,69 |
0,50 |
Из таблицы следует, что
Определим коэффициенты линейного уравнения регрессии y на x.
После
определения параметров a
и
находим число
:
3,06.
.
Уравнение
регрессии y
на
x
таково:
.
Уравнение, выведенное Excel, и уравнение, рассчитанное по методу наименьших квадратов, совпадают.
Определим теперь сумму квадратов отклонений экспериментальных данных yi от теоретических значений y(xi) = 3,06x-0,6, когда коэффициенты и а = -0,6 были найдены по методу наименьших квадратов путем линеаризации исходного нелинейного уравнения регрессии. Все расчеты представлены в таблице 6.
Таблица 6
b = |
3,06 |
a = |
-0,6 |
xi |
yi |
y(xi) |
(yi - y(xi)2 |
1,76 |
2,13 |
2,18 |
0,00 |
2,65 |
1,73 |
1,70 |
0,00 |
2,46 |
1,76 |
1,78 |
0,00 |
1,13 |
2,87 |
2,85 |
0,00 |
2,16 |
1,9 |
1,93 |
0,00 |
3,42 |
1,52 |
1,46 |
0,00 |
2,78 |
1,66 |
1,65 |
0,00 |
1,56 |
2,34 |
2,34 |
0,00 |
1,85 |
2,13 |
2,12 |
0,00 |
1,56 |
2,44 |
2,34 |
0,01 |
2,09 |
2,01 |
1,97 |
0,00 |
3,05 |
1,52 |
1,56 |
0,00 |
1,42 |
2,54 |
2,48 |
0,00 |
1,51 |
2,38 |
2,39 |
0,00 |
1,56 |
2,27 |
2,34 |
0,01 |
1,6 |
2,23 |
2,31 |
0,01 |
2,1 |
2,02 |
1,96 |
0,00 |
1,5 |
2,31 |
2,40 |
0,01 |
2,07 |
1,88 |
1,98 |
0,01 |
3,87 |
1,35 |
1,36 |
0,00 |
|
|
Сумма |
0,15 |
Далее
воспользуемся надстройкой "Поиск
решения", чтобы найти значения
параметров а
и
b,
которые минимизируют сумму квадратов
отклонений экспериментальных данных
yi
от
теоретических значений y(xi)
=
,
найденных по исходному уравнению
регрессии
.
Все вычисления представлены в таблице
7.
Таблица 7.
b = |
3,07 |
a = |
-0,6 |
xi |
yi |
y(xi) |
(yi - y(xi)2 |
1,76 |
2,13 |
2,18 |
0,00 |
2,65 |
1,73 |
1,70 |
0,00 |
2,46 |
1,76 |
1,78 |
0,00 |
1,13 |
2,87 |
2,85 |
0,00 |
2,16 |
1,9 |
1,93 |
0,00 |
3,42 |
1,52 |
1,46 |
0,00 |
2,78 |
1,66 |
1,65 |
0,00 |
1,56 |
2,34 |
2,34 |
0,00 |
1,85 |
2,13 |
2,12 |
0,00 |
1,56 |
2,44 |
2,34 |
0,01 |
2,09 |
2,01 |
1,97 |
0,00 |
3,05 |
1,52 |
1,56 |
0,00 |
1,42 |
2,54 |
2,48 |
0,00 |
1,51 |
2,38 |
2,39 |
0,00 |
1,56 |
2,27 |
2,34 |
0,01 |
1,6 |
2,23 |
2,31 |
0,01 |
2,1 |
2,02 |
1,96 |
0,00 |
1,5 |
2,31 |
2,40 |
0,01 |
2,07 |
1,88 |
1,98 |
0,01 |
3,87 |
1,35 |
1,36 |
0,00 |
|
|
Сумма |
0,15 |
В случае точного решения а = -0,60; b = 3,07 сумма квадратов отклонений экспериментальных данных yi от теоретических значений y(xi) = не уменьшилась.
Заключение
В результате проделанной работы были изучены основные понятия математической статистики.
Изученная теория была применена для исследования выборок из различных генеральных совокупностей, полученных при помощи генератора случайных чисел. В частности, были использованы критерии Пирсона и Колмогорова-Смирнова для проверки гипотез о законе распределения генеральной совокупности, из которой извлечена выборка и об извлечении двух выборок из одной и той же генеральной совокупности. Кроме того, исследовалась двумерная выборка, полученная из предложений русского языка.
Все расчеты, таблицы и диаграммы выполнены в среде Microsoft Office Excel.
Полученные при выполнении работы знания, умения, навыки будут востребованы в новых учебных курсах на следующих ступенях обучения в бакалавриате.
Список использованных источников
1. Вентцель, Е. С. Теория вероятностей / Е. С. Вентцель. − М.: Академия, 2003. − 572 с.
2. Гмурман, В. Е. Теория вероятностей и математическая статистика : учебник для вузов / В. Е. Гмурман. — 12-е изд. — Москва : Издательство Юрайт, 2020. — 479 с. — (Высшее образование). — ISBN 978-5-534-00211-9. — Текст : электронный // ЭБС Юрайт [сайт]. — URL: https://urait.ru/bcode/449646.
3. Палий, И. А. Теория вероятностей / И. А. Палий. − М. : ИНФРА-М, 2017. - 236 с.
4. Уокенбах Дж. Excel 2016. Библия пользователя / Уокенбах Дж. − Издательство :ДИАЛЕКТИКА, 2019. - 1040 с.