
Болтушкин Л.С., группа 712-2, инд.задание
.pdfМинистерство науки и высшего образования Российской Федерации Федеральное государственное автономное образовательное учреждение высшего образования
ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ (ТУСУР)
Кафедра комплексной информационной безопасности электронно-
вычислительных систем (КИБЭВС)
СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ
Отчет по индивидуальному заданию по дисциплине «Теория вероятностей и математическая статистика»
Студент гр. 712-2
__________ Л.С. Болтушкин
«___» __________ 2024 г.
Руководитель Доцент каф. КИБЭВС, к.т.н.
_______ __________ Ю.В. Шабля
оценка
«___» __________ 2024 г.
Томск 2024
|
Оглавление |
|
Введение................................................................................................................... |
3 |
|
1 |
ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ ................................................. |
4 |
2 |
ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ .................................. |
10 |
3 |
КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ............................ |
133 |
Заключение .......................................................................................................... |
188 |
2
Введение
Целью работы является закрепление полученных теоретических знаний в области математической статистики на примере выполнения практических задач с помощью специализированного программного обеспечения.
Задание:
1.Выбрать программное обеспечение для выполнения индивидуального задания;
2.Сформулировать исследуемый процесс, определить целевую функцию и влияющие факторы, сформировать выборку данных;
3.Выполнить проверку статистической гипотезы о виде закона распределения;
4.Провести однофакторный дисперсионный анализ;
5.Провести корреляционный и регрессионный анализ.
В качестве исследуемого процесса предлагается рассмотреть работу программы, реализующей сортировку пузырьком для массива убывающих чисел. Целевая функция (выходной параметр) – время сортировки массива.
Фактор (входной параметр) – размер массива.
Для выполнения индивидуального задания выбрана программа для работы с электронными таблицами «Microsoft Excel», так как она является мощным инструментом для работы с данными.
3

1 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
Время сортировки массива принимает разные значения даже при одинаковых значениях входных параметров. Следовательно, можно принять время сортировки массива за некоторую случайную величину, которую обозначим как . Далее исследуем вид закона распределения случайной величины . Для этого с помощью исследуемой программы сформируем выборку при фиксированном значении входного параметра (размер массива
= 20 000 элементов) с многократным повторением ( = 210 раз).
Фрагмент с результатами работы программы представлен на рисунке 1.1.
Рисунок 1.1 – Фрагмент с результатами работы программы
Все полученные значения были перенесены в «Microsoft Exсel». Так как случайная величина Y является непрерывной, то в полученной выборке присутствует большое значение различных значений случайной величины с малыми частотами их появления. Такую выборку невозможно исследовать на
4

принадлежность к какому-либо виду закона распределения. Поэтому сгруппируем данные выборки, распределив их на равные интервалы значений,
и посчитаем соответствующие частоты попадания в каждый интервал.
Количество интервалов определяется по правилу Стёрджеса:
= 1 + log2 ,
где – объем выборки. Тогда для исследуемой выборки получаем
= 1 + log2 210 = 8.
Полученное статистическое распределение выборки в виде интервального ряда представлено на рисунке 1.2.
Рисунок 1.2 – Статистическое распределение выборки
Далее на основе полученного статистического распределения выборки была построена гистограмма частот (рисунок 1.3).
Рисунок 1.3 – Гистограмма частот
5
Исходя из графического представления полученной гистограммы частот, можно сделать следующие выводы о возможном законе распределения случайной величины : гистограмма иллюстрирует , что значения распределены неравномерно. Большая часть данных сосредоточена в начальных интервалах и заметен перекос влево относительно середины диапазона. Это может указывать на логнормальное распределение или другое асимметричное распределение.
Далее проверим статистическую гипотезу о виде закона распределения по критерию Пирсона. В качестве проверяемых законов распределения рассмотрим равномерное и нормальное распределения.
Непрерывная случайная величина , распределенная по равномерному закону, определяется двумя параметрами ( = 2) и имеет следующие функцию плотности распределения вероятностей и функцию распределения вероятностей:
1 |
|
|
|
|
|
|
|
1, |
|
|
> |
|
|
|
||
, |
|
[ ; ] ; |
|
|
|
− |
|
|
|
|
|
|
||||
|
|
|
( ) = { |
, |
|
|
|
|||||||||
( ) = { |
− |
|
|
[ ; ] |
||||||||||||
|
|
|
|
|||||||||||||
0, |
|
|
[ ; ] |
|
|
|
− |
|
|
|
|
|
||||
|
|
|
|
|
0, |
|
|
< |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Для получения оценок параметров и равномерного распределения |
||||||||||||||||
воспользуемся методом наибольшего правдоподобия: |
|
|
|
|
|
|||||||||||
|
|
|
|
= min = 0,133; |
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
{ = max |
= 0,184. |
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вычислим теоретические частоты попадания в интервал [ |
|
; ] для |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
−1 |
|
|
|
равномерного распределения с параметрами = 0,133 и |
|
= 0,184 при |
||||||||||||||
выборке объема = 210 по формуле: |
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
− |
|
|
|
′ = ( |
[ |
|
; ]) |
= ( ( ) − ( |
)) = |
|
|
−1 |
. |
|||||||
|
|
|
|
|||||||||||||
|
−1 |
|
|
|
|
|
−1 |
|
|
|
− |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Вычислим расчетное значение критерия Пирсона по формуле |
|
|
|
|||||||||||||
|
|
|
|
|
( − ′)2 |
|
|
|
|
|
|
|
|
|||
|
|
= ∑ |
|
|
|
= 145,047619. |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
||||||||
|
|
набл |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
=1 ′
6

Определим критическое значение критерия Пирсона при уровне
значимости = 0,05 по формуле
кр = 2( ; − − 1) = 2(0,05; 8 − 2 − 1) = 2(0,05; 5) = 11,07.
На рисунке 1.4 представлены подробности промежуточных вычислений.
Рисунок 1.4 – Расчеты для равномерного закона распределения
Можно сделать вывод, что Кнабл>Ккр, поэтому нулевую гипотезу о равномерном распределении мы отвергаем.
Непрерывная случайная величина , распределенная по нормальному закону, определяется двумя параметрами ( = 2) и имеет следующие функцию плотности распределения вероятностей и функцию распределения вероятностей:
( ) = |
1 |
− |
( − )2 |
( ) = |
1 |
|
− |
|
|||
2 2 |
; |
+ Ф ( |
). |
||||||||
|
|
|
|
||||||||
|
√2 |
|
|
|
2 |
|
|
Для получения оценок параметров и нормального распределения воспользуемся методом наибольшего правдоподобия:
7

|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
|
= |
|
∑ |
= 0,147632; |
|
|
|
||||||||||||||||
|
|
|
|
|||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||
|
|
в |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
= |
= √ |
|
∑( − |
|
)2 |
|
|
|
= 0,011008. |
|
|
|||||||||||||
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
||||||||||||||||||||
в |
|
|
|
|
|
|
|
|
|
|
|
|
в |
|
|
|
|
|
|
|
||||
{ |
|
|
|
|
=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вычислим теоретические частоты попадания в интервал |
[ |
; ] для |
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
−1 |
|
нормального распределения с параметрами = 0,147632 |
и = 0,011008 |
|||||||||||||||||||||||
при выборке объема = 210 по формуле: |
|
|
|
|
|
|
|
|
|
|||||||||||||||
′ = ( [ |
|
|
|
; ]) = ( ( ) |
− ( |
)) = |
|
|
||||||||||||||||
|
|
|
|
−1 |
|
|
|
|
|
|
|
|
|
|
|
|
−1 |
|
|
|||||
|
|
|
|
|
− |
|
|
|
|
|
|
|
− |
|
|
|
||||||||
= (Ф ( |
|
|
|
|
|
|
) − Ф ( |
−1 |
|
|
)). |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
Вычислим расчетное значение критерия Пирсона по формуле |
|
|||||||||||||||||||||||
|
|
|
|
( − ′)2 |
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
= ∑ |
|
|
|
|
|
|
= 92,27447459. |
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
набл |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
=1 ′
Определим критическое значение критерия Пирсона при уровне значимости = 0,05 по формуле
кр = 2( ; − − 1) = 2(0,05; 8 − 2 − 1) = 2(0,05; 5) = 11,07.
На рисунке 1.5 представлены подробности промежуточных вычислений.
Рисунок 1.5 – Расчеты для нормального закона распределения
8
Вывод для нормального закона распределения будет таким же, как и в равномерном законе распределения, а именно, что Кнабл>Ккр, поэтому нулевую гипотезу о нормальном распределении мы отвергаем.
9

2 ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
Далее исследуем значимость влияния размера массива убывающих чисел на время его сортировки. Для этого с помощью исследуемой программы сформируем выборку при = 3 фиксированных значениях входного параметра (размер массива 1 = 10 000, 2 = 20 000 и 3 = 30 000
элементов) с многократным повторением ( = 10 раз). Фрагмент с результатами работы программы представлен на рисунке 2.1.
Рисунок 2.1 – Фрагмент с результатами работы программы
10