Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Болтушкин Л.С., группа 712-2, инд.задание

.pdf
Скачиваний:
9
Добавлен:
04.10.2024
Размер:
727.18 Кб
Скачать

Министерство науки и высшего образования Российской Федерации Федеральное государственное автономное образовательное учреждение высшего образования

ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ (ТУСУР)

Кафедра комплексной информационной безопасности электронно-

вычислительных систем (КИБЭВС)

СТАТИСТИЧЕСКИЙ АНАЛИЗ ДАННЫХ

Отчет по индивидуальному заданию по дисциплине «Теория вероятностей и математическая статистика»

Студент гр. 712-2

__________ Л.С. Болтушкин

«___» __________ 2024 г.

Руководитель Доцент каф. КИБЭВС, к.т.н.

_______ __________ Ю.В. Шабля

оценка

«___» __________ 2024 г.

Томск 2024

 

Оглавление

 

Введение...................................................................................................................

3

1

ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ .................................................

4

2

ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ ..................................

10

3

КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ............................

133

Заключение ..........................................................................................................

188

2

Введение

Целью работы является закрепление полученных теоретических знаний в области математической статистики на примере выполнения практических задач с помощью специализированного программного обеспечения.

Задание:

1.Выбрать программное обеспечение для выполнения индивидуального задания;

2.Сформулировать исследуемый процесс, определить целевую функцию и влияющие факторы, сформировать выборку данных;

3.Выполнить проверку статистической гипотезы о виде закона распределения;

4.Провести однофакторный дисперсионный анализ;

5.Провести корреляционный и регрессионный анализ.

В качестве исследуемого процесса предлагается рассмотреть работу программы, реализующей сортировку пузырьком для массива убывающих чисел. Целевая функция (выходной параметр) – время сортировки массива.

Фактор (входной параметр) – размер массива.

Для выполнения индивидуального задания выбрана программа для работы с электронными таблицами «Microsoft Excel», так как она является мощным инструментом для работы с данными.

3

1 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Время сортировки массива принимает разные значения даже при одинаковых значениях входных параметров. Следовательно, можно принять время сортировки массива за некоторую случайную величину, которую обозначим как . Далее исследуем вид закона распределения случайной величины . Для этого с помощью исследуемой программы сформируем выборку при фиксированном значении входного параметра (размер массива

= 20 000 элементов) с многократным повторением ( = 210 раз).

Фрагмент с результатами работы программы представлен на рисунке 1.1.

Рисунок 1.1 – Фрагмент с результатами работы программы

Все полученные значения были перенесены в «Microsoft Exсel». Так как случайная величина Y является непрерывной, то в полученной выборке присутствует большое значение различных значений случайной величины с малыми частотами их появления. Такую выборку невозможно исследовать на

4

принадлежность к какому-либо виду закона распределения. Поэтому сгруппируем данные выборки, распределив их на равные интервалы значений,

и посчитаем соответствующие частоты попадания в каждый интервал.

Количество интервалов определяется по правилу Стёрджеса:

= 1 + log2 ,

где – объем выборки. Тогда для исследуемой выборки получаем

= 1 + log2 210 = 8.

Полученное статистическое распределение выборки в виде интервального ряда представлено на рисунке 1.2.

Рисунок 1.2 – Статистическое распределение выборки

Далее на основе полученного статистического распределения выборки была построена гистограмма частот (рисунок 1.3).

Рисунок 1.3 – Гистограмма частот

5

Исходя из графического представления полученной гистограммы частот, можно сделать следующие выводы о возможном законе распределения случайной величины : гистограмма иллюстрирует , что значения распределены неравномерно. Большая часть данных сосредоточена в начальных интервалах и заметен перекос влево относительно середины диапазона. Это может указывать на логнормальное распределение или другое асимметричное распределение.

Далее проверим статистическую гипотезу о виде закона распределения по критерию Пирсона. В качестве проверяемых законов распределения рассмотрим равномерное и нормальное распределения.

Непрерывная случайная величина , распределенная по равномерному закону, определяется двумя параметрами ( = 2) и имеет следующие функцию плотности распределения вероятностей и функцию распределения вероятностей:

1

 

 

 

 

 

 

 

1,

 

 

>

 

 

 

,

 

[ ; ] ;

 

 

 

 

 

 

 

 

 

 

 

 

( ) = {

,

 

 

 

( ) = {

 

 

[ ; ]

 

 

 

 

0,

 

 

[ ; ]

 

 

 

 

 

 

 

 

 

 

 

 

 

0,

 

 

<

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для получения оценок параметров и равномерного распределения

воспользуемся методом наибольшего правдоподобия:

 

 

 

 

 

 

 

 

 

= min = 0,133;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

{ = max

= 0,184.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычислим теоретические частоты попадания в интервал [

 

; ] для

 

 

 

 

 

 

 

 

 

 

 

 

 

−1

 

 

равномерного распределения с параметрами = 0,133 и

 

= 0,184 при

выборке объема = 210 по формуле:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= (

[

 

; ])

= ( ( ) − (

)) =

 

 

−1

.

 

 

 

 

 

−1

 

 

 

 

 

−1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычислим расчетное значение критерия Пирсона по формуле

 

 

 

 

 

 

 

 

( − )2

 

 

 

 

 

 

 

 

 

 

= ∑

 

 

 

= 145,047619.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

набл

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=1

6

Определим критическое значение критерия Пирсона при уровне

значимости = 0,05 по формуле

кр = 2( ; − − 1) = 2(0,05; 8 − 2 − 1) = 2(0,05; 5) = 11,07.

На рисунке 1.4 представлены подробности промежуточных вычислений.

Рисунок 1.4 – Расчеты для равномерного закона распределения

Можно сделать вывод, что Кнабл>Ккр, поэтому нулевую гипотезу о равномерном распределении мы отвергаем.

Непрерывная случайная величина , распределенная по нормальному закону, определяется двумя параметрами ( = 2) и имеет следующие функцию плотности распределения вероятностей и функцию распределения вероятностей:

( ) =

1

( − )2

( ) =

1

 

 

2 2

;

+ Ф (

).

 

 

 

 

 

√2

 

 

 

2

 

 

Для получения оценок параметров и нормального распределения воспользуемся методом наибольшего правдоподобия:

7

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

=

 

= 0,147632;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

в

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

= √

 

∑( −

 

)2

 

 

 

= 0,011008.

 

 

 

 

 

 

 

 

 

 

 

 

в

 

 

 

 

 

 

 

 

 

 

 

 

в

 

 

 

 

 

 

 

{

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычислим теоретические частоты попадания в интервал

[

; ] для

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

−1

 

нормального распределения с параметрами = 0,147632

и = 0,011008

при выборке объема = 210 по формуле:

 

 

 

 

 

 

 

 

 

= ( [

 

 

 

; ]) = ( ( )

− (

)) =

 

 

 

 

 

 

−1

 

 

 

 

 

 

 

 

 

 

 

 

−1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= (Ф (

 

 

 

 

 

 

) − Ф (

−1

 

 

)).

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычислим расчетное значение критерия Пирсона по формуле

 

 

 

 

 

( − )2

 

 

 

 

 

 

 

 

 

 

 

 

= ∑

 

 

 

 

 

 

= 92,27447459.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

набл

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=1

Определим критическое значение критерия Пирсона при уровне значимости = 0,05 по формуле

кр = 2( ; − − 1) = 2(0,05; 8 − 2 − 1) = 2(0,05; 5) = 11,07.

На рисунке 1.5 представлены подробности промежуточных вычислений.

Рисунок 1.5 – Расчеты для нормального закона распределения

8

Вывод для нормального закона распределения будет таким же, как и в равномерном законе распределения, а именно, что Кнабл>Ккр, поэтому нулевую гипотезу о нормальном распределении мы отвергаем.

9

2 ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ

Далее исследуем значимость влияния размера массива убывающих чисел на время его сортировки. Для этого с помощью исследуемой программы сформируем выборку при = 3 фиксированных значениях входного параметра (размер массива 1 = 10 000, 2 = 20 000 и 3 = 30 000

элементов) с многократным повторением ( = 10 раз). Фрагмент с результатами работы программы представлен на рисунке 2.1.

Рисунок 2.1 – Фрагмент с результатами работы программы

10

Соседние файлы в предмете Теория вероятностей и математическая статистика