Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
2
Добавлен:
27.11.2024
Размер:
1.46 Mб
Скачать

Министерство образования и науки Российской Федерации

Саратовский государственный технический университет

Балаковский институт техники, технологии и управления

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА И ПРОГНОЗИРОВАНИЕ

Методические указания к самостоятельной работе по дисциплине «Математическая статистика и прогнозирование»

для студентов очного и заочного обучения по направлению 230400.62 «Информационные системы и технологии»

Одобрено

редакционно-издательским советом

Балаковского института техники,

технологии и управления

Балаково 2014

ВВЕДЕНИЕ

Цель работы - формирование у студентов, изучающих дисциплину «Математическая статистика и прогнозирование», умений и навыков самостоятельной учебной деятельности как при выполнении самостоятельных работ на аудиторных занятиях, так при выполнении внеаудиторной самостоятельной работы.

Виды самостоятельной работы, реализуемые в дисциплине «Математическая статистика и прогнозирование»:

1. Самостоятельное изучение теоретического курса, включающее:

а) самостоятельное изучение теоретического материала с использованием рекомендуемой литературы;

б) подготовка устных ответов на контрольные вопросы, приведенные после каждой темы.

2. Самостоятельное освоение практического курса, включающее самостоятельную работу по решению задач.

По каждому виду работы студент должен выполнить задания, приведенные в данных методических указаниях по самостоятельной работе.

.

ТЕМЫ, ИЗУЧАЕМЫЕ В КУРСЕ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА И ПРОГНОЗИРОВАНИЕ

Математическая статистика раздел математики, изучающий методы сбора, систематизации и обработки наблюдений с целью выявления статистических закономерностей.

Первая задача математической статистики – указать способы получения, группировки и обработки статистических данных, собранных в результате наблюдений, специально поставленных опытов или произведённых измерений.

Вторая задача математической статистики – разработка методов анализа статистических сведений в зависимости от целей исследования. Например, целью исследования может быть:

-оценка неизвестной вероятности события;

-оценка параметров распределения случайной величины;

-оценка неизвестной функции распределения случайной величины;

-проверка гипотез о параметрах распределения или о виде неизвестного распределения;

-оценка зависимости случайной величины от одной или нескольких случайных величин и т.д.

Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надежность и точность выводов, делаемых на основании ограниченного статистического материала.

2

Тема 1. Основы выборочного метода и элементы статистический теории оценивания

Свойства распределений Пирсона, Стьюдента и Фишера

Равномерный закон распределения. Непрерывная случайная величи-

на X имеет равномерный закон распределения на отрезке [a, b], если ее

плотность вероятности постоянна на этом отрезке и равна нулю вне его, т.е.

Примеры случайных величин, имеющих равномерное распределение

– время ожидания автобуса, ошибка при взвешивании, измерении. Равномерный закон распределения используется при анализе ошибок округления при проведении числовых расчетов, в ряде задача массового обслуживания, при статистическом моделировании наблюдений, подчиненных заданному распределению.

Пример 1. Измерения проводят линейкой с ценой деления 1 мм. Показания измерений округляют до ближайшего целого значения. а) Найти вероятность того, что при отсчете будет сделана ошибка, превышающая 0,1 мм. б) Найти математическое ожидание, дисперсию и среднее квадратичное отклонение случайной величины Х, равномерно распределенной в интервале [0; 1].

а) Р(0,1<Х<0,9) = (0,9 - 0,1) / (1 - 0) = 0,8, т.е. 80%.

б) МХ = (0 + 1)/ 2 = 0,5; DX = (1 - 0)2 /12 = 0,08 и σ(Х) = 0,29.

Показательный (экспоненциальный) закон распределения. Непре-

рывная случайная величина X имеет показательный (экспоненциальный) закон распределения с параметром λ >0, если ее плотность вероятности имеет вид:

Примеры случайных величин, имеющих показательное распределение – период времени работы прибора между поломками, затраты времени на обслуживание одного станка. Показательный закон распределения играет большую роль в теории массового обслуживания и теории надежности.

Пример 2. Длительность времени безотказной работы элемента имеет показательное распределение с параметром = 0,01. Найти вероятность

3

того, что за время длительностью 50 часов: а) элемент откажет; б) элемент не откажет.

а) Р(0 <X<50) = 1 – 0,607 = 0,393, т.е. с вероятностью

39,3% элемент откажет за период времени 50 часов.

б) 1 – 0,393 = 0,607, т.е. с вероятностью 60,7% элемент не откажет.

Нормальный закон распределения. Непрерывная случайная величина X

имеет нормальный закон распределения с параметрами a и , если ее

плотность вероятности имеет вид:

Обозначение:

Нормальный закон распределения с параметрами , т.е.

N(0;1), называется стандартным или нормированным.

Функция распределения нормально распределенной случайной величины имеет вид:

Вероятность попадания случайной величины X, распределенной по нормальному закону, в интервал [], равна:

где – функция Лапласа.

Функция Лапласа нечетная: Ф(-x) = - Ф(х), ее значения затабулированы. Вероятность попадания случайной величины в интервал, симметрич-

ный относительно математического ожидания :

Если , то . Отсюда следует правило "трех сигм": если , то практически достоверно, что значения случайной величины Х заключены в интервале .

Нормальное распределение возникает всегда, когда на величину влияет большое количество случайных факторов (и ни один из них не является доминирующим). Нормальный закон распределения занимает центральное место в теории и практике вероятностно-статистических методов. Он является предельным законом, к которому приближаются многие другие законы распределения.

Пример 3. Случайная величина Х распределена нормально с параметрами =8 и =3. Найти вероятность того, что случайная величина попадет в интервал [12,5; 14].

Р(12,5<Х<14) = = Ф(2) – Ф(1,5) = 0,4772 – 0,4332 =

0,0440, т.е. с вероятностью 4,4% случайная величина попадет в заданный

4

интервал.

Распределение хи-квадрат . Распределением Пирсона или хиквадрат с k степенями свободы называется распределение суммы квадратов k независимых случайных величин, распределенных по стандартному нормальному закону.

Пусть – совместно независимые стандартные нормальные случайные величины, т.е. , тогда случайная величина

имеет распределение хи-квадрат с k степенями свободы.

Обозначение: Распределение затабулировано. Распределение зависит от одно-

го параметра k – числа степеней свободы. С возрастанием k распределение приближается к нормальному закону распределения (при k ≥ 30 распределение практически не отличается от нормального. В математической статистике распределение хи-квадрат используется для построения интервальных оценок и статистических критериев.

Распределение Стьюдента (t-распределение).

Пусть – независимые стандартные нормальные случайные величины, такие, что . Тогда распределение случайной величины t:

называется распределением Стьюдента с k степенями свободы, .

Обозначение: .

Распределение Стьюдента затабулировано. Распределение Стьюдента сходится к стандартному нормальному при . Распределение Стьюдента применяется в статистике для построения доверительных интервалов

итестирования гипотез, касающихся неизвестного среднего статистической выборки из нормального распределения.

Распределение Фишера (Фишера-Снедекора).

Пусть – независимые случайные величины, имеющие распределение хи-квадрат со степенями свободы m

иn соответственно: , . Тогда распреде-

ление случайной величины

5

называется распределением Фишера со степенями свободы m и n.

Обозначение: Распределение Фишера затабулировано. Распределение Фишера ис-

пользуют при проверке гипотез об адекватности модели в регрессионном анализе, о равенстве дисперсий и др.

Квантили распределений

При статистической обработке данных, нахождении доверительных границ для параметров распределений случайных величин и во многих иных случаях используется такое понятие, как квантиль порядка р, где 0 < p < 1. Квантиль – это функция обратная F(x), аргумент функции – вероятность р.

Квантилью распределения случайной величины Х, отвечающей вероятности р, называется такое значение хр, которое случайная величина Х не превосходит с вероятностью р:

Р(Х< xp) = p = F(xp ).

На практике распределения Пирсона, Стьюдента и Фишера используют, как правило, не в виде зависимостей, а находя квантили, соответствующие заданной вероятности.

Пример 4. Случайная величина распределена по закону Пирсона (хиквадрат) с числом степеней свободы равным 20. Найти интервал, в который случайная величина попадает с вероятностью 0,95.

Примем, что заштрихованные области равны между собой (см. рис. 4), т.е. P(<) =0,95 и P() = P() = (1-0,95) /2 = 0,025.

Для правой границы P() = 0,025. По Приложению 5 находим

=34,2.

Для левой границы P() = 1 - P(), т.е. левую границу ищем как правую для P() = 1 - P() = 1 – 0,025 = 0,975. По Приложению 5 находим =9,59.

Следовательно, значение случайной величины, распределенной по закону с числом степеней свободы k = 20, с вероятностью 0,95 принадлежит интервалу [9,59; 34,2].

Пример 5. Случайная величина Х распределена по закону Стьюдента с числом степеней свободы равным 30. Найти симметричный интервал, в который случайная величина попадает с вероятностью 0,98.

6

Р(- х < t < х) = Р(< x) = 0,98 и P() = P(x) = (1-0,98) /2 = 0,01

По таблице распределения Стьюдента для двусторонней области находим x = = 2,75. Следовательно, значение случайной величины, распределенной по закону Стьюдента с числом степеней свободы k = 30, с вероятностью 0,98 принадлежит интервалу [-2,75; 2,75] .

Пример 6. Случайная величина Х распределена по закону Фишера с числом степеней свободы m = 10 и n =12. Найти значение квантиля уровня

0,99 (см. рис. 6).

Р(F > x) = 1 – 0,99 = 0,01. По Приложению 7 находим х = = 4,30. Следовательно, квантиль уровня 0,99 случайной величины, распределенной по закону Фишера с числом степеней свободы m = 10 и n =12, равен значению 4,30.

Определение объема выборки

Определение объема выборки для оценки математического ожида-

ния. Чтобы определить объем выборки, необходимый для оценки математического ожидания генеральной совокупности, следует учесть величину ошибки выборочного исследования и доверительный уровень. Кроме того, необходима дополнительная информация о величине стандартного отклонения. Для того чтобы вывести формулу, позволяющую вычислить объем выборки, начнем с формулы (1)

где Х̅– среднее значение выборки, Z — значение стандартизованной нормально распределенной случайной величины, соответствующее интегральной вероятности, равной 1 – α/2, σ — стандартное отклонение генеральной совокупности, n – объем выборки

В этой формуле величина, добавляемая и вычитаемая из , равна половине длины интервала. Она определяет меру неточности оценки, возникающей вследствие ошибки выборочного исследования, которая обозначается символом е и вычисляется по формуле

(2) e = Z

Решив уравнение (2) относительно n, получим:

(3) n =

Пример 7. Предположим, что из информационной системы извлечена выборка, состоящая из 100 накладных, заполненных в течение последнего месяца. Компания желает построить интервал, содержащий математическое ожидание генеральной совокупности, доверительный уровень которого равен 95%. Как был определен объем выборки? Следует ли его уточнить?

Допустим, что после консультаций с экспертами, работающими в

7

компании, статистики установили допустимую ошибку выборочного исследования равной ±5 долл., а доверительный уровень — 95%. Результаты предшествующих исследований свидетельствуют, что стандартное отклонение генеральной совокупности приближенно равно 25 долл. Таким образом, е = 5, σ = 25 и Z = 1,96 (что соответствует 95%-ному доверительному уровню). По формуле (3) получаем:

Следовательно, n = 96. Таким образом, объем выборки, равный 100, был выбран удачно и вполне соответствует требованиям, выдвинутым компанией.

Метод произведений для вычисления выборочных средней и дисперсии

Метод произведений – это удобная техника вычислений условных моментов различных порядков вариационного ряда с равноотстоящими вариантами. Зная условные моменты, нетрудно найти начальные и центральные эмпирические моменты.

Равностоящими называют варианты, которые образуют арифметическую прогрессию с разностью h.

Условными называют варианты, определяемые равенством:

где С - ложный нуль (новое начало отсчета);

h - шаг, т. е. разность между любыми двумя соседними первоначальными вариантами (новая единица масштаба).

Замечание 1. В качестве ложного нуля можно принять любую варианту Максимальная простота вычислений достигается, если выбрать в качестве ложного нуля варианту, которая расположена примерно в середине вариационного ряда (часто такая варианта имеет наибольшую частоту)

Замечание 2. Варианте, которая принята в качестве ложного нуля, соответствует условная варианта, равная нулю.

Условные моменты вычисляются по формулам:

Тогда выборочная средняя равна:

и выборочная дисперсия равна:

8

Правило сложения дисперсий

Если исходная совокупность является такой, что по значениям признака она делится на l групп, то общая дисперсия складывается из частных дисперсий.

Сначала вычисляем l частных средних ( x j ), т.е. среднее значение признака в каждой группе:

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

fij

 

 

 

 

 

 

 

x

j

 

i1

 

 

.

 

 

 

 

 

 

 

 

n j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

На основе частных средних определяем общую среднюю ( X ) по

формулам

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

l

 

 

 

~

 

xi mi

~

 

x j n j

 

 

i1

 

 

или

 

j1

.

 

X

 

 

X

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

N

 

 

 

 

 

 

 

Общая дисперсия совокупности

 

 

 

 

 

 

 

k

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

(xi X )2 mi

 

 

 

 

 

 

 

i1

 

 

 

 

.

 

 

 

 

 

 

 

общ

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Общая дисперсия отражает вариацию признака за счет всех факторов, действующих в данной совокупности.

Вариацию между группами за счет признака-фактора, положенного в основу группировки, отражает межгрупповая дисперсия, которая исчисляется как средний квадрат отклонений групповой средней от общей средней:

 

l

 

~

 

 

 

 

 

 

(x j X )2 n j

 

2

j1

 

 

.

 

 

N

 

 

 

 

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, т.е. вариацию между группами за счет призна- ка-фактора, положенного в основу группировки.

Вариацию внутри каждой группы изучаемой совокупности отражает внутригрупповая дисперсия, которая исчисляется как средний квадрат от-

клонений значений признака х от частной средней x j :

 

 

k

 

 

 

k

 

 

 

 

 

(xi

x

j )2 fij

 

 

 

xi2 fij

 

 

 

2j

 

i1

 

2j

 

i1

(

 

j )2 .

или

x

n j

n j

 

 

 

 

 

 

 

 

Для всей совокупности внутригрупповую вариацию будет выражать

средняя из внутригрупповых дисперсий, которая рассчитывается как средняя арифметическая из внутригрупповых дисперсий:

9

l

2j n j

 

 

j1

 

 

2

 

.

 

 

 

 

 

N

Внутригрупповая дисперсия отражает случайную вариацию, т.е. часть вариации обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основу группировки.

Между представленными видами дисперсий существует определенное соотношение, которое известно как правило сложения дисперсий:

общ2 2 2 .

Таким образом, общая дисперсия складывается из двух слагаемых: первое – средняя из внутригрупповых дисперсий – измеряет вариацию внутри частей совокупности, второе – межгрупповая дисперсия – вариацию между средними этих частей.

Пример 8. Определим групповые дисперсии, среднюю из групповых дисперсий, межгрупповую дисперсию, общую дисперсию по данным о производительности труда в двух бригадах:

 

Количество рабочих,

Изготовлено

имеющих соответствующую

деталей за час, шт. (про-

производительность труда

изводительность труда)

 

 

в бригаде 1

в бригаде 2

 

 

 

 

хi

fi1

fi2

10

1

0

12

3

0

14

3

1

16

2

3

18

1

2

 

 

 

20

0

4

 

 

 

Промежуточные расчеты занесем в таблицы:

 

Бр. 1

Бр. 2

 

Промежуточные расчеты для

 

 

определения средних величин

хi

 

 

mi

fi1

fi2

хi·fi1

хi·fi2

хi·mi

 

 

 

 

 

 

 

 

 

10

1

0

1

10

0

10

 

 

 

 

 

 

 

12

3

0

3

36

0

36

 

 

 

 

 

 

 

14

3

1

4

42

14

56

 

 

 

 

 

 

 

16

2

3

5

32

48

80

 

 

 

 

 

 

 

18

1

2

3

18

36

54

20

0

4

4

0

80

80

Σ

n1=10

n2=10

N=20

Σхi·fi1=138

Σхi·fi2=178

Σхi· mi =316

 

 

 

 

10