Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лабор1. Эконом 2 курс.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
5.86 Mб
Скачать

ТЮМЕНСКАЯ ГОСУДАРСТВЕННАЯ

СЕЛЬСКОХОЗЯЙСТВЕННАЯ АКАДЕМИЯ

ЛАБОРАТОРНЫЙ ПРАКТИКУМ

ПО

МАТЕМАТИЧЕСКОЙ

СТАТИСТИКЕ

методические указания

и варианты индивидуальных заданий

для выполнения расчётно-графической

работы

Часть 1

г. Тюмень, 2012

Предисловие

В сборнике содержатся методические указания и варианты лабораторной работы по теме: «Первичная обработка результатов наблюдения методом математической статистики. Оценка параметров «нормального» распределения. Проверка гипотезы о нормальном законе распределения».

Цель выполнения лабораторной работы – привить студентам навыки самостоятельной обработки эмпирически полученных данных с помощью основных методов математической статистики. Привить навыки по овладению методом проверки статистической гипотезы о нормальном законе распределения изучаемой случайной величины.

Содержание лабораторного практикума обеспечивает самостоятельное выполнение расчётно-графической работы.

Описание лабораторной работы включает краткие теоретические сведения и план выполнения работ:

  • алгоритм вычисления;

  • образец выполнения работы;

  • контрольные вопросы;

  • варианты заданий.

Лабораторный практикум содержит 50 вариантов и гарантирует индивидуальность его выполнения.

Наличие алгоритма позволяет все расчёты производить как в «ручном» режиме так и с помощью ЭВМ.

Рекомендуется для инженерных, экономических, биологических и агрономических специальностей.

Лабораторная работа №1

Первичная обработка результатов наблюдения методом математической статистики. Оценка параметров «нормального» распределения. Проверка гипотезы о нормальном законе распределения случайной величины.

Цель работы: Привить навыки первичной обработки эмпирических данных с помощью методов математической статистики. Привить навыки по овладению методом проверки статистической гипотезы о нормальном законе распределения изучаемой случайной величины.

Содержание работы:

1. Группировка данных в вариационный ряд и представление в виде эмпирической функции распределения.

2. Графическое изображение вариационного ряда и эмпирической функции распределения.

3. Вычисление основных числовых характеристик выборочной совокупности.

4. Определение границ истинных значений числовых характеристик, изучаемой случайной величины с заданной надёжностью.

5. Содержательная интерпретация результатов первичной обработки по условию задачи.

6. Проверка гипотезы о нормальном законе распределения с помощью:

  • критерия Пирсона,

  • критерия Романовского,

  • критерия Ястремского,

  • критерия Колмогорова,

- приближенного метода с использованием .

Форма отчета:

1. Представление работы по указанному в методике образцу.

2. Самостоятельное изучение теоретического материала с помощью предлагаемых контрольных вопросов.

3. Устное собеседование по работе, сдача зачета.

§ 1.1 Краткие теоретические сведения и план выполнения работы

Изучение свойств случайных величин методом математической статистики основано на первичной обработке результатов наблюдений, выраженных в числовой форме.

Целью первичной обработки является представление первичной числовой информации в более обозримой, сжатой форме, а также получение сведений об основных закономерностях изучаемой совокупности случайных величин.

В математической статистике различают генеральную совокупность и выборочную.

Под генеральной совокупностью понимается все мыслимое множество случайных объектов, обладающих общностью некоторого, изучаемого в данном исследовании, признака. Это множество, как правило, счетное.

Выборочная совокупность (выборка)- эта часть генеральной совокупности, которая фактически изучается.

Для того, чтобы по выборке можно было достаточно уверенно судить о свойствах генеральной совокупности она должна быть репрезентативной, т.е. достаточной по численности, случайной по отбору с соблюдением равной возможности каждого элемента генеральной совокупности попасть в выборку.

Теоретической основой выборочного метода является теорема Чебышева.

Теорема: с вероятностью, сколь угодно близкой к достоверности можно утверждать, что при достаточно большом числе наблюдений, ограниченной дисперсии генеральной совокупности попарно независимых случайных величин, разность между средним арифметическим и средним арифметическим их математических ожиданий будет сколь угодно малой, т.е.

в частности ,

где - средняя для выборочной совокупности;

-средняя для генеральной совокупности;

-как угодно малое положительное число.

Итоги эмпирических наблюдений представляют собой простой статистический ряд- таблицу числовых значений изучаемой случайной величины. Известно, что, если находить числовые характеристики, предварительно сгруппировав полученные данные, то их значения будут ближе подходить к истинным значениям аналогичных характеристик генеральной совокупности.

Первичная обработка результатов наблюдений и проверка гипотезы состоят из нескольких этапов. Рассмотрим содержание каждого из них.

Этап I. Группировка данных в вариационный ряд и представление его в виде функции распределения.

Для того, чтобы статистические данные представить в виде вариационного ряда с равноотстоящими вариантами необходимо:

1.В исходной таблице эмпирических данных найти наименьшее ( ) и наибольшее ( ) значения.

2.Определить размах варьирования:

3. Наметить число интервалов группировки. Имея в виду, что выделением большого числа групп можно затушевать общую картину распределения, малое же число не позволит выявить характерную особенность изучаемой случайной величины. Исходя из опыта рекомендуется выделять от 5 до 20 групп так, чтобы каждая группа была достаточно наполнена значениями вариант. Можно также воспользоваться формулами:

где s-число групп, n-объем выборки.

4. Определить длину интервала

.

Если вычисленное отношение – число иррациональное, то его округляют до удобного целого значения.

5. Записать интервалы группировок и расположить их в порядке возрастания границ

, ,………., ,

где - нижняя граница первого интервала. За берется удобное “круглое” число не большее , верхняя граница последнего интервала должна быть не меньше .Это делается для того, чтобы интервалы содержали в себе исходные значения случайной величины.

6. Разнести исходные данные по интервалам группировок, т.е. подсчитать по исходной таблице число значений случайной величины, попадающих в указанные интервалы. Если некоторые значения совпадают с границами интервалов, то их относят либо только к предыдущему, либо только к последующему интервалу.

Записать интервальный ряд частот и относительных частот.

7. От интервального ряда перейти к дискретному. Для этого каждый интервал заменить его средним значением, оставив частоты и относительные частоты без изменения.

8. Записать эмпирическую функцию распределения.

где - число вариант, значения которых меньше чем ;

n - число всех значений, объем выборки.

………………………..

F*(x) определяет относительную частоту события (X<x).

Замечание №1. Интервалы необязательно брать равными по длине. На участках, где значения располагаются гуще, удобнее брать более мелкие короткие интервалы, а там где реже - более крупный.

Замечание №2. Появление “граничных” значений нежелательно, это ведет к смещению эмпирического распределения от его истинного положения на числовой оси влево, либо вправо, выбирая границы, регулирования длину интервала, следует этого избегать.

Замечание №3 Если для некоторых значений получены “нулевые”, либо малые значения частот , то необходимо перегруппировать данные, укрупняя интервалы (увеличивая шаг ).

Этап II. Графическое изображения ряда и эмпирической функции распределения.

Графически интервальный вариационный ряд изображается либо в виде гистограммы частот – ступенчатой фигуры, состоящей из прямоугольников, основанием которых служат интервалы группировки, а высоты равны отношению частоты к длине интервала , либо в виде гистограммы относительных частот, когда высоты прямоугольников равны отношению относительной частоты к длине интервала группировки .

Дискретный вариационный ряд графически изображается в виде полигона частот или относительных частот.

Полигон частот – это ломаная линия, отрезки которой соединяют точки с координатами ( ).

Полигон относительных частот – это ломанная линия, отрезки которой соединяются точками с координатами ( ).

Эмпирическая функция распределения графически изображается в виде линии, изменяющейся скачкообразно. На оси абсцисс откладывается значения интервалов, на оси ординат соответствующие им вероятности (значения функции), вычисляемые по формуле , где .

Скачки наблюдаются при переходе от одного интервала к другому.

Графическое изображение вариационных рядов и эмпирической функции распределения лучше уяснить на конкретном примере в разделе “Образец выполнения задания”.

Этап III. Вычисление числовых характеристик.

Вычисление числовых характеристик осуществляются по следующим формулам:

1. Среднее арифметическое

.

2. Дисперсия вычисляется либо по определению

либо по формуле , где и - начальные эмпирические моменты первого и второго порядков.

3. Среднее квадратическое отклонение

.

4. Исправленная дисперсия

.

5. Исправленное среднее квадратическое отклонение

.

6. Коэффициент асимметрии

,

где - центральный эмпирический момент третьего порядка, он вычисляется либо по определению

,

либо по формуле

,

где - начальные эмпирические моменты первого, второго и третьего порядков.

7. Коэффициент эксцесса

,

где - центральный эмпирический момент четвертого порядка. Он вычисляется либо по определению

либо по формуле ,

,

8.Коэффициент вариации

,

( , )

Замечание 1: Так как все числовые характеристики выражаются через , то удобнее вначале вычислить числовые значения , а затем значения числовых характеристик.

Замечание 2: Для упрощения расчетов, если они выполняются “вручную” удобнее перейти от данных значений вариант к условиям по формуле

,

где h – длина интервала группировки,

С – ложный нуль.

Чаще всего в качестве ложного нуля принимается либо варианта, находящаяся в середине вариационного ряда, либо мода (варианта , имеющая наибольшую частоту), либо любое другое число, упрощающее расчеты.

Если за принять какое - либо значение , то соответствующая ему условная варианта будет равна нулю, а слева и справа от нуля будут располагаться соответственно значения 1, 2, 3, 4 и т.д.

Если, например, , то вариационный ряд в условных вариантах примет вид

-2

-1

0

1

2

Промежуточные расчеты при вычислении числовых характеристик удобнее оформлять в виде таблицы. Затем вычисляют условные эмпирические моменты по формуле . После вычисления числовых характеристик в условных вариантах необходимо перейти к первоначальным значениям вариант по формулам:

Этап IV. Определение границ истинных значений числовых характеристик изучаемой величины с заданной надежностью.

Числовые характеристики, вычисленные по случайной выборке из генеральной совокупности, лишь приближенно характеризуют истинные значения аналогичных характеристик изучаемой генеральной совокупности. Поэтому возникает вопрос о надежности, с которой можно принять вычисленные значения и о границах допустимых значений. Частично эти вопросы решаются путем нахождения доверительных (надежностных) интервалов для основных числовых характеристик.

Надежностный интервал для генеральной средней имеет вид:

или ,

где - среднее выборочное

n – объем выборки

, если большая выборка ( ),

t – значение аргумента функции Лапласа, при котором она равна , t – находится по таблицам значений функции Лапласа из условия

,

где - вероятность суждений, называемая надежностью. Она выбирается самим исследователем. Значения =0.95, как правило, считается достаточным для большинства исследований. Надежностный интервал с вероятностью содержит в себе генеральную среднюю.

Замечание. Если выборка мала (n<30), то надежностный интервал для генеральной средней имеет вид:

где S – исправленное выборочное среднеквадратическое отклонение, - число, взятое из таблицы значений по объему выборки n и надежности .

При больших n результаты нахождения надежноcтного интервала двумя указанными способами практически неразличимы.

Надежностный интервал для среднеквадратического отклонения имеет вид

,

т.е. определяется выражением q или, если левая часть отрицательна, то ее отбрасывают и интервал примет вид

,

где S - исправленное выборочное среднее квадратическое отклонение,

q – табличное значение критических точек , оно зависит от объема выборки n и заданной надежности .

Этап V. Содержательная интерпретация результатов первичной обработки данных по условию задачи.

Итогом первичной обработки данных служит содержательная интерпретация результатов произведенных вычислений.

Арифметическое среднее, вычисленное по выборочным данным, представляет собой обобщенную характеристику всей совокупности значений в целом. Значение - являясь как бы точкой сгущения значений, характеризует центральное положение возможных значений случайной величины.

Доверительный интервал указывает на то, что с вероятностью , генеральная средняя изучаемой случайной величины заключена в найденном интервале, или, что данный интервал с надежностью содержит в себе истинное среднее значение генеральной совокупности .

Среднее квадратическое отклонение служит показателем, который дает представление о наиболее вероятной средней ошибке отдельного, единичного наблюдения, взятого из данной совокупности.

Основные значения, ядро вариационного ряда содержится в интервале

, или .

Отклонение от , превосходящее по модулю возможны, но вероятность их уменьшается по мере удаления от , .

Надежностный интервал с вероятностью содержит в себе значение генерального среднего квадратического отклонения.

Коэффициент асимметрии - указывает на нарушение симметрии, наличие скоса.

Если , то скос наблюдается справа, если , то слева, если , то распределение симметричное.

Коэффициент эксцесса - указывает на характер вершины распределения.

Если , то распределение островершинное, это говорит о том, что значения признака не значительно разбросаны вокруг среднего значения. Если , то распределение пологое, это говорит о том, что значения признака значительно разбросаны вокруг среднего значения. Если , то распределение совпадает со стандартным нормальным.

Коэффициент вариации V – стандартное отклонение, выраженное в процентах к средней арифметической данной совокупности. Он является относительным показателем изменчивости. Если V<10%, то изменчивость считают незначительной, если 10%< V <20% то изменчивость считают средней, если V>20%, то изменчивость значительная.

Использование коэффициента вариации V как показателя колеблемости (вариации) имеет смысл только при положительных значениях вариант и совершенно не применимо, если варианты принимают как положительные так и отрицательные значения.

Рассмотренные числовые характеристики необходимо сопоставлять с вариационным рядом, его графическим изображением и интерпретировать с учетом единиц измерения и содержания, указанных в условиях задачи.

Этап VI. Проверка гипотезы о нормальном законе распределения

Проверка гипотезы о нормальном законе распределения изучаемой случайной величины относится к задачам первичной обработки эмпирических данных. Она важна как для обоснованного применения методов математической статистики, так и как самостоятельный метод. Зная, что эмпирическое распределение, является нормальным, можно наблюдение заменить расчетом, выявить, плохо обозримые по опытным данным, свойства и тенденции изменения изучаемой случайной величины.

Суть проверки статистической гипотезы о нормальном законе распределения (как, впрочем и любого другого) состоит в сравнении данных о случайной величине, полученных эмпирическим путем и теоретическим, которая производится с помощью некоторой критериальной величины.

Пусть известно эмпирическое распределение частот признака X.

Тогда, теоретическое распределение вычисляется в предположении, что изучаемая случайная величина подчиняется нормальному закону распределения с параметрами , и имеет вид

Если дан интервальный вариационный ряд, то вычисляется по формуле:

В случае дискретного вариационного ряда:

, где .

Учитывая, что величина промежутков группировки вариационного ряда, как правило, постоянна и равна h, то

.

Значение находится по таблице с названием «Таблица значений функции », а значение по таблице с названием «Таблица значений функции ».

Если гипотеза о нормальном законе верна, то расхождение между эмпирическими и теоретическими данными должны расцениваться как случайное, а сходство как неслучайное.

Для характеристики степени расхождения (или сходства) вводят специальную меру, критериальную величину U . Она может быть выбрана различными способами. Например, в качестве U можно взять сумму квадратов отклонений теоретических вероятностей от эмпирических с учетом весовых коэффициентов, или же максимальное отклонение эмпирической функции распределения от теоретической F(х).

Очевидно, что величина U зависит от результатов наблюдений, от их числа и закона распределения, следовательно, сама является величиной случайной, подчиняющейся некоторому своему закону распределения. Этот закон, как правило, хорошо изучен, выведена функция плотности распределения, составлены таблицы значений U.

Итак, значение меры U можно найти по формуле на основе эмпирических данных вариационного ряда (U наблюдаемое) и по специальной таблице (U табличное).

Если гипотеза о выбранном законе распределения верна, то значение меры расхождения, вычисленной на основе опытных данных (Uнабл) не должно превышать возможного ее теоретического значения (Uтабл.), то есть Uнабл. ≤ Uтабл., или, что тоже самое: если вероятность события P(Uнабл.U табл.) - велика, то гипотеза о предполагаемом нормальном законе распределения принимается на определенном уровне значимости , в противном случае гипотеза отвергается, считается, что эмпирические данные плохо согласуются с теоретическими.

Отметим, что факт принятия гипотезы ни в коем случае не может считаться доказательством её справедливости. Он указывает лишь на то, что гипотеза не противоречит опытным данным. Аналогично, факт не принятия гипотезы, не опровергает её, а говорит лишь об её несогласованности с имеющимся набором опытных данных.

Наиболее распространенные критерии согласия: критерий согласия Пирсона, Романовского, Ястремского, Колмогорова.

Критерий согласия Пирсона.

В качестве меры расхождения между теоретическим и эмпирическим распределениями принимается величина «хи-квадрат»:

где - эмпирическая частота; - теоретическая частота.

Согласно закону распределения величины составлена таблица «Критические точки распределения », или под названием «Значение в зависимости k, ».

Из таблицы по известным k и находят и сравнивают его с , вычисленным по указанной формуле с учетом эмпирических данных.

Если < ( , k), то гипотеза о нормальном законе принимается на уровне значимости , другими словами, есть основания считать, что эмпирические и теоретические частоты различаются незначимо, различия случайны. В противном случае гипотеза отвергается на выбранном уровне значимости.

Если по таблице находить не ( , k), а вероятность, с которой принимается значение случайной величины равное при известном числе степеней свободы k, т.е. находить вероятность Р( > ), то вывод о гипотезе зависит от величины этой вероятности.

Если Р, найденное по известным и k значительно отличается от 0, практически больше 0.1, то гипотеза принимается, а в противном случае - отвергается.

Для этого способа существует таблица «Значение вероятностей для критерия ».

Критерий согласия Романовского

В качестве меры близости эмпирического и теоретического распределений В.И.Романовский предложил использовать величину , но с учетом числа степеней свободы k, то есть, он предложил вычислять величину

,

где k - число степеней свободы.

Если , то это дает основание для принятия гипотезы, в противном случае, когда , расхождения между эмпирическим и теоретическим распределениями считаются существенными и гипотеза о нормальном законе не принимается.

Критерий согласия Ястремского

В качестве меры близости эмпирического и теоретического распределений, Б.С. Ястремский предложил использовать величину , но с учетом числа группировок, то есть

где s – количество групп выборки;

Q – величина, зависящая от количества групп, но при числе групп, меньшем 20, она принимается равной 0,6.

Если l <3, то эмпирическое распределение согласуется с теоретическим, то есть гипотеза принимается. Если ,то эмпирическое распределение не укладывается в теоретическое и гипотеза отвергается.

Критерий согласия Колмогорова

В качестве меры расхождения между теоретическим и эмпирическим распределениями А.Н.Колмогоровым предложена величина D - максимальное значение модуля разности между эмпирической функцией распределения и соответствующей теоретической функцией распределения F(x), то есть

D = max |F*(x) - F(x)|.

Или, если вместо функций распределения использовать накопленные частоты, то

D = max |NN/|

где N - накопленная эмпирическая частота;

N' - накопленная теоретическая частота.

В качестве критериальной величины используется , где

D = max |N - N'|.

Величина λ случайная, значения Р(λ) затабулированы. Таблица имеет название: «Значение функции ». По таблице на основе вычисленного λ находят Р(λ). Если Р(λ) сравнительно велико, практически больше 0.05, то гипотеза принимается. Если Р(λ) мало, практически меньше 0.05, то гипотезу следует отвергнуть, как малоправдоподобную.

Действия критерия основаны на том, что максимальное расхождение (теоретическое) должно быть больше, или, в крайнем случае, равно фактически наблюдаемому, то есть вероятность должна быть отличной от нуля.

Замечание. Критерий Колмогорова применяется только в том случае, когда параметры предполагаемого закона распределения известны, если они находятся из опытных данных, то критерий дает заведомо завышенное значение Р(λ).

Приближенная проверка

В практике часто используется приближенная проверка на нормальность, в основе которой лежат более простые рекомендации, использующие значения числовых характеристик и свойства нормального закона распределения.

Рассмотрим приближенную проверку с использованием .

Известно, что если случайная величина подчиняется нормальному закону распределения, то её значения удовлетворяют следующим условиям:

- промежуток содержит примерно часть, или 25% всей совокупности значений;

- промежуток содержит примерно часть, или 50%;

- промежуток содержит примерно часть, или 75%;

- промежуток содержит примерно 1, или 100%.

Если эти соотношения выполняются для данной эмпирической совокупности и вычисленных и , то гипотеза о нормальном законе распределения может быть принята. Если хотя бы одно из них не выполняется, то гипотеза отвергается.

Отметим также, что при проверке на нормальность достаточно большим должно быть не только общее число опытов n, но и число наблюдений в отдельных интервалах. На практике рекомендуется иметь в каждом интервале не менее 5-10 наблюдений. Если число наблюдений в отдельных интервалах мало, то имеет смысл объединить некоторые интервалы.