Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
107 группе.doc
Скачиваний:
3
Добавлен:
04.09.2019
Размер:
717.82 Кб
Скачать
    1. Понятие о статистической гипотезе

Под статистической гипотезой понимается некоторое предположение о генеральной совокупности, которое может быть проверено на основе выборки. Поскольку предположение может касаться распределения численностей или количественной статистической характеристики генеральной совокупности, эти гипотезы получили название статистических. Большинство научных гипотез требуют экспериментальной проверки, а поскольку данные любого эксперимента, как уже говорилось, являются выборкой, то результаты любого эксперимента подлежат статистической обработке в режиме проверки гипотез. Такая обработка нужна для того, чтобы не повторяя до бесконечности эксперимент (не доводя объем данных до генеральной совокупности) иметь основание на основе единственного эксперимента (одной выборки) формулировать те или иные выводы

1.2 Общая схема проверки гипотез

Проверка любой статистической гипотезы включает в себя следующие этапы:

1.Формулировка двух гипотез : нулевой ( рабочей ) -Н0 и альтернативной –НА. Выбор нулевой гипотезы определяется с одной стороны практическими соображениями, а с другой законом распределения так называемого критерия. Практическая сторона состоит в следующем - в качестве нулевой гипотезы рекомендуется выдвигать предположение противоположное тому, во что изначально верит исследователь (экспериментатор). Дело в том, что из теории проверки гипотез следует, что если была принята нулевая гипотеза, то она не является единственно верной. Если же нулевая гипотеза была отвергнута и принята альтернативная (противоположная), то вывод этот является однозначным. Экспериментатор заинтересован в однозначном выводе, поэтому свое предположение («свою веру») он относит к альтернативной гипотезе.

О связи распределения критерия и выбора нулевой гипотезы будет сказано далее. В противоположность нулевой гипотезы выдвигается гипотеза альтернативная. В ходе проверки приходим к выводу о справедливости или нулевой, или альтернативной гипотезы.

2. Выбор критерия. Статистический критерий – это инструмент для проверки выдвинутых гипотез. По своему содержанию статистический критерий – это некая случайная величина, имеющая алгоритм расчета и закон распределения. Поскольку критерий имеет алгоритм расчета, его значение может быть рассчитано по выборке (так называемое фактическое значение критерия- ). А так как критерий имеет функцию (закон распределения) можно определить вероятность появления тех или иных значений критерия. Выбор критерия зависит во–первых от содержания гипотезы, то есть о чем выдвигается гипотеза: о распределении численности, о средней генеральной, о дисперсии генеральной совокупности и так далее, а во- вторых, от численности выборки, на основе которой проверяется гипотеза. Все статистические критерии подразделяются на параметрические и непараметрические. Параметрические критерии для своего использования выдвигают по отношению к выборке некие предварительные условия например, о законе ее распределения. Непараметрические критерии по отношению к выборке никаких предварительных условий не выдвигают. Выводы сделанные на основе параметрических критериев являются более надежными, поэтому им должно отдаваться предпочтение.

3. Выбор уровня значимости. Поскольку критерий имеет закон распределения , можно установить вероятность появления любых значений критерия, в том числе таких , вероятность появления которых настолько мала, что ей можно пренебречь или иными словами считать такое событие «неправдоподобным». В качестве нулевой гипотезы выдвигается предположение, при котором критерий вполне (то есть с достаточно высокой вероятностью) может принимать определенный круг значений. В качестве же альтернативной - предположение, при котором критерий принимает такой круг значений, вероятностью появления которых можно пренебречь. Круг значений (область значений) при котором принимается нулевая гипотеза, называется областью согласия, область значений, при которых нулевая гипотеза отвергается – критической областью или областью отказа. Пограничные между этими областями значения критерия занесены в таблицы, и если , то критерий находится в области согласия с нулевой гипотезой, в случае - в области отказа от нулевой гипотезы. Поскольку в основе принятия решения о справедливости той или иной гипотезы лежит вероятность появления различных значений критерия и поскольку значения критерия рассчитываются по выборочным данным при принятии решения возможны ошибки . Ошибка первого рода- нулевая гипотеза верна, но она отвергается . так как критерий оказался в критической области. Нулевую гипотезу отвергаем, но все же это событие возможно и оно присутствует в генеральной совокупности, хотя и с малой вероятностью. Ошибка второго рода – нулевая гипотеза не верна , но мы ее принимаем. Значение критерия оказалось в области согласия, но оказалось там случайно, поэтому принимаем ложную гипотезу. Вероятность отказа от ложной гипотезы называется мощностью критерия

Вероятность допущения ошибки первого рода – есть уровень значимости. Одновременно уровень значимости – это совокупная вероятность появления таких значений критерия, при которых отвергается нулевая гипотеза. Иногда уровень значимости трактуется упрощенно, как вероятность ошибки окончательного вывода относительно выдвинутых гипотез. Как правило, уровень значимости устанавливается самим исследователем не выше значения , стандартными уровнями значимости являются значения равные 0,05 и 0,01.

Из сказанного следует, что соотношение между областями согласия и критической регулируется уровнем значимости. На практике при статистической обработке результатов всегда следует предварительно оценивать материальные потери при допущении ошибок первого и второго рода. Тем ошибкам, которые влекут большие материальные потери должно отдаваться предпочтение, то есть они должны минимизироваться. Ошибки первого рода минимизируются путем уменьшения уровня значимости, ошибки второго рода, наоборот, увеличением уровня значимости до допустимых (0,10) значений

4.Расчет фактического значения критерия. Установление области его нахождения Поскольку, как уже говорилось ранее, критерий имеет алгоритм расчета, по выборке определяется его фактическое значение , затем сравнивая это значение с табличным формулируется вывод о справедливости одной из выдвинутых гипотез. Причем, выводы должны быть адекватны содержанию гипотезы и алгоритму проверки. Заключение следует делать с обязательной ссылкой на то, что оно сделано на основе выборке и о справедливости гипотезы можно говорить только с гарантией равной 1-

Резюме

Знание содержания статистических гипотез , общей схемы их проверки позволяет осуществить проверку любой гипотезы, грамотно сформулировать выводы , вытекающие из результатов проверки.

Лекция 5 Проверка гипотез о распределении численностей. Критерий Пирсона

Аннотация

Одним из основных типов гипотез являются гипотезы о распределении численностей. При распределении единиц по одному признаку признание справедливой одной из выдвинутых гипотез позволяет в последующем прогнозировать распределения. При распределении единиц по двум признакам проверка гипотез позволяет установить наличие или отсутствие взаимосвязи между признаками

Ключевые слова

Критерий Пирсона. Аспект согласия, аспект независимости, аспект однородности.

Рассматриваемые вопросы

Критерий как критерий согласия

Критерий как критерий независимости

Критерий как критерий однородности

Модульная единица 1

Критерий как критерий согласия

Цель и задачи изучения модульной единицы

В результате изучения данного аспекта использования критерия студент должен закрепить общую схему проверки статистических гипотез уяснить алгоритм расчета фактического значения критерия и особенности нахождения его табличного значения.

Одним из важнейших типов статистических гипотез являются гипотезы о распределении численности. Предпочтение при проверке такого рода гипотез должно отдаваться критерию - Пирсона. Данный критерий является параметрическим. Важнейшим условием применения этого критерия является независимость наблюдений по группам ( интервалам ). Кроме того, имеется чисто количественное ограничение, состоящее в том, что в каждом интервале должно быть не менее 5 (пяти) единиц наблюдений. Если число наблюдений меньше 5, этот интервал следует объединить с соседним. Объединение производят до тех пор пока в объединенном интервале будет не менее 5 единиц. Критерий используется в 3-х аспектах ( вариантах ) – как критерий согласия, как критерий независимости и как критерий однородности. Как критерий согласия критерий используется в том случае, если требуется проверить гипотезу о соответствии фактического распределения теоретическому ( ожидаемому ).

Последовательность проверки гипотез о распределении численностей с использованием критерия в аспекте согласия рассмотрим на примере

Имеются выборочные данные о распределении коров определенной породы по жирности молока ( в таблице 5.1.1 это фактические численности ). Требуется установить соответствует ли распределение коров всей породы ( в генеральной совокупности ) по жирности молока пропорции 1:2 :4 :2:1

В соответствии с общей схемой проверки гипотез на первом этапе выдвигаются две противостоящие друг другу гипотезы: Н0 (нулевая гипотеза) – распределение коров по жирности молока соответствует ожидаемой пропорции 1:2:4:2: 1 и НА (альтернативная гипотеза ) распределение коров обозначенной пропорции не соответствует. Такая постановка нулевой гипотезы связана с тем, что распределение таково, что вероятность появления значений соответствующих альтернативной гипотезе весьма незначительна. В конечном счете должна быть признана справедливой одна из этих гипотез, а вторая , соответственно отвергнута .

В качестве критерия для проверки выдвинутых гипотез можно использовать параметрический критерий , поскольку наблюдения по группам независимы друг от друга.

Далее следует установить уровень значимости (α )и соответственно 1- α = β -достоверность вывода. Примем для нашего примера α=0,01 и =0,99

На третьем этапе необходимо рассчитать фактическое значение критерия по формуле : факт = , где - фактические численности по группам ( интервалам) - ожидаемые численности, причем в качестве ожидаемых берутся численности соответствующие нулевой гипотезе (Н0 ), то есть численности соответствующие пропорции 1:2:4:2:1

В таблице 5.1.1 представлены последовательные этапы расчета фактического значения критерия , при этом ожидаемые численности устанавливались следующим образом: определялась общая численность выборки (1000 голов) затем эта общая численность разбивалась по группам в пропорции 1:2:4:2:1. исходя из того, что на одну часть приходится 1000:10 = 100 единиц (голов). В целом же, при проверке гипотезы о соответствии фактического распределения ожидаемому, ожидаемые частоты следует определять умножая следовательно общую численность выборки на теоретическую вероятность появления тех или иных значений признака, по которому построено распределение.

Фактическое значение критерия определим суммируя отношения

(ni - ñi ) / ñi по последней строке таблицы факт = 0,16+0,72+0,72+0,08 +8,41 = 10,09.

На заключительном этапе проверки статистических гипотез фактическое значение критерия необходимо сравнить с его табличной (критической) величиной. В нашем примере табл определяется принятым уровнем значимости ( α=0,01) и числом степеней свободы, которое при данном аспекте применения критерия равно df( , где = 5 – число интервалов ( групп ), k- число параметров определяющих теоретическое ( ожидаемое ) распределение. Поскольку в нашем примере ожидаемое распределение носит опытный характер k=0 число степеней свободы будет равно df( = 5-1 =4, Следовательно, табл=13,28. Поскольку фактическое значение критерия ( 10,09 ) оказалось меньше табличного ( 13.28 ) справедливой должна быть признана нулевая гипотеза – с вероятностью ошибки в 1% распределение коров данной породы по жирности молока соответствует пропорции 1: 2 :4 :2 :1 .

Резюме

Установив соответствие фактического распределения ожидаемому, можно прогнозировать ожидаемые численности по группам , интервалам, исходя из общей численности совокупности

Модульная единица 2 - как критерий независимости

Цель изучения данной модульной единицы - освоить еще один аспект использования критерия , который имеет весьма широкое применение при обработке экспериментальных данных, когда эти данные носят характер распределения численностей (растений, животных, земельных участков) и предназначены для установления наличия или отсутствия взаимосвязи между признаками.

в качестве критерия независимости используется в том случае, если выборочная совокупность распределена одновременно по 2- м признакам и необходимо установить зависит ли распределение по одному признаку от распределения по-другому. Выборочные данные в этом случае могут быть представлены в виде такой, например, таблицы с двумя входами, где по первому признаку выделено три группы интервала k=3, а по второму четыре l=4 :

В качестве нулевой гипотезы выдвигается предположение, что распределение по первому признаку не зависит от распределения по второму. Такая постановка нулевой гипотезы определяется во-первых тем, что этой гипотезе принадлежит абсолютное большинство возможных значений критерия, а во-вторых исследователь, как правило верит в то, что эта зависимость имеет место, поэтому в качестве нулевой гипотезы выдвигается противоположное предположение. Альтернативной гипотезой будет предположение о наличии взаимосвязи между распределениями. С практической точки зрения справедливость нулевой гипотезы означает отсутствие взаимосвязи между признаками, справедливость альтернативной – наличие такой взаимосвязи в генеральной совокупности.

В качестве критерия воспользуемся критерием , при этом надо предварительно подтвердить отсутствие внутри групп взаимосвязи между наблюдениями. Фактическое значение критерия при использовании его в качестве критерия независимости определяется по той же формуле, что и аспекте согласия, при этом , поскольку распределение имеет место 2- м признакам формула несколько усложняется , то есть отношения должны быть просуммированы вначале по строкам, а затем по столбцам ( или наоборот ) , то есть

Ожидаемые частоты должны соответствовать нулевой гипотезе о независимости распределений; математически это означает, что распределение единиц по столбцам внутри каждой строки должно таким же, как по столбцам распределяется вся совокупность и соответственно распределение единиц по строкам внутри каждого столбца должно быть таким каково распределение единиц по строкам в целом по совокупности. Этот принцип реализуется в формуле , то есть для нахождения ожидаемой частоты с координатами: строка s и столбец p надо обратиться к фактическим частотам, найти произведение итога по строке s на итог по столбцу р и полученное произведение разделить на общую численность совокупности. Действительно, эта формула адекватна выше указанному принципу поскольку отношение - это доля строки s в общей численности совокупности и эту долю мы распространяем на то есть на столбец p . Отношение есть доля столбца р в общей численности совокупности и эту долю мы распространяем на строку s.

При определении ожидаемых частот естественно следует производить округление до целых значений. Правильность расчета ожидаемых частот проверяется сравнением итогов по строкам и столбцам для фактических и ожидаемых частот. Эти итоги должны совпадать (за счет округления могут иметь место несовпадения в несколько единиц). Численность каждой ожидаемой частоты должна превышать 5 единиц, в противном случае, прежде чем рассчитывать фактическое значение критерия следует произвести объединение интервалов.

В заключение найденное фактическое значение критерия ( факт ) следует сравнить с табличным ( табл ), при этом табличное значение зависит от установленного уровня значимости и от числа степеней свободы, которое в данном аспекте использования критерия рассчитывается по формуле df ( = (k-1)(l=1), где к и l - соответственно число строк и столбцов. В зависимости от соотношения факт и табл принимается соответственно или нулевая или альтернативная гипотезы.

Резюме

Рассмотренный аспект применения критерия имеет самое широкое практическое использование. При его реализации следует максимально уделить внимание правомерности использования названного критерия и достаточной численности наблюдений по интервалам.

Модульная единица 3 - как критерий однородности

Цель изучения этой модульной единицы освоить своеобразный аспект применения критерия . Своеобразность его состоит в постановке гипотез, а также в алгоритме расчета фактического значения критерия

Как критерий однородности используется в том случае , если имеются две выборочных совокупности, каждая из которых распределена по одному и тому же признаку . Требуется установить одинаковым или нет является распределение двух генеральных совокупностей , из которых сделаны выборки. С практической точки зрения проверка этой гипотезы позволяет установить сходны или нет между собой состав (структура ) двух генеральных совокупностей, что в свою очередь дает основание применять одинаковые или разные методы управления этими совокупностями .

В качестве нулевой гипотезы выдвигается предположение , что две генеральные совокупности однородны по составу. Данная постановка нулевой гипотезы соответствует подавляющему большинству значений критерия. В качестве альтернативной гипотезы выдвигается предположение, что совокупности не однородны.

Особенность расчета фактического значения критерия при использовании его в этом аспекте состоит в том, что в отличие от ранее рассматриваемых аспектов, где фактические частоты сравниваются с ожидаемыми ( теоретическими ), в данном аспекте фактическое значение критерия находится на основе частот двух выборок :

, где - численность каждой j – ой из к групп в первой совокупности; - общая численность первой выборочной совокупности ; - численность каждой j- ой из к групп второй совокупности ; - общая численность второй выборочной совокупности ; - доля каждой j –ой группы в первой выборке ; - доля каждой j- ой группы во второй выборочной совокупности ;

+ - общая численность группы j в обеих выборочных совокупностях. Исходя из приведенной формулы фактическое значение критерия при рассматриваемом аспекте его использования зависит в первую очередь от разности в долях каждой из групп в выборках, а также от «веса» этих групп в изучаемых совокупностях, который выражается в сумме + . Табличное значение критерия при данном аспекте его использования определяется уровнем значимости ( ) и числом степеней свободы, которое равно df ( = k -1, где k , как уже говорилось , число групп, на которое подразделена каждая из совокупностей.

Сопоставляя фактическое значение рассматриваемого критерия с табличным формулируется соответствующий вывод.

Резюме

Последний из рассматриваемых аспектов использования критерия позволяет сделать вывод, что в совокупности с ранее рассматриваемыми аспектами применение изучаемого критерия позволяет использовать выборочные совокупности для всесторонней проверки генеральных совокупностей на предмет схожести их структур, соответствия распределения теоретическому, наличия взаимосвязей

Лекция 6

Проверка гипотез относительно средних по данным одной и двух выборок

Аннотация

В данной лекции будут представлены алгоритмы проверки гипотез относительно одного из важнейших параметров генеральной совокупности- среднего значения признака. Кроме того, будут освещены вопросы проверки гипотез относительно доли признака и принадлежности резко выделяющихся значений признака исследуемой совокупности. Поскольку речь идет о проверке гипотез, изложение материала будет соответствовать общей схеме проверки гипотез изложенной ранее.

Ключевые слова

Гипотеза, генеральная средняя, выборки зависимые, выборки независимые, критерий t - Стьюдента, критерий t –нормального распределения, - преобразование.

Рассматриваемые вопросы

1. Поверка гипотезы относительно генеральной средней. Гипотеза направленная и ненаправленная.

2. Проверка гипотезы относительно средних по данным двух выборок. Выборки зависимые и независимые.

3.Проверка гипотезы относительно долей признака

4. Проверка гипотезы о принадлежности резко выделяющихся значений признака исследуемой совокупности.

Модульная единица 1 Проверка гипотезы относительно генеральной средней. Гипотеза направленная и ненаправленная

Цель и задачи изучения модульной единицы состоят в освоении алгоритма проверки гипотезы относительно генеральной средней по данным большой и малой выборок, в установлении содержания ненаправленных и направленных гипотез и особенностей их проверки

Проверка гипотезы относительно генеральной средней включает в себя следующие этапы :

1) Формулировка нулевой и рабочей гипотез. В качестве нулевой гипотезы выдвигается предположение Такая постановка нулевой гипотезы отражает особенности распределения критериев, используемых для проверки выдвинутых гипотез, а также тот факт, что исследователь чаще всего уверен в том, что . В качестве альтернативной гипотезы могут быть выдвинуты две (ненаправленная альтернативная гипотеза) и или (направленная альтернативная) гипотеза.

2) Выбор критерия. В качестве критериев для проверки выдвинутых гипотез могут использоваться два: критерий t –нормального распределения (если численность выборки, на основе которой проверяется гипотеза более 30 единиц) или критерий t - Стьюдента (если численность выборки менее 30 единиц ).

3) Установление уровня значимости. Подход к уровню значимости традиционен, хотя здесь особое внимание следует уделить анализу и сопоставлению ошибок первого и второго рода.

4)Расчет фактического значения критерия. Как критерий t –нормального распределения, так и критерий t - Стьюдента определяются по данным выборки по одному и тому же алгоритму , где - рассчитанное по выборке значение средней; - предполагаемое в генеральной совокупности среднее значение признака; = - средняя ошибка выборочной средней, при условии, что среднее квадратическое отклонение по выборке составило величину S, а численность выборки равна n

5)Табличное значение критерия при ненаправленной альтернативной гипотезе устанавливается следующим образом: табличное значение критерия t –нормального распределения зависит только от уровня значимости, табличное значение критерия t - Стьюдента – от уровня значимости и числа степеней свободы, равного d f ( ) = n-1

В случае направленной гипотезы, как видно из ее содержания, критическая область присутствующая при ненаправленной гипотезе разделяется на две части- одна часть остается в критической области , а другая переходит в область согласия. Например, при ненаправленной гипотезе к критической области будут относятся все значения критерия независимо от знака , то есть , строго говоря, значение критерия следует брать по модулю. При направленной альтернативной гипотезе, например, , к критической области будут относится фактические значения критерия, при условии что они положительные, отрицательные значения фактического значения критерия по модулю превосходящие табличное значение относятся к области согласия .

Отсюда следует: поскольку соотношение между областями согласия и критической регулируется уровнем значимости, при направленной альтернативной гипотезе чтобы выйти на установленный заранее уровень значимости, табличное значение следует брать с удвоенным его уровнем ( ), хотя окончательный вывод формулируется с принятым заранее уровнем.

6) Формулировка окончательного вывода относительно выдвинутых гипотез происходит по традиционной схема: если принимается , если - альтернативная с учетом ее содержания

( направленная или ненаправленная)

Резюме

При традиционной схеме проверки гипотез относительно генеральной средней следует обратить внимание на выбор критерия (t –нормального распределения или критерий t - Стьюдента), а также на содержание альтернативной гипотезы (ненаправленная или направленная)

Модульная единица 2 Проверка гипотезы относительно средних по данным двух выборок.

Цель и задачи изучения модульной единицы состоят в освоении схемы и алгоритмов проверки гипотез, лежащих в основе статистической обработки экспериментов , представленных двумя вариантами: типа «контроль» - «опыт»

Если имеют место две выборки, то они могут быть зависимыми и независимыми. В двух зависимых выборках наблюдения попарно взаимосвязаны некой общностью, в независимых такая взаимосвязь отсутствует.

Отнесение выборок к зависимым и независимым меняет постановку гипотез и соответственно алгоритм их проверки.