Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
статистика часть 2.docx
Скачиваний:
7
Добавлен:
21.04.2019
Размер:
55.45 Кб
Скачать

1. Статистический вывод. Проверка гипотез

На практике часто приходится делать некоторые выводы по имеющемуся у нас небольшому объему данных (выборки) о свойствах всей генеральной совокупности. Эти выводы осуществляются с помощью определенных статистик и поэтому называются статистическими. Теория статистического вывода занимает центральное место в статистике. Основным способом, с помощью которого делаются статистические выводы, является проверка гипотез.

Существует два вида гипотез: 1) научные 2) статистические. Научная гипотеза – это предполагаемое решение некоторой проблемы. Она обычно формулируется в виде теоремы. Статистическая гипотеза – некоторое утверждение относительно неизвестного параметра или какой-либо характеристики. Например, среднее значение генеральной совокупности равно 125 х=125 или коэффициент корреляции равен 0 =0. Для проверки статистических гипотез используются статистические критерии, которые представляют собой некоторое правило, по которому мы делаем вывод о правильности или неправильности рассматриваемой статистической гипотезы.

2. Общая схема проверки статистической гипотезы

Она состоит из пяти этапов:

1 этап – выдвигаются две статистические гипотезы: 1) основная нулевая Н0 и 2) альтернативная (конкурирующая) Н1.

Например, Н0 среднее значение ГС = 125.

Н1 среднее значение ГС = 125. Математически это можно записать: Н0: х = 125

Н1: х = 125 ( х < 125 : x > 125).

2 этап – задаемся уровнем значимости . Статистический вывод никогда не может быть сделан со стопроцентной уверенностью. Всегда допускается риск принятия неправильного решения. При проверке статистических гипотез мерой такого риска и выступает уровень значимости, который обычно обозначается . Фактически уровень значимости представляет собой долю и процент ошибок, которые мы можем себе позволить при статистических выводах. Чаще всего используют следующие три значения уровня значимости. = 0,1 или 10%; = 0,05 или 5%; = 0,01 или 1%. Наиболее популярным из них является = 0,05 или 5% (допускается 5% ошибок, если всего 100 выборок).

3 этап – по исходным данным, т.е. по выборке вычисляется наблюдаемое значение статистики критерия. В общем случае будем ее обозначать gнабл. Для этого используются статистические таблицы. Выбор необходимой статистической таблицы осуществляется в зависимости от распределения статистики критерия. При проверке статистических гипотез статистика критерия выбирается (статистиками) таким образом, чтобы она имела одну из рассмотренных в параграфе 11 распределений.

5 этап – путем сравнения найденных наблюдаемых критических значений делаем вывод о правильности этой или иной гипотезы.

3. СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ ДВУХ НЕЗАВИСИМЫХ ВЫБОРОК Часто на практике возникает задача сравнения средних значений исследуемого показателя, признака для двух разных генеральных совокупностей. Например, одинаков ли средний уровень коэффициента IQ для мальчиков и девочек одного и того же возраста. При решении такой задачи необходимо, чтобы исследуемый признак был измерен в количественной шкале. Таким образом, будем считать, что в результате эксперимента в качестве исходных данных у нас имеются две выборки необязательно одинакового объема: х1, х2, …, хn и y1, y2, …, ym, где n = m. Необходимо обращать внимание на то, чтобы эти две выборки были независимыми, т.е. чтобы элементы 1 выборки не влияли на значения элементов 2 выборки. Для решения поставленной задачи воспользуемся общей схемой проверки статистической гипотезы.

1 этап. Выдвигаются две гипотезы: основная нулевая о том, что средние значения исследуемого признака двух рассматриваемых ГС статистически одинаковы и альтернативная гипотеза о том, что эти средние значения статистически различны.

Н0 : х = у, где х – среднее значение 1 ГС

Н1 : х = у, где х – среднее значение 2 ГС

2 этап. Задаемся уровнем значимости .

3 этап. Вычисляется наблюдаемое значение статистики критерия. Для этого сначала по исходным выборкам вычисляется среднее значение х и у

2 2

(см. меры центральной тенденции), а также дисперсии Sх Sy . Тогда наблюдаемое значение статистического критерия вычисляется по следующей формуле: 2 2

tнабл. = (х – у) : ((n - 1) Sx + (m – 1) Sy ) : (n + m – 2) ( 1/n + 1/m)

4 этап. Находим критическое значение статистики критерия. В нашем случае статистика критерия имеет t-распределение Стьюдента с числом степеней свободы

= n + m – 2

Поэтому для нахождения критического значения необходимо воспользоваться статистической таблицей распределения Стьюдента. В этой таблице находим столбец, соответствующий величине 1 - /2, если таблица называется квантили распределения или величине /2, если таблица называется верхние процентные точки распределения. В этой же таблице находим строку, соответствующую числу степеней свободы = n + m – 2, на пересечении выбранных строки и столбца и находится требуемое нам критическое значение tкр.

5 этап. Делаем вывод о правильности той или иной гипотезы по следующему правилу:

1) если - tкр< tнабл. < tкр, то принимается нулевая гипотеза Н0, т.е.на основе имеющихся данных мы делаем вывод о том, что средние значения двух рассматриваемых генеральных совокупностей статистически одинаковы на уровне значимости .

2) если же tнабл.< - tкр или tнабл. > tкр, то принимается альтернативная гипотеза Н1, т.е. делается вывод о том, что средние значения двух рассматриваемых ГС статистически различны на уровне значимости . Пример: был проведен эксперимент по исследованию влияния усовершенствованного пособия (вводный материал, подготавливаемый к восприятию изучаемого предмета) на успеваемость по определенному разделу математики. 50 учащихся были разбиты случайным образом на две группы: 25 (1 группа) знакомились с усовершенствованным пособием, а 25 (2 группа) не знакомились, в конце эксперимента всем учащимся был предложен тест на усвоение понятий определенного раздела математики. В качестве измеряемых признаков рассматривалось количество правильных ответов. Проверить гипотезу о наличии или отсутствии влияния усовершенствованного пособия на успеваемость по математике.

В нашем случае в качестве измеряемой переменной рассматривалось количество правильных ответов, поэтому она измерена в количественной шкале. Так как учащиеся разбивались на 2 группы случайно, то в результате эксперимента мы получили две независимых выборки. х1, х2, …, х25 и у1, у2, …, у25. По полученным выборкам были найдены средние значения х=7,65; 2 2

у=6,0 и дисперсии Sx=6,5 Sy=5,9 n=25 m=25 =0,05

t = (7,65 – 6,0) : (((25 – 1) 6,5 + (25 – 1) 5,9) : (25+25 – 2) (1/25 +1/25)) = 2,34. Найдем в статистической таблице tкр. /2 = 0,05/2 = 0,025. = 25 – 25 – 2 = 48

(часть таблицы) tкр = 2, 01 tнабл. > tкр., то мы должны принимать альтернативную гипотезу Н1 о статистическом различии средних значений. Имеется влияние усовершенствованного пособия на среднюю успеваемость по математике на уровне значимости 0,05 (5% ошибок допускается). Глядя на соотношение между х и у (в нашем случае х>у), делаем вывод, что усовершенствованное пособие повышает среднюю успеваемость по математике.

Примечания.

1. Рассмотренный в этом параграфе критерий должен применяться для выборок, извлеченных из ГС и имеющих нормальное распределение с одинаковыми дисперсиями.

2. Если исходные выборки извлечены не из нормальной ГС, то необходимо воспользоваться критерием, рассмотренным далее в параграфе 17 или критерием этого параграфа, но при этом помнить, что полученные выводы будут приближенными, т.е. могут оказаться неправильными.

3. Предположение о равенстве дисперсий может легко, если брать обе выборки одинакового объема.

4. Рассмотренный в этом параграфе критерий в литературе обычно называется t-критерий Стьюдента.

4 СРАВНЕНИЕ СРЕДНИХ ЗНАЧЕНИЙ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ ДВУХ ЗАВИСИМЫХ (СВЯЗАННЫХ) ВЫБОРОКИногда нам приходится измерять один и тот же признак (показатель) для одной и той же группы лиц, но в различные моменты времени. Например, до проведения эксперимента и после эксперимента. В результате в качестве исходных данных мы получаем две выборки одинакового объема х1, х2, …, хn и у1, у2, …, уn (одни и те же люди). Причем элементы выборки, стоящие на одном и том же месте в каждой из выборок должны соответствовать измененному показателю для одного и того же лица. Поэтому такие выборки часто называются связанными. Они являются зависимыми, т.к. значения элементов второй выборки зависят от значений элементов первой выборки. Исходные данные в рассматриваемом примере называются типа «до – после». Связанными выборками могут рассматриваться также данные типа «брат – сестра» (в 1 выборке показываем мальчиков, во второй – девочек), «муж – жена». Для таких данных можно рассмотреть задачу сравнения средних значений двух выборок, для решения которой применяется общая схема проверки статистической гипотезы.

1 и 2 этапы – см. 15.

3 этап – вычисляем наблюдаемое значение статистики критерия. Для этого сначала из двух исходных выборок получаем одну выборку разностей, которую будем обозначать d1, d2, …, dn, где di = xi – yi. По полученной

n

выборке разностей вычисляем среднее значение d = di : n, а также

n 2 i=1

стандартное отклонение Sd = (di – d) : (n – 1), тогда наблюдаемое

i=1

значение статистики критерия вычисляется по следующей формуле:

tнабл. = n d/Sd

4 этап – находим критическое значение статистики критерия. В нашем случае статистика критерия имеет t-распределение Стьюдента с числом степеней свободы = n – 1, поэтому для нахождения t-критического необходимо воспользоваться статистической таблицей распределения Стьюдента (см 4 этап 15 параграфа).

5 этап – делаем вывод о правильности той или иной гипотезы по следующему правилу:

1) если –tкр < tнабл. < tкр, то принимается нулевая гипотеза, т.е. делаем вывод о том, что средние значения ГС статистически одинаковы или, другими словами, проведенный эксперимент не оказал влияния на средние значения изучаемого показателя.

2) если tнабл. < - tкр или tнабл. > tкр, то принимается альтернативная гипотеза, т.е. мы делаем вывод о том, что средние значения рассматриваемых ГС статистически различны или, другими словами, эксперимент привел к изменению среднего значения изучаемого показателя. Для того, чтобы выяснить, в какую сторону произошло изменение среднего значения (стало больше или меньше), необходимо сравнить среднее значение двух исходных выборок х и у (арифметически). Примечание. 1) рассмотренный критерий должен применяться для выборок, извлеченных из ГС, имеющих нормальное распределение с одинаковыми дисперсиями. 2) если эти условия не выполняются, то необходимо воспользоваться критерием, рассмотренным далее в параграфе 18. 3) рассмотренный в данном параграфе критерий в литературе обычно называется парным t-критерием.

Пример: Был проведен эксперимент по исследованию влияния процесса обучения на уровень знаний студентов колледжа. 100 первокурсникам был предложен тест из 60 вопросов, этот же тест был предложен этим же студентам, но уже выпускникам (когда они уже отучились). В качестве измеряемого показателя рассматривалось количество правильных ответов. Проверить гипотезу о наличии либо отсутствии влияния процесса обучения в колледже на уровень знаний. Решение. В нашем эксперименте исходные данные представляют собой 100 пар значений типа «до – после», т.е. две связанные выборки х1, х2, …, х100 и у1, у2, …, у100. Выбираем уровень значимости = 0,01. По исходным выборкам была вычислена выборка разности, по которой было найдено d = - 7,02 Sd = 8,02 (стандартное отклонение) n = 100 tнабл. = 100 (- 7,02:8,02) = - 8,75. Будем искать по таблице tкр. /2 = 0,01:2 = 0,005 = n – 1 = 100 – 1 = 99. Выбираем из таблицы

Т.е. мы делаем вывод, что процесс обучения в колледже приводит к изменению среднего уровня знаний. d = - 7,02 < 0 d = х – у < 0 = х < у. Таким образом, средний уровень знаний за время обучения в колледже повысился.