Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
135
Добавлен:
11.03.2016
Размер:
2.54 Mб
Скачать

7.2.2. Статистический критерий

Статистический критерий- правило, которое применяется для проверки гипотез.

Статистический критерий включает в себя:

1) формулу расчёта эмпирического критерия по выборочным данным;

2) формулу для определения числа степеней свободы;

3) теоретическое распределение для данного числа степеней свободы;

4) правило соотнесения эмпирического значения критерия с теоретическим распределением для определения вероятности того, что H0 верна.

4.2.3. Принцип проверки статистических гипотез

Проверка статистической гипотезы заключается в следующем. Множество возможных значений статистического критерия разбивается точкой на два непересекающихся подмножества: критическую область (область отклонения гипотезы H0) и (область принятия гипотезы H0)

H0 H1

Если значение критерия, определённого по выборке, попадает в критическую область, то гипотеза H0 отвергается, и принимается альтернативная гипотеза H1, если попадает в , то гипотеза H0 принимается.

7.2.4. Ошибки при проверке гипотез

При проверке гипотез могут быть допущены ошибки.

Гипотеза

Отвергается

Принимается

Верна

неверна

ошибка 1-го рода ( α)

правильное решение

правильное решение

ошибка 2-го рода (β)

- вероятность ошибки 1-го рода – уровень значимости.

- вероятность ошибки 2-го рода;

- мощность критерия.

Обычно α=0,05; 0,01; 0,005; 0,001.

При испытании гипотез часто избежать одной из двух допустимых ошибок важнее, чем допустить другую. В этом случае ошибкой первого рода считается та из возможных ошибок, которую нам важнее избежать. Следовательно, нулевой гипотезой следует считать то предположение, отвержение которого в том случае, когда оно является истинным, приводило бы к ошибке первого рода.

Пример. Имеется программа машинного перевода текстов военно-оперативной тематики с одного языка (язык противника или союзника) на другой. Качество программы проверяется экспериментально с помощью выборки. Можно сформулировать две гипотезы: первая - «программа пригодна и её можно принять на вооружение» и вторая – «прграмма непригодна для качественного перевода и её надо отвергнуть»

Если за H0 принять первую гипотезу, то ошибка 1-го рода будет заключаться в том, что программа пригодна, а её отправят на доработку, чем потеряют время и средства.

Если же за H0 принять вторую гипотезу, то ошибка 1-го рода будет заключаться в том, что программа непригодна, а её примут на вооружение, что может привести к срыву военной операции. Понятно, что за H0 следует принять вторую гипотезу, т. к. ошибка 1-го рода в случае её непринятия, более серьёзна.

7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.

При рассмотрении лексикологических, фонологических проблем, связанных с сопоставлением различных языков, подъязыков и функциональных стилей, приходится сравнивать частоты употребления лингвистических единиц в разных стилях, подъязыках, художественных произведениях. Эти сопоставления осуществляются путём проверки гипотезы о существенности расхождения между соответствующими параметрами распределений интересующей исследователя лингвистической единицы.

Пример. Может ли средняя длина словоформы быть статистической характеристикой стиля и языка? Доказано, что распределение средних длин словоформ близко к нормальному, т.е. расхождения между средними длинами словоформ языков мира не является существенным. Но значит ли это, что такая несущетвеность расхождения будет наблюдаться и при сравнении средних длин словоформ одного функционального стиля?

Рассмотрим расхождения между средней длиной словоформы в научно-технической и деловой речи 6 славянских языков и средней длиной словоформы в указанных стилях всех языков мира ().

Сформируем гипотезы H0: ; Н1:

Для проверки гипотез можно использовать t-критерий Стьюдента или Z-критерий нормального распределения.

t-критерий Стьюдента. Чаще всего при лингвистических исследованиях величина σ неизвестна, поэтому в качестве статистической характеристики выбирается величина , имеющая распределение Стьюдента с v =n-1 степенями свободы. Примем уровень значимости α=0,05

а) Найдём по таблице Стьюдента , где ν = 6-1=5, α=0,05, 2,57;

б) Вычислим по формуле статистическое значение критерия, где =6,13; =7, S=0,43;

; =- 4,95;

в) Так как , то гипотеза H0 отвергается и принимается альтернативная гипотеза

Н1:

Z-критерий. Пусть в данной задаче величина σ известна: σ=S=0,43.

а) Тогда определим при α=0,05 по таблице Z-распределения: Zα=1,96

б) Найдём статистическое значение Z-критерия ; = - 4,95;

в) Сравним Zα и Z. Так как , то гипотеза Н0 отвергается, принимается гипотеза Н1.

Следовательно, расхождения между и средней длиной словоформ во всех языках мира являются существенными.

Это связано с тем, что славянские языки используют флективно-аналитическую технику оформления именных форм, которые составляют значительную часть деловых и научно- технических текстов во всех языках. Такую технику отличает незначительное удлинение основы.