Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции ТВ и МС.docx
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
2.79 Mб
Скачать

Число степеней свободы

Число степеней свободы определяет то количество сведений, которое остаётся свободным после использования всей совокупности сведений для определения некоторой статистической характеристики.

Фиксирование объёма выборки и суммирование её значений накладывает на совокупность сведений одну линейную связь (всегда можно вычислить любое значение выборки, если другие значения известны и известно ). Значит число степеней свободы ν=n-1.

В биномиальном распределении и в распределении Пуассона учитываются 2 связи: одна связь, которая возникает при суммировании частот, вторая – связь, которая образуется при определении теоретических параметров распределения (р – при биномиальном и а для распределения Пуассона). Здесь число степеней свободы ν=n-2. При нормальном распределении ν=n-3, т.к.число параметров нормального распределения равно двум ( ).

Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.

Величина абсолютной ошибки, которая допускается при использовании относительной частоты события А вместо его вероятности, равна , отсюда .

Эта формула применяется при исследованиях употребительности грамматических, фонетических и фонологических единиц, которые обычно дают нормальное распределение и вероятность которых не очень мала.

Пример. По данным предварительного исследования относительная частота употребления мягких согласных фонем в украинских драматургических текстах равна 0,0828. Необходимо, при заранее заданных максимальной абсолютной ошибке и надёжности определить минимально достаточный объём выборки для получения достоверных сведений об употребительности мягких согласных фонем в украинских драматургических текстах. [Пиотровский, 1977, c. 293]

Подставляя данные в формулу , получаем

Ответ: объём выборки должен быть больше 60 тыс. фонем.

В ходе лексикологических исследований нужно принять во внимание, что относительные частоты лексических единиц обычно очень малы, следовательно разности близки к 1 и .

Пример. Относительная частота словосочетания split cylinder «разрезной цилиндр» в английских текстах по строительным материалам составляет 0,000175. Необходимо определить минимально достаточный объём выборки, удовлетворяющий надёжности 0,95 и 33% относительной ошибке . Следовательно, объём выборки должен быть не менее 202190 словоупотреблений.

6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез

Одна из основных задач применения статистических методов в языкознании состоит в решении вопроса о том, можно ли на основании выборки принять некоторое предположение (гипотезу) относительно генеральной лингвистической совокупности.

Статистические гипотезы

Статистическая гипотеза – всякое предположение о генеральной совокупности, проверяемое по выборке. Гипотезу нельзя доказать, её можно только принять или опровергнуть.

Проверкой статистических гипотез называется процедура сопоставления статистической гипотезы с выборочными данными.

Простая гипотеза –об одном значении параметра, в противном случае - сложная гипотеза.

Выделяют гипотезы : – основная или нулевая гипотеза H0 и

H1- альтернативная гипотеза - логическое отрицание гипотезы H0.

Например, H0: М(Х1)=М(Х2), т.е. различие средних значений двух совокупностей не значимо.

Тогда H1: М(Х1)≠М(Х2) – различие средних статистически значимо.

Параметрические гипотезы – о параметрах распределения генеральной совокупности.

Непараметрические гипотезы – о неизвестном законе распределения генеральной совокупности.

Статистический критерий

Статистический критерий – правило, которое применяется для проверки гипотез.

Статистический критерий включает в себя:

– формулу расчёта эмпирического критерия по выборочным данным;

– формулу для определения числа степеней свободы;

– теоретическое распределение для данного числа степеней свободы;

– правило соотнесения эмпирического значения критерия с теоретическим распределением для определения вероятности того, что H0 верна.

Принцип проверки статистических гипотез

Проверка статистической гипотезы заключается в следующем. Множество возможных значений статистического критерия разбивается точкой на два непересекающихся подмножества: критическую область (область отклонения гипотезы H0) и (область принятия гипотезы H0)

H0 H1

Если значение критерия, определённого по выборке, попадает в критическую область , то гипотеза H0 отвергается, и принимается альтернативная гипотеза H1, если попадает в , то гипотеза H0 принимается.

Ошибки при проверке гипотез

При проверке гипотез могут быть допущены ошибки.

Гипотеза

Отвергается

Принимается

Верна

неверна

ошибка 1-го рода ( α)

правильное решение

правильное решение

ошибка 2-го рода (β)

- вероятность ошибки 1-го рода – уровень значимости.

Обычно α=0,05; 0,01; 0,005; 0,001.

– вероятность ошибки 2-го рода;

мощность критерия.

При испытании гипотез часто избежать одной из двух допустимых ошибок важнее, чем допустить другую. В этом случае ошибкой первого рода считается та из возможных ошибок, которую нам важнее избежать. Следовательно, нулевой гипотезой следует считать то предположение, отвержение которого в том случае, когда оно является истинным, приводило бы к ошибке первого рода. Пример. Имеется программа машинного перевода текстов военно-оперативной тематики с одного языка (язык противника или союзника) на другой. Качество программы проверяется экспериментально с помощью выборки. Можно сформулировать две гипотезы: первая – «программа пригодна и её можно принять на вооружение» и вторая – «прграмма непригодна для качественного перевода и её надо отвергнуть»

Если за H0 принять первую гипотезу, то ошибка 1-го рода будет заключаться в том, что программа пригодна, а её отправят на доработку, чем потеряют время и средства.

Если же за H0 принять вторую гипотезу, то ошибка 1-го рода будет заключаться в том, что программа непригодна, а её примут на вооружение, что может привести к срыву военной операции. Понятно, что за H0 следует принять вторую гипотезу, т. к. ошибка 1-го рода в случае её непринятия, более серьёзна.