
- •Часть1. Тематический план дисциплины
- •Часть 2. Конспекты лекций 8
- •Часть 3. Вопросы и задания для практических работ. 79
- •Часть 4. Задания для самостоятельной работы 92
- •Часть 5. Лабораторные работы 97
- •Часть1. Тематический план дисциплины «Основы математической обработки информации»
- •Часть 2. Конспекты лекций
- •1.1. Исторические периоды развития математики.
- •1.2. Основы теории множеств
- •1.2.1. Начальные понятия теории множеств.
- •2.1.3. Основные понятия комбинаторики
- •2) Перестановка из n элементов – это размещение из n элементов по n.
- •2.2. Начальные понятия теории вероятностей
- •2.2.2. Определения вероятности событий
- •3.1. Действия над событиями
- •3.2. Вероятность суммы событий
- •3.3. Вероятность произведения событий.
- •3.4. Вычисление вероятности цепочек языковых элементов.
- •3.5. Формула полной вероятности. Формула Байеса.
- •1 H2) Формула полной вероятности.
- •3.6. Теорема Бернулли
- •3.7. Вероятностное моделирование порождения текста.
- •3.8. Предельные теоремы в схеме Бернулли
- •4.1. Случайная величина (св). Начальные понятия.
- •4.2. Функция распределения св (интегральная функция распределения) f(X)
- •4.3. Функция плотности вероятности нсв f(X)
- •4.4. Числовые характеристики св
- •4.5. Законы распределения случайных величин.
- •1) Биномиальный закон распределения.
- •2) Закон Пуассона
- •3) Нормальное распределение (закон Гаусса)
- •6. Вероятность попадания нсв х в заданный промежуток
- •7. Логнормальное распределение
- •5.1. Система двух случайных величин (двумерная св) (1 час)
- •5.1.1. Начальные понятия.
- •5.1.2. Операции над независимыми случайными величинами
- •5.1.3. Числовые характеристики системы двух св
- •5.2. Предельные теоремы теории вероятностей: Закон больших чисел, Центральная предельная теорема и их значение для лингвистического эксперимента.(1 час)
- •5.2.1. Теорема Чебышева для среднего арифметического случайных величин.
- •6.1. Предмет математической статистики. Генеральная и выборочная совокупность.
- •6.2. Статистическое распределение выборки и его графическое изображение
- •6.2.1. Дискретный статистический ряд
- •6.2.2. Интервальный статистический ряд
- •6.3. Числовые характеристики статистического распределения
- •Лекция 7. Элементы теории статистических оценок и проверки гипотез.
- •7.1 Статистические оценки параметров распределения и их свойства. Оценка параметров генеральной совокупности по выборке
- •7.1.1. Свойства статистических оценок:
- •7.1.2. Точечные оценки математического ожидания, дисперсии и вероятности.
- •7.1.3. Интервальное оценивание параметров.
- •7.1.4. Доверительные интервалы для параметров нормального распределения
- •7.1.5. Число степеней свободы
- •7.1.7. Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •7.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез.
- •7.2. Проверка статистических гипотез.
- •7.2.1. Статистические гипотезы.
- •7.2.2. Статистический критерий
- •4.2.3. Принцип проверки статистических гипотез
- •7.2.4. Ошибки при проверке гипотез
- •7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.
- •7.2.6. Проверка гипотез с помощью непараметрических критериев.
- •Часть 3. Вопросы и задания для практических работ.
- •I. Элементы комбинаторики.
- •Часть 4. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1. Значения интегральной функции Лапласа
- •Приложение 2. Критические значения ( распределение Пирсона)
7.2.2. Статистический критерий
Статистический критерий- правило, которое применяется для проверки гипотез.
Статистический критерий включает в себя:
1) формулу расчёта эмпирического критерия по выборочным данным;
2) формулу для определения числа степеней свободы;
3) теоретическое распределение для данного числа степеней свободы;
4) правило соотнесения эмпирического значения критерия с теоретическим распределением для определения вероятности того, что H0 верна.
4.2.3. Принцип проверки статистических гипотез
Проверка
статистической гипотезы заключается
в следующем. Множество возможных значений
статистического критерия
разбивается точкой
на
два непересекающихся подмножества:
критическую область
(область
отклонения гипотезы H0)
и
(область
принятия гипотезы H0)
H0 H1
Если
значение критерия, определённого по
выборке,
попадает в критическую область
,
то гипотеза H0
отвергается, и принимается альтернативная
гипотеза H1,
если
попадает
в
,
то гипотеза H0
принимается.
7.2.4. Ошибки при проверке гипотез
При проверке гипотез могут быть допущены ошибки.
-
Гипотеза
Отвергается
Принимается
Верна
неверна
ошибка 1-го рода ( α)
правильное решение
правильное решение
ошибка 2-го рода (β)
-
вероятность
ошибки 1-го рода – уровень
значимости.
-
вероятность ошибки 2-го рода;
-
мощность
критерия.
Обычно α=0,05; 0,01; 0,005; 0,001.
При испытании гипотез часто избежать одной из двух допустимых ошибок важнее, чем допустить другую. В этом случае ошибкой первого рода считается та из возможных ошибок, которую нам важнее избежать. Следовательно, нулевой гипотезой следует считать то предположение, отвержение которого в том случае, когда оно является истинным, приводило бы к ошибке первого рода.
Пример. Имеется программа машинного перевода текстов военно-оперативной тематики с одного языка (язык противника или союзника) на другой. Качество программы проверяется экспериментально с помощью выборки. Можно сформулировать две гипотезы: первая - «программа пригодна и её можно принять на вооружение» и вторая – «прграмма непригодна для качественного перевода и её надо отвергнуть»
Если за H0 принять первую гипотезу, то ошибка 1-го рода будет заключаться в том, что программа пригодна, а её отправят на доработку, чем потеряют время и средства.
Если же за H0 принять вторую гипотезу, то ошибка 1-го рода будет заключаться в том, что программа непригодна, а её примут на вооружение, что может привести к срыву военной операции. Понятно, что за H0 следует принять вторую гипотезу, т. к. ошибка 1-го рода в случае её непринятия, более серьёзна.
7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.
При рассмотрении лексикологических, фонологических проблем, связанных с сопоставлением различных языков, подъязыков и функциональных стилей, приходится сравнивать частоты употребления лингвистических единиц в разных стилях, подъязыках, художественных произведениях. Эти сопоставления осуществляются путём проверки гипотезы о существенности расхождения между соответствующими параметрами распределений интересующей исследователя лингвистической единицы.
Пример. Может ли средняя длина словоформы быть статистической характеристикой стиля и языка? Доказано, что распределение средних длин словоформ близко к нормальному, т.е. расхождения между средними длинами словоформ языков мира не является существенным. Но значит ли это, что такая несущетвеность расхождения будет наблюдаться и при сравнении средних длин словоформ одного функционального стиля?
Рассмотрим
расхождения между средней длиной
словоформы в научно-технической и
деловой речи 6 славянских языков
и средней длиной словоформы в указанных
стилях всех языков мира (
).
Сформируем
гипотезы H0:
;
Н1:
Для проверки гипотез можно использовать t-критерий Стьюдента или Z-критерий нормального распределения.
t-критерий
Стьюдента. Чаще
всего при лингвистических исследованиях
величина σ
неизвестна, поэтому в качестве
статистической характеристики выбирается
величина
,
имеющая распределение Стьюдента с v
=n-1
степенями свободы. Примем уровень
значимости α=0,05
а)
Найдём по таблице Стьюдента
,
где ν
= 6-1=5, α=0,05,
2,57;
б)
Вычислим по формуле
статистическое значение критерия, где
=6,13;
=7,
S=0,43;
;
=-
4,95;
в)
Так
как
,
то гипотеза H0
отвергается и принимается альтернативная
гипотеза
Н1:
Z-критерий. Пусть в данной задаче величина σ известна: σ=S=0,43.
а) Тогда определим при α=0,05 по таблице Z-распределения: Zα=1,96
б)
Найдём
статистическое
значение Z-критерия
;
=
- 4,95;
в)
Сравним Zα
и Z.
Так как
,
то гипотеза Н0
отвергается, принимается гипотеза Н1.
Следовательно,
расхождения между
и средней длиной словоформ во всех
языках мира являются существенными.
Это связано с тем, что славянские языки используют флективно-аналитическую технику оформления именных форм, которые составляют значительную часть деловых и научно- технических текстов во всех языках. Такую технику отличает незначительное удлинение основы.