- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
Проверка лингвистических гипотез с помощью параметрических критериев
При рассмотрении лексикологических, фонологических проблем, связанных с сопоставлением различных языков, подъязыков и функциональных стилей, приходится сравнивать частоты употребления лингвистических единиц в разных стилях, подъязыках, художественных произведениях. Эти сопоставления осуществляются путём проверки гипотезы о существенности расхождения между соответствующими параметрами распределений интересующей исследователя лингвистической единицы.
Пример. Может ли средняя длина словоформы быть статистической характеристикой стиля и языка? Доказано, что распределение средних длин словоформ близко к нормальному, т.е. расхождения между средними длинами словоформ языков мира не является существенным. Но значит ли это, что такая несущетвеность расхождения будет наблюдаться и при сравнении средних длин словоформ одного функционального стиля?
Рассмотрим
расхождения между средней длиной
словоформы в научно-технической и
деловой речи 6 славянских языков
и средней длиной словоформы в указанных
стилях всех языков мира (
).
Сформируем
гипотезы H0:
;
Н1:
Для проверки гипотез можно использовать t-критерий Стьюдента или Z-критерий нормального распределения.
t-критерий
Стьюдента. Чаще
всего при лингвистических исследованиях
величина σ
неизвестна, поэтому в качестве
статистической характеристики выбирается
величина
,
имеющая распределение Стьюдента с v=n-1
степенями свободы. Примем уровень
значимости α=0,05
а) найдём
по таблице Стьюдента
,
где ν
= 6-1=5, α=0,05,
2,57;
б)
вычислим по формуле
статистическое значение критерия, где
=6,13;
=7,
S=0,43;
;
в) так
как
,
то гипотеза H0
отвергается и принимается альтернативная
гипотеза Н1:
Z-критерий. Пусть в данной задаче величина σ известна: σ=S=0,43.
а) определим при α=0,05 по таблице Z-распределения: Zα=1,96;
б) найдём
статистическое
значение Z-критерия
;
=
-4,95; в) сравним Zα
и Z.
Так как
,
то гипотеза Н0
отвергается, принимается гипотеза Н1.
Следовательно,
расхождения между
и средней длиной словоформ во всех
языках мира являются существенными.
Это связано с тем, что славянские языки используют флективно-аналитическую технику оформления именных форм, которые составляют значительную часть деловых и научно-технических текстов во всех языках. Такую технику отличает небольшое удлинение основы.
Проверка гипотез с помощью непараметрических критериев
При решении многих теоретических и прикладных вопросов лингвистики, возникает необходимость рассмотреть характер распределения лигвистической генеральной совокупности. Эта задача решается путём проверки статистических гипотез о тождестве двух эмпирических распределений или об идентичности эмпирического и теоретического распределения. Для проверки непараметрических гипотез могут применяться различные критерии: критерий Пирсона, критерий Колмогорова-Смирнова, критерий асимметрии и эксцесса, графический способ, упрощённые критерии (критерий Романовского, числа Вестергарда, вариационная сетка Турбина) и т п.
