- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
5.3. Числовые характеристики статистического распределения
Среднее
выборочное
– среднее значение выборки
Выборочная
дисперсия
– среднее значение квадрата отклонения
значений выборки от выборочного среднего.
Часто
используют более простую формулу для
вычисления выборочной дисперсии:
Исправленная
выборочная дисперсия
:
(является лучшей оценкой дисперсии генеральной совокупности)
Исправленное
выборочное среднее квадратическое
отклонение S
Для расчёта числовых характеристик в случае интервального статистического ряда используется дискретный ряд, вариантами которого являются середины интервалов.
Числовые характеристики вариационного ряда.
Мода Мо* – значение вариационного ряда, имеющее наибольшую частоту.
Размах
вариаций
R
=
.
Медиана
Ме*
– серединное значение вариационного
ряда. Если ряд имеет нечётное число
членов, то медиана равна члену ряда,
находящемуся посередине. Если ряд имеет
чётное число членов, то медиана равна
среднему арифметическому двух членов,
расположенных в середине вариационного
(проранжированного) ряда:
,
если n=2k
– чётное;
если
n=2k+1
– нечётное.
Если мода, медиана и среднее выборочное почти не отличаются друг от друга, то можно говорить о симметричности распределения изучаемого признака.
Пример. По данным задачи 1 вычислите очисловые характеристики статистического распределения и вариационного ряда.
Решение. 1) Используем дискретный статистический ряд, построенный в задаче 1.
Мо=1; Ме=(3+5)/2=4; R=8-1=7.
Ответ: Средняя длина словоупотреблений в прозе Зинаиды Гиппиус равна 4 со стандартным отклонением 2,9. Так как Мо; Ме и имеют не близкие значения, то длины словоупотреблений распределены неравномерно.
2) Используя интервальный статистический ряд, построенный в задаче 2, построим дискретный ряд из середин интервалов:
|
40 |
80 |
120 |
160 |
200 |
240 |
280 |
320 |
|
2 |
4 |
19 |
12 |
9 |
2 |
1 |
1 |
Найдём числовые характеристики для полученного ряда.
Выборочную дисперсию определим по формуле
Ответ: Приближённая среднее время произношения китайского слога 150 м/с со стандартным отклонением 37 м/с.
В лингвистических исследованиях встречаются ситуации, когда дать точную количественную характеристику признака (метрическое шкалирование) невозможно или нецелесообразно. В этом случае используют порядковое или номинативное шкалирование.
Порядковое шкалирование используют в том случае, когда условие эксперимента позвляют нам ранжировать варианты. Например, при составлении частотных словарей опирающихся на малые выборки, пользоваться частотами отдельных слов нецелесообразно, поскольку статистическая ошибка при определении этих частот велика. Поэтому, здесь рассматривается порядок (ранг) расположения отдельных форм или словосочетаний.
Номинативное шкалирование применяют тогда, когда признак лингвистических единиц не может быть оценен количественно и не содержит возможности их ранжирования. Пользуясь определённым правилом, объекты группируются по разным классам так, чтобы внутри класса они были идентичны по измеряемому свойству. Каждому классу даётся наименование и обозначение, обычно числовое. Примером может служить группировка словоформ по семантическим или грамматическим классам.
Лекция 6. Элементы теории статистических оценок
и проверки гипотез
Выборочная совокупность текста интересует лингвиста как математическая модель, с помощью которой он может оценить вероятностные характеристики всей генеральной совокупности и раскрыть закономерности нормы языка.
Переход от статистической модели выборки текста к вероятностным характеристикам норм языка связан с решением трёх задач:
- по
характеристикам
вариационного ряда необходимо численно
оценить скрытые от прямого наблюдения
параметры
соответствующего распределения
генеральной совокупности, то есть
параметры, выступающие в качестве
вероятностных характеристик нормы
языка и его разновидностей;
- по данным вариационного ряда следует оценить характер генерального распределения;
- имея в своём распоряжении 1 и 2 необходимо решить важнейшую технологическую задачу лингвистического исследования, состоящую в определении того, какой объём исследуемого текста даст достаточно надёжные лингвистические результаты. [Пиотровский, 1977, с 266]
