- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
Интервальная оценка параметров генеральной лингвистической совокупности.
Одним из важных вопросов квантитативной лингвистики является выявление объективных статистических признаков для отдельных разновидностей языка (стилей, подъязыков, жанров, авторского стиля). Для этого из каждой разновидности языка как генеральной совокупности извлекают выборки, строят доверительные интервалы для параметров каждой выборки с большой надёжностью. Если доверительные интервалы пересекаются, то данный параметр не может являться различительной характеристикой рассматриваемых стилей. В противном случае, параметр принимается за объективную статистическую характеристику различия стилей и жанров.
Задача
4.
Была сделана попытка разграничить жанры
и стили современного украинского языка
с помощью частоты употребления в них
глагольных словоформ. Извлечено 250
фрагментов по 500 словоупотреблений в
каждом. Для каждого жанра и стиля была
вычислена средняя частота глагольных
словоупотреблений
и исправленное выборочное среднее
квадратическое отклонение S,
а также S(
)
.
Результаты показаны в таблице:
-
Жанры и стили современного украинского литературного языка
Число выборок
S
S( )
Язык художественной литературы
Драма
Проза
Поэзия
60
90,5
91,2
82,1
15,36
13,45
10,44
1,98
1,73
1,48
Общественно-политическая проза
60
48,0
10,55
1,35
Научно-техническая проза
50
61,7
9,92
1,40
Таблица2. Статистические характеристики употребления глаголов
в различных стилях современного украинского языка
Используя таблицу 2, построить доверительные интервалы для математического ожидания частоты употребления глагольных форм с доверительной вероятностью 0,95 (0,996) для каждого стиля и жанра и сделать вывод о возможности или невозможности обособления данных жанров и стилей с помощью такого статистического параметра, как частота употребления глагольных форм.
Задача 5. В молдавском публицистическом тексте длиной в 200 тыс. словоупотреблений встретилось 31286 глагольных форм. Определить с вероятность 95% доверительные границы вероятности появления во взятом тексте глагольгого словоупотребления.
Решение.
Распределение глагольных форм в тексте
при большом количестве испытаний можно
считать нормальным. Воспользуемся
формулой для нахождения доверительного
итервала вероятности события А=«число
глагольных форм»:
,
где–
–
относительная частота события А.
–
абсолютная
ошибка.
Определим
t
из равенства
:
.
По таблице значений функции Лапласа находим t=1,96.
Тогда
Доверительный интервал для оценки вероятности события А
(0,1564-0,0016; 0,1564+0,0016)
Ответ: вероятность появления глагольного словлупотребления в молдавских публицистических текстах попадает в интервал (0,1548;0,1580) с надёжностью 95%.
