- •Часть1. Тематический план дисциплины
- •Часть 2. Конспекты лекций 8
- •Часть 3. Вопросы и задания для практических работ. 79
- •Часть 4. Задания для самостоятельной работы 92
- •Часть 5. Лабораторные работы 97
- •Часть1. Тематический план дисциплины «Основы математической обработки информации»
- •Часть 2. Конспекты лекций
- •1.1. Исторические периоды развития математики.
- •1.2. Основы теории множеств
- •1.2.1. Начальные понятия теории множеств.
- •2.1.3. Основные понятия комбинаторики
- •2) Перестановка из n элементов – это размещение из n элементов по n.
- •2.2. Начальные понятия теории вероятностей
- •2.2.2. Определения вероятности событий
- •3.1. Действия над событиями
- •3.2. Вероятность суммы событий
- •3.3. Вероятность произведения событий.
- •3.4. Вычисление вероятности цепочек языковых элементов.
- •3.5. Формула полной вероятности. Формула Байеса.
- •1 H2) Формула полной вероятности.
- •3.6. Теорема Бернулли
- •3.7. Вероятностное моделирование порождения текста.
- •3.8. Предельные теоремы в схеме Бернулли
- •4.1. Случайная величина (св). Начальные понятия.
- •4.2. Функция распределения св (интегральная функция распределения) f(X)
- •4.3. Функция плотности вероятности нсв f(X)
- •4.4. Числовые характеристики св
- •4.5. Законы распределения случайных величин.
- •1) Биномиальный закон распределения.
- •2) Закон Пуассона
- •3) Нормальное распределение (закон Гаусса)
- •6. Вероятность попадания нсв х в заданный промежуток
- •7. Логнормальное распределение
- •5.1. Система двух случайных величин (двумерная св) (1 час)
- •5.1.1. Начальные понятия.
- •5.1.2. Операции над независимыми случайными величинами
- •5.1.3. Числовые характеристики системы двух св
- •5.2. Предельные теоремы теории вероятностей: Закон больших чисел, Центральная предельная теорема и их значение для лингвистического эксперимента.(1 час)
- •5.2.1. Теорема Чебышева для среднего арифметического случайных величин.
- •6.1. Предмет математической статистики. Генеральная и выборочная совокупность.
- •6.2. Статистическое распределение выборки и его графическое изображение
- •6.2.1. Дискретный статистический ряд
- •6.2.2. Интервальный статистический ряд
- •6.3. Числовые характеристики статистического распределения
- •Лекция 7. Элементы теории статистических оценок и проверки гипотез.
- •7.1 Статистические оценки параметров распределения и их свойства. Оценка параметров генеральной совокупности по выборке
- •7.1.1. Свойства статистических оценок:
- •7.1.2. Точечные оценки математического ожидания, дисперсии и вероятности.
- •7.1.3. Интервальное оценивание параметров.
- •7.1.4. Доверительные интервалы для параметров нормального распределения
- •7.1.5. Число степеней свободы
- •7.1.7. Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •7.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез.
- •7.2. Проверка статистических гипотез.
- •7.2.1. Статистические гипотезы.
- •7.2.2. Статистический критерий
- •4.2.3. Принцип проверки статистических гипотез
- •7.2.4. Ошибки при проверке гипотез
- •7.2.5. Проверка лингвистических гипотез с помощью параметрических критериев.
- •7.2.6. Проверка гипотез с помощью непараметрических критериев.
- •Часть 3. Вопросы и задания для практических работ.
- •I. Элементы комбинаторики.
- •Часть 4. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1. Значения интегральной функции Лапласа
- •Приложение 2. Критические значения ( распределение Пирсона)
3.4. Вычисление вероятности цепочек языковых элементов.
В лингвистике очень редко имеют дело с независимыми событиями, т.к. вероятность появления букв, фонем, слогов, морфем и т.д. зависит от позиций этих лингвистических объектов в слове, словосочетании, предложении. Например, вероятность появления буквы п в начале слова равна 0,207, а после начального я условная вероятность её появление составляет 0,001.
Каждый текст можно представить, как совместное наступление некоторой линейной последовательности лингвистических событий – совместное появление цепочки словоформ, последовательности слогов, цепочек фонем или букв. Определение вероятности появления этих цепочек опирается на теорему умножения вероятностей.
Пример. Определите вероятность появления в русских текстах двухбуквенного сочетания «яn» в начале слова, если вероятность появления буквы я в начале слова равна 0,018, а вероятность появления буквы п после начального я составляет 0,001.
3.5. Формула полной вероятности. Формула Байеса.
1 H2) Формула полной вероятности.
П
H1 A
H3
Hn
Тогда вероятность события А находится
по формуле (формула полной вероятности):
Доказательство:
2) Формула Байеса (формула проверки гипотез).
Пусть событие А уже произошло, тогда вероятность того, что появилось событие Нi, где i=1,2,3,…n, равна:
(Формула Байеса),
где P(A) можно найти по формуле полной вероятности.
Доказательство:
Приравнивая правые части равенств получаем
Отсюда имеем
Формула полной вероятности используется для вычисления общей вероятности лингвистического события при условии, что известны вероятности в узко-тематических выборках.
Формула Байеса, по которой вычисляется апостериорная вероятность лингвистических гипотез, используется в различных лингвистических исследованиях, в том числе, в теории решения задач, применяемой в инженерной лингвистике.
Пример.11 Имеется английский научно-технический текст общей длиной в 400 тыс. словоупотреблений (около тысячи стандартных страниц). По тематике этот текст распадается на следующие 4 выборки разной длины:
- радиоэлектроника – 200 тыс. словоупотреблений;
- автомобилестроение – 100 тыс. словоупотреблений;
- судовые механизмы – 50 тыс. словоупотреблений;
- строительные материалы. – 50 тыс.словоупотреблений.
Словоформа ‘are’ - множественное число настоящего времени глагола ‘to be’ ‘быть’ употреблена…
в 1-й выборке-1610 раз, во 2-й -1273, в 3-й – 469, в 4-й – 346 раз.
а) Необходимо определить вероятность того, что извлечённое наугад из данного текста словоупотребление будет словоформой ‘are’.
б) Пусть наугад извлечённая словоформа в выборке оказалась глаголом ‘are’. Найти вероятность того, что эта словоформа извлечена из текста по электронике.
3.6. Теорема Бернулли
Пусть производится n независимых одинаковых испытаний.
Событие А в каждом из испытаний может появиться с вероятностью p, и не появиться с вероятностью q=1-p.
Тогда вероятность того, что событие А появится m раз из n находится по формуле
- формула Бернулли.