- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
Часть 2. Вопросы и задания для практических работ.
Практическое занятие 1
1. Элементы комбинаторики
Цель: Научится решать простейшие комбинаторные задачи лингвистического содержания на нахождение числа перестановок, сочетаний, размещений с повторениями и без повторений.
Теоретические вопросы
Определение комбинаторики, как раздела математики. Применение комбинаторики к решению лингвистических задач.
Правила сложения и умножения.
Основные понятия комбинаторики:
а)
размещение, число размещений из n
элементов по m (m
n),
размещения с повторениями;
б) перестановка, число перестановок из n элементов; перестановки с повторением;
в) сочетание, число сочетаний из n элементов по m (m n), сочетания с повторением.
Практические задания.
1). Из 30 букв русского алфавита (исключая ь, ъ, й) необходимо выбрать 2 для кодирования некоторой информации. Сколько имеется возможностей такого выбора, при условии, что
а) буквы кода не повторяются;
б) код может содержать одинаковые буквы?
2). В школе 5 классов на одной параллели. Сколько существует
способов присвоения каждому классу заглавной буквы из первых пяти букв русского алфавита?
3). Определите число перестановок с повторениями, которые можно получить из букв, составляющих слово ФИЛОЛОГИЯ.
4). Сколькими способами можно рассадить учеников класса, если в классе 24 ученика, и за каждой партой должно сидеть 2 человека?
5). Из слов предложения «Сегодня моросит дождь» составляют двухсловные предложения. Сколько таких предложений можно составить?
6). Сколькими способами можно выбрать 3 согласных и 2 гласных буквы из алфавита русского языка для формирования 5-буквенного «слова»?
7). Сколько перестановок можно составить из всех букв слова «ЛОГИКА», в которых на первом месте стоит буква «Л», а на последнем «А»?
Дополнительные задания.
8). Из букв слова «МАТЕРИЯ» составляют 4-буквенные «слова» (буквы в «слове» не повторяются). Сколько таких «слов» …
а) начинаются с буквы М; б) начинаются с буквы А, а заканчиваются на Я; в) не начинаются с буквы Т?
9. Сколькими способами можно расставить буквы слова ФОНЕТИКА так, чтобы
а) две буквы Н и Е оказались рядом? б) не оказались рядом?
Формулы комбинаторики |
||
Число размещений из |
Число перестановок из n элементов |
Число сочетаний из |
Число размещений с повторениями |
Число перестановок с повторениями, (где -количество одинаковых элементов в i – той группе) |
Число сочетаний с повторениями |
2. Начальные понятия теории вероятностей.
Теоретические вопросы
Предмет теории вероятностей, применение теории вероятностей в лингвистике.
Начальные понятия теории вероятностей:
а) испытание; б) событие: случайное, достоверное, невозможное;
в) совместные и несовместные события; г) элементарные события;
д) событие, благоприятное событию А; е) полная группа событий, пространство элементарных событий; ж) противоположные события; з) равновозможные события.
.Классическое определение вероятности. Свойства вероятности.
.Статистическое определение вероятности
Практические задания.
1). Из карточек разрезной азбуки составлено слово «ЭНЦИКЛОПЕДИЯ». Карточки перемешивают и произвольно выбирают одну из них.
а) Приведите пример: достоверного, невозможного и случайного события, совместных и несовместных событий, противоположных событий; элементарных и неэлементарных событий; равновозможных событий, которые могут произойти при данном испытании.
б) Перечислите события, которые образуют полную группу событий, пространство элементарных событий.
в) Найдите события, благоприятные событиям А=«Извлечена карточка с глухой согласной буквой», В=«появилась гласная буква».
г) Найдите вероятность событий: «извлекли карточку с буквой Н»; «извлекли карточку с буквой И»; «извлекли карточку с гласной буквой»; «извлекли карточку с буквой А»; «извлекли карточку с гласной или согласной буквой».
2). Опыт состоит в угадывании буквы после цепочки букв КОТОРО... Назовите события, образующие полную группу.
3). При условии, что в задаче №1 извлекается произвольно 3 карточки, найдите вероятность событий:
М - « все извлечённые карточки с гласными буквами»;
Q - «извлечено 2 карточки с гласными буквами и одна с согласной».
4). При исследовании прозы Пушкина и Лермонтова обнаружено, что на каждые 500 знаменательных слов у Пушкина приходится около 26 простых самостоятельных предложений, а у Лермонтова – 11. Найдите относительную частоту употребления простых предложений у Пушкина и Лермонтова. [Головин, 1971, с. 141]
Где – классическая вероятность события А, n – число равновозможных, несовместных событий (исходов), которые могут произойти при данном испытании; m – число событий, благоприятных событию А (из n)
|
n m – количество появлений события А в n испытаниях.
|
Практическое занятие 2.
Основные теоремы теории вероятностей
Цель: научиться использовать основные формулы теории вероятностей для нахождения вероятностей лингвистических событий.
Теоретические вопросы:
Операции над событиями: сложение и умножение событий.
Теорема сложения вероятностей для совместных и несовместных событий.
Следствия из теорем сложения вероятностей.
Зависимые и независимые события.
Условная вероятность
Вероятность произведения зависимых и независимых событий.
Формула полной вероятности. Формула Байеса.
Независимые испытания. Теорема Бернулли.
Практические задания:
1). Три студента решают задачу. Событие А = «задачу решил первый студент»; В = «задачу решил второй студент»; C = «задачу решил третий студент».Выразить через А, В, С события:
D= «все студенты решили задачу»;
Е= «задачу решил только первый студент»;
F = «задачу решил хотя бы один студент»;
К= «задачу решил только один студент»;
М = «ни один студент не решил задачу».
2). В корзине розы разных цветов. Произвольно извлекают две розы.
Событие А ={выбрана красная роза}; В = {выбрана белая роза}.
Что
означают события:
3). Вероятность появления простого самостоятельного предложения в текстах Н.М. Карамзина равна 0,065, а в текстах А.С. Пушкина – 0,132. Из текстов каждого автора извлекается по одному предложению. Найти вероятность событий: а) «оба предложения простые»; б) «хотя бы одно предложение простое»; в) «одно из предложений простое»; г) «оба предложения не являются простыми».
4). Слово «МАТЕМАТИКА» составлено из букв разрезной азбуки. Карточки с буквами этого слова положены в урну.
Найти вероятность события А=«Получится слово МАТЕМАТИКА», если: а) последовательно извлекается карточка с буквой и возвращается обратно (безусловная вероятность); б) карточка с буквой извлекается и не возвращается обратно (условная вероятность).
5). Имеется английский научно-технический текст общей длиной в 400 тыс. словоупотреблений (около тысячи стандартных страниц). По тематике этот текст распадается на следующие 4 выборки разной длины: радиоэлектроника – 200 тыс. словоупотреблений; автомобилестроение – 100 тыс.; судовые механизмы – 50 тыс.;
n |
200 000 |
100000 |
50000 |
50000 |
m |
98 |
57 |
9 |
19 |
Словоформа ‘machine’ встретилась
в 1-й выборке-98 раз, во 2-й -57, в 3-й – 9, в 4-й – 19 раз.
Определить вероятность того, что извлечённое наугад из данного текста словоупотребление будет словоформой ‘machine’.
Пусть наугад извлечённая словоформа в выборке оказалась словоформой ‘machine’. Найти вероятность того, что эта словоформа извлечена из текста а) по электронике, б) по автомобилестроению; в) по судовым механизмам; г) по строительным материалам.
6). Вероятность появления имени существительного в румынских текстах по электронике равна 0,59 (статистическая вероятность). Найдите вероятность того, что из 5 произвольно выбранных слов из румынского текста по электронике… а) ровно 2 будут существительными, б) более двух будут существительными.
7). Вероятность поражения мишени при одном выстреле равна 0,75. Сколько независимых выстрелов необходимо произвести, чтобы вероятность поражения мишени была больше 0,95?
Практическое занятие 3 Случайные величины.
Цель: для простейших лингвистических величин научиться находить закон распределения, функцию распределения, функцию плотности распределения вероятности, числовые характеристики.
Теоретические вопросы
Понятие случайной величины (СВ).
Дискретные и непрерывные случайные величины. Примеры лингвистических случайных величин.
Закон распределения, многоугольник распределения дискретных случайных величин (ДСВ).
Функция распределения случайных величин (интегральная функция распределения) и её свойства.
Функция плотности распределения (плотности вероятности) непрерывной случайной величины (НСВ) (дифференциальная функция распределения). Свойства функции плотности распределения.
Числовые характеристики случайных величин (математическое ожидание, дисперсия, среднее квадратичное отклонение) и их свойства.
Виды распределения случайных величин: биномиальное распределение, распределение Пуассона для ДСВ, нормальное распределение, логнормальное распределение для НСВ.
Система двух СВ. Независимые СВ. Закон распределения независимых случайных величин.
Практические задания:
Х |
0 |
1 |
2 |
Р |
0,2 |
0,5 |
0,3 |
2). Производится извлечение трехсловных словосочетаний из научно-технических текстов. Именной группой считается словосочетание, в котором существительное стоит на последнем месте. Считая, что вероятность употребления существительного в научно-техническом тексте равна 0,4, а) составить закон распределения СВ Х ‑ «число именных групп при одновременном извлечении двух словосочетаний»; б) определить среднее квадратическое отклонение случайной величины Х; в) найти функцию распределения F(x) и построить её график.
3). Примем, что средняя длина предложения в английских научно-технических текстах равна 10 словоформ. Относительная частота появления существительных в подъязыке английской электроники близка к 1/3(априорная вероятность). Считая появление отдельных словоформ в предложении независимыми событиями текста, найти математическое ожидание М(Х) и дисперсию D(Х) случайной величины Х=«число словоформ в предложении научно-технического текста».
Вероятность появления конкретного слова в большом тексте мала. Например, вероятность появления словоформы «море» в сказках А.С. Пушкина равна 0,004.
а) найти вероятность того, что в отрывке из сказок А.С. Пушкина длиной 500 словоформ слово «море» появится 3 раза; появится больше 3-х раз.
б) найти М(Х) и D(Х) случайной величины X- «число словоформ «море» в тексте длиной 500 словоформ».
в) найти
наивероятнейшее
число появления словоформы «море»
в тексте длиной 500 словоформ
(наивероятнейшее число появления события
х0
определяется по формуле
5) Случайная величина X задана
функцией
распределения
а) найти функцию плотности распределения вероятностей f(х);
б) построить графики функций f(x) и F(x);
в) определите вероятность попадания случайной величины X в интервалы (1; 2,5), (-∞ ; 0) и (5; ∞ ).
6) Случайная величина Х задана дифференциальной функцией распределения вероятностей
а) Найдите закон распределения случайной величины Х?
б) Определите числовые характеристики М(Х), D(Х), σ(Х).
в)
Постройте график функции плотности
вероятности
.
г) Найдите вероятность попадания случайной величины X в интервалы (-1; 3), (-∞ ;-1) и (2; ∞ ).
7) Найти закон распределения двумерной случайной величины Z=2X-3Y, если X и Y независимые СВ, а законы их распределений заданы таблицами:
-
YХ
-1
0
2
Р
0,1
0,2
0,7
0
1
P
0,4
0,6
Практическое занятие №4.
Элементы математической статистики.
Цель: научится производить первичную обработку лингвистических данных, находить числовые характеристики выборки, оценивать по выборке параметры генеральной совокупности.
Теоретические вопросы
Предмет и основные задачи математической статистики, математической статистики. Статистические исследования в лингвистике.
Генеральная и выборочная совокупность. Объем выборки, объём генеральной совокупности.
Репрезентативность выборки. Виды выборок. Способы отбора.
Вариационный ряд. Частота и относительная частота вариант выборки. Дискретный статистический ряд. Полигон.
Интервальный статистический ряд. Гистограмма.
Числовые характеристики выборки: а) выборочное среднее;
б) выборочная дисперсия; в) исправленная выборочная дисперсия;
г) исправленное выборочное среднее квадратическое отклонение.
Числовые характеристики вариационного ряда: мода, медиана, размах вариаций.
Статистическое оценивание неизвестных числовых характеристик случайных величин по выборке. Свойства статистических оценок.
Точечные оценки математического ожидания, дисперсии и вероятности по выборке.
Интервальная оценка параметров. Доверительный интервал, доверительная вероятность, уровень значимости. Доверительные интервалы для математического ожидания нормально распределённой генеральной совокупности.
Практические задания:
1). Для исследования распределения букв, передающих гласные, из русского газетного текста извлечено 10 газетных фрагментов по10 букв в каждом. При этом получен следующий неупорядоченный ряд появления гласных в каждом фрагменте: 4;4;4;5;3;4;5;6;4;3.
а) Представьте выборку в виде вариационного ряда.
б) Определите моду, медиану и размах вариаций выборки.
в) Постройте дискретный статистический ряд частот и относительных частот.
г) Постройте полигон относительных частот
д) Найдите числовые характеристики статистического распределения: среднее выборочное, выборочную дисперсию, исправленную выборочную дисперсию, исправленное среднее квадратическое отклонение (стандартное отклонение).
е) Определите по выборке наилучшие оценки математического ожидания М(Х) и дисперсии D(X) генеральной совокупности Х-частота гласных в русском публицистическом тексте.
2). При изучении Коми-Пермяцкого языка, выбрано 16 фрагментов по 100 словоупотреблений. Для каждого фрагмента найдено среднее значение длины слова. По результатам измерений получена выборка: 3,7; 5,2; 5,7; 6,2; 4,7; 4,2; 6,7; 7,2; 5,2; 6,2;4,7; 3,9; 5,8; 6,5; 5,1; 7,7. Постройте по выборке интервальный статистический ряд и гистограмму относительных частот.
3) Исследуются стихотворные тексты Николая Заболоцкого. Выбрали 10 фрагментов из стихов поэта по 100 словоупотреблений в каждой и нашли количество глаголов в каждом фрагменте. Получены следующие данные: 16; 20; 13; 15; 16; 14; 13;19; 12; 18.
При условии, что частота употребления глаголов рапределена по нормальному закону, определить абсолютную и относительную ошибку измерения среднего значения числа глаголов в стихотворных текстах Н. Заболоцкого и построить для истинного среднего значения 95% доверительный интервал.
4) Используя данные примера 3, определить, какое минимальное количество фрагментов из текстов стихов Н. Заболоцкого необходимо взять, чтобы а) абсолютная ошибка измерения среднего значения числа глаголов не превышала 2 с доверительной вероятностью 0,90; б) относительная ошибка измерения не превышала 5% с надёжностью 95%.
5) В молдавском публицистическом тексте длиной в 200 тыс. словоупотреблений встретилось 31286 глагольных форм. Определить с вероятность 95% доверительные границы вероятности появления во взятом тексте глагольгого словоупотребления.

–
число независимых одинаковых испытаний;
-
статистическая вероятность события
А